《17-林书塔.pdf》由会员分享,可在线阅读,更多相关《17-林书塔.pdf(14页珍藏版)》请在三个皮匠报告上搜索。
1、玄铁多核 RTOS 系统平台介绍林书塔阿里巴巴达摩院 技术专家Contents目录01RTOS 技术生态合作共建02玄铁 RTOS 版本发展与规划03实时多核系统典型场景01实时多核系统典型场景IoT 物联网低功耗、性能要求不高System BusI/OI/OMemoryAIoT 智能语音、视频视觉智能化程度提高、有一定的算力需求、异构多核架构、核间通信损耗、存储资源浪费System BusI/OI/OMemoryMemorySHMAIoT 实时并行计算算力需求增加的同时注重实时性、同构多核架构System BusINTCCIUL2 CacheI/OI/OM玄铁 RTOS 单核到多核系统的演变
2、玄铁同构多核芯片(SoC)CPU1CPU0CSI-NNTASK1数据存储空中升级TASK3图像、视频服务TASK4机器学习TASK5 AI计算TASK2播放器服务CPU2CPU3PlayerISPVideoFOTAFile SystemDSPMatrixVectorRTOS Kernel(SMP)负载均衡可以动态将任务分配给空闲的处理器,防止单个CPU负载过高导致的系统风险,负载不均系数(LIF)可达0.08左右资源最大化共享一份操作系统实例,可以有效的节省45%左右的存储和运行内存空间算力可独占可以将关键任务绑定至固定的处理器,独占计算资源,从而提高整体性能多核实时交互多核数据交换,无需通过
3、核间通讯模块,通常利用自旋锁来保证多核互斥;对组件进行优化,提升实时性玄铁 RTOS 多核典型场景架构并行启动、并行加载的快启机制,IPC典型场景识别启动200msTickless+RAM保持睡眠模式,低功耗KWS唤醒快启低功耗框架典型场景资源:Flash 3.5MB,RAM 4MB250MHz主频下,480P可达30FPS基于vector的图行加速基于vector加速的视觉AI算法,相比同等级ARM芯片性能提升100%离线小模型语音AI算法,典型资源:FLASH 4MB,RAM 4MB基于vector加速的AI算法轻量级语音播放器:Flash 35KB,RAM 20KB,MP3解码开销40M
4、Hz,首播延时 20ms极致优化的蓝牙协议栈:Flash 100KB,RAM 20KB轻量级领域组件系统内核基础开销Flash 10K,RAM 8K并行启动并行加载识别启动200+msFlash开销 20KB差分+压缩,效率=30%MMU虚拟内存管理PGD/PMD/PTE三级虚实地址映射IPV4+TCP:Flash32.5K,RAM7.8KIPV6+TCP:Flash48.6K,RAM9.7K存储开销RAM 2kBFlash 3KB领域组件基础组件Vector向量加速480P/30FPS250MHzFlash 3.5M RAM 4MFlash 35KBRAM 20KBmp3解码开销40MHz首
5、播延时 20msKWS关键词唤醒,离线ASR算法典型语音设备资源:RAM 4MBFlash 4MBBLE Mesh协议栈RAM 20kB快速启动差分升级内核扩展LwIP协议栈KV存储系统图形加速音频播放器语音AI蓝牙协议栈视觉AI基于vector优化的AI算法相比同等级ARM芯片提升100%基于玄铁处理器深度优化的基础组件玄铁 RTOS 实时性关键性能数据Task1TimeTask2=T1-T0 T0T1T2T3PRI1=PRI2两个同等优先级的任务通过yield触发切换Task Switch高优先级任务主动挂起,低优先级恢复高优先级任务进行抢占Task1TimeTask2T0T1T2T3PR
6、I1 PRI2suspend=T1-T0 Task PreemptTask1TimeIRQ=T1-T0 任务触发外部中断,到中断服务子程序第一条指令,包括中断上下文保存Interrupt LatencyTask1TimeTask2=T1-T0 T0T1messagePRI1 PRI2低优先级任务通过消息队列发送数据至高优先级任务进行接收Intertask Messaging LatencyTask1TimeTask2=T1-T0T0PRI1 PRI2 PRI3Task3T1任务3等待信号量死锁,任务2唤醒任务1,任