当前位置:首页 > 报告详情

【原生智能】原生智能生而智能_part+4.pdf

上传人: 张** 编号:169132 2024-07-06 32页 3.20MB

1、【原生智能】分论坛 原生智能,生而智能 HiAI开放端侧自定义计算编程:Ascend C目录Ascend C与自定义算子介绍场景及收益:特性快人一步,开发端云共享接入与生态:生态开放繁荣,资料丰富友好Ascend C与自定义算子介绍遵循遵循C/C+C/C+标准规范标准规范自动化流水并行调度自动化流水并行调度结构化核函数编程结构化核函数编程CPU/NPUCPU/NPU孪生调试孪生调试匹配用户开发习惯获得最优执行性能简化算子开发逻辑提升算子调试效率50+50+高阶高阶APIAPI助力快速编程,计算单元自动融合调度助力快速编程,计算单元自动融合调度高阶API操作简便,快速实现融合算子编程5 5步实现

2、步实现MatmulMatmul矩阵乘算子矩阵乘算子创建Matmul对象初始化&自动生成Tiling策略设置左矩阵A、右矩阵B、Bias矩阵乘操作结束操作CubeCube计算单元与计算单元与VectorVector计算单元计算单元同步执行同步执行算子性能提升5-18倍不等TimeCube执行矩阵乘计算Vec执行SoftmaxVector核向量计算Cube核矩阵计算基于预封装API实现业务融合算子AttentionQKV 提取特征值AttentionFFN 特征非线性处理AttentionScore 特征权重计算softmax Tiling融合BoostAttention实现实现启动自定义算子开发

3、计划启动自定义算子开发计划众多合作伙伴众多合作伙伴XXXX客户融合算子开发案例客户融合算子开发案例2人月 2 2人周人周融合算子开发效率5 5倍倍+性能同比单算子提升使能开发者周级完成大模型典型融合算子开发使能开发者周级完成大模型典型融合算子开发Ascend CAscend C简介简介:Davinci NPUDavinci NPU统一算子编程语言统一算子编程语言核内支持自动化流水并行,充分使能计算性能最大化孪生调试技术,充分发挥CPU和NPU的调测优势,提升算子调试效率采用标准C+语法,基于类库API进行编程,API分层分级,兼顾易用数据搬运API矩阵计算API向量计算API基本数据类型:Gl

4、obalTensor,LocalTensorC+类库内存管理API任务同步APIAPI基础基础APIAPI自由度高易用性低高阶高阶APIAPI自由度低易用性高结构化核函数编程,快速搭建算子实现代码框架Stage1搬入/CopyInStage2计算/ComputeStage3搬出/CopyOutkernelInitProcess输入数据从Global内存搬运到Local内存使用Local内存数据进行计算计算结果从Local内存搬运到Global内存内存初始化、创建队列资源逻辑错误定位数据计算错误定位内存问题定位CPU域调试功能和精度仿真调试仿真调试Profiling流水图/指令日志/数据日志上板

5、调试上板调试板上执行时间统计/数据打印NPU域调试性能GDBGDB调试调试添加printf、cout打印调试ASSERT断言调试调试手段解决痛点性能问题定位算子同步问题定位Ascend CAscend C特点特点:易上手、高性能、高效率、高易用易上手、高性能、高效率、高易用Ascend CAscend C由云到端,业界首次开放端侧由云到端,业界首次开放端侧NPUNPU自定义编程自定义编程AI模型端侧NPU软件栈传统端侧AI模型部署方式开放NPU自定义编程后的部署方式算子全部支持部署成功异构、损失性能部署失败YNNAI模型端侧NPU软件栈算子全部支持部署成功YN使用Ascend C开发自定义算子

6、场景及收益:特性快人一步,开发端云共享自研算子,不便对外透露非标算子,官方难以通过算子库支持更高性能/能效诉求,需要融合算子AI模型前后处理,传统CV算法大模型定制算子自由定制,不受约束大模型时代,自定义算子承载关键竞争力大模型时代,自定义算子承载关键竞争力开发APP新特性发现算子不支持提交算子需求给HarmonyOSHarmonyOS接收需求HarmonyOS开发并发布新版本新特性上线自行使用Ascend C开发不支持的算子约6个月约2周特性上线自主可控,抢占先机,快人一步特性上线自主可控,抢占先机,快人一步适用场景适用场景特点特点基础算子库基础算子库 内部业务极致优化 Top生态伙伴极致优

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了华为的Ascend C编程语言及其在AI模型端侧NPU自定义编程中的应用。Ascend C是一种遵循C/C++标准规范的编程语言,具有自动化流水并行调度和结构化核函数编程等特点,能够提升算子调试效率和执行性能。华为提供了50+高阶API,帮助开发者快速编程并实现融合算子编程。通过Ascend C,开发者可以快速搭建算子实现代码框架,并且能够根据用户的个性化差异进行针对性的适配,提供具有个性化特点的音乐体验。此外,华为还提供了端云协同的解决方案,覆盖全平台,实现低成本音质更清晰的效果。根据网易云音乐的实践分享,使用Ascend C算子自定义编程能力,可以进行端侧硬件推理和播放设备的适配,提供更多定制化用户个性化音乐体验。
"Ascend C如何提升算子开发效率?" "如何利用HiAI实现端侧自定义算子开发?" "网易云音乐如何通过HiAI提升音质体验?"
客服
商务合作
小程序
服务号
折叠