《AI技术在教育智能硬件上的应用实践-张广勇.pdf》由会员分享,可在线阅读,更多相关《AI技术在教育智能硬件上的应用实践-张广勇.pdf(45页珍藏版)》请在三个皮匠报告上搜索。
1、AI技术在教育智能硬件上的应用实践张广勇网易有道/高性能计算负责人简介网易有道词典笔端侧AI算法优化端侧AI推理优化教育智能硬件成果和展望AIAI本质上是一种从数据中学习规律和知识的方法,可以在业务中的很多环节取代人的决策,大幅提高生产效率,甚至解决原来人解决不了的复杂问题。教育AI+教育用AI技术提高教和学各个环节的效率和效果AI+教育落地成功案例教育智能硬件教育智能硬件AI+教育+硬件市场规模预测2024年近千亿数据来源:前瞻产业研究院教育智能硬件特点功能聚焦学习产品以硬件为基础以内容和交互为核心以AI为技术OCR、NMT、TTS、ASR等离线功能端侧AI不依赖网络、隐私性、低延迟、高可靠
2、端侧AI面临的挑战算力限制内存限制功耗限制成本限制算法质量多应用部署平台平台FP32FP32算力算力(GFLOPS)(GFLOPS)Int8Int8算力算力(GOPS)(GOPS)内存内存(GB)(GB)云侧2080Ti GPU1345021500011端侧RK3566(4*A55)57.6CPU:230NPU:8001倍数234CPU:935NPU:26911端侧AI重要指标质量内存成本功耗速度简介网易有道词典笔端侧AI算法优化端侧AI推理优化教育智能硬件成果和展望有道词典笔有道词典笔上的技术扫描和点查技术光学字符识别OCR机器翻译NMT语音合成TTS语音识别ASR口语评测高性能端侧机器学习
3、计算库(EMLL)简介网易有道词典笔端侧AI算法优化端侧AI推理优化教育智能硬件成果和展望端侧AI算法优化模型裁剪参数共享量化知识蒸馏模型裁剪共享参数词向量的共享Press O,Wolf L.Using the output embedding to improve language modelsJ.arXiv preprint arXiv:1608.05859,2016.Xiao T,Li Y,Zhu J,et al.Sharing attention weights for fast transformerJ.arXiv preprint arXiv:1906.11024,2019.不同层
4、之间的共享量化高精度的浮点类型转化为低精度的整型计算浮点数运算使用量化运算知识蒸馏利用教师模型提升学生模型性能教师模型:大而慢学生模型:小而快知识蒸馏蒸馏的方法Word-level KDSentence-level KDKim Y,Rush A M.Sequence-level knowledge distillationJ.arXiv preprint arXiv:1606.07947,2016.简介网易有道词典笔端侧AI算法优化端侧AI推理优化教育智能硬件成果和展望端侧AI推理概述选择合适的AI芯片种类种类CPUCPUGPUGPUFPGAFPGAASICASIC特征逻辑控制、串行运算等通用
5、计算图像处理、密集型并行运算半定制IC可编程芯片计算能力和效率可根据算法定制能耗比低较低高很高灵活性高高一般低企业IntelAMDArmNVIDIAAMDXilinxAlteraGoogle(TPU)寒武纪(NPU)瑞芯微(NPU)AI推理实现方法开发模式开发模式解释解释优势优势劣势劣势NVIDIA GPUNVIDIA GPUARMARMNPUNPU推理框架通过graph调度执行模型上的每个op把模型加载到推理框架中自动部署易用、快速部署黑盒受限于支持的训练框架性能优化受限浪费内存TensorRTMNN、NCNN、Mace、tflite厂家提供SDK不统一pipeline利用C+和芯片上的开发
6、语言实现模型的每步计算过程不受限于训练框架优化不受限制节省内存开发周期长C+cuda cublas/cudnnC+、neon、第三方blas库自研计算库无低精度量化图 a 对称量化图 b 非对称量化uint8非对称量化量化公式:q=r+其中:r表示float真实值,q表示量化值S=maxmin255(缩放系数,float)Z=minS (零值量化值,uint8)对称量化量化公式:q=r其中:r表示float真实值,q表示量化值S=max127(缩放系数,float)有道开源EMLL(Edge ML Library)高性能端侧机器学习计算库端侧AI底层计算端侧AI底层主要耗时计算gemm(全连接