《杨志明-深思考人工智能.pdf》由会员分享,可在线阅读,更多相关《杨志明-深思考人工智能.pdf(24页珍藏版)》请在三个皮匠报告上搜索。
1、深思考人工智能机器人科技(北京)有限公司创始人兼CEO杨志明 博士深思考端侧多模态大模型TinyDongni&Deepseek的创新实践演讲人:杨志明01020304背景介绍突出优势典型应用成功案例01背景介绍什么是端侧多模态大模型?什么是端侧多模态大模型?在设备本地(如智能手机、IoT设备、嵌入式系统等)运行的大规模深度学习模型,能够处理多种类型的数据,包括文本、图片、音频和视频等。其特点是参数规模不大,不需要网络传输,响应速度快,且可以保障用户数据的安全性。本地离线运行多模态处理低算力要求即时响应隐私安全保护轻量化设计手机电脑手表家庭NAS汽车AI萌宠医疗器械.为什么需要端侧多模态大模型?
2、01030204端侧应用场景广阔端侧场景市场广阔,包括:手机相册、个人文件存储、家庭NAS、医疗器械、机器人等等。据估计,至2032年全球AI端侧市场有1436亿美元。隐私与数据安全需求激增随着全球数据监管趋严,用户对隐私敏感的场景(如手表健康数据)要求数据本地处理,端侧模型可避免云端传输带来的泄露风险。实时交互性能需求升级个人电脑本地搜索、自动驾驶等需毫秒级响应的领域,依赖云端会导致延迟,端侧模型能实现即时多模态交互(如语音+视觉的实时翻译)。离线环境下的可靠服务野外作业、工业检测、网络覆盖差的地区等无网络环境(如显微镜图像分析)依赖端侧模型实现实时诊断。深思考端侧多模态大模型依托长期AI核
3、心技术的积累和落地经验,深思考发布了鸿蒙系统端的“TinyDongni”&“DeepSeek”超小端侧多模态大模型,并与国产算力模组适配,形成一揽子的端侧AI解决方案。深思考自研的端侧模型通过DeepSeek-R1优化的端侧模型强化场景下的多模态语义理解适配智能硬件与边缘计算场景聚焦垂直场景里的多模态信息(文本、图像、视频)的分析,内存占用降低了30%。实现低功耗、低延迟、低资源通过Token 数量压缩,有效降低首token 延迟多芯片协同并行处理能力和内存使用优化技术支持定制调优共同推动AI技术在端侧的应用和落地TinyDongni(1.5B/0.4B)DeepSeek(1B)深思考核心工作
4、使用自研Dongni-AMDC方法量化压缩了DeepSeekR1模型为 DeepSeek R1-1B端侧模型。使得DeepSeek R1-1B“长眼睛”具备视觉模态能力,从而增强为多模态模型。适配了开源鸿蒙操作系统(据悉也同时适配了Linux Ubuntu 22.04/统信UOS/Windows 10&11/Android 14)将TinyDongni”及“deepseek”超小端侧多模态大模型优化运行至国产算力模组,推出一站式解决方案。02TinyDongni突出优势针对不同任务支持将模型分解到不同芯片端,加速模型并行推理。多芯片协同并行处理采用顺序加载方法,先加载视觉编码器,再加载语言模型
5、,以减少内存占用。内存使用优化支持定制调优,基于基础大模型的通用能力快速适配多种下游任务。支持定制调优TinyDongni使用自研的Dongni-AMDC技术,对模型权重和输入同步压缩,可大量降低模型内存占用,提升编解码速度。创新的量化方法通过深度优化的算法架构与硬件协同设计,实现极致能效比,尤其适合边缘设备与资源受限场景的实时部署需求低功耗低延迟低资源图像编码器token数量极致压缩,成倍降低首次访问延迟。Token数量压缩降低首token延迟Deepseek-R1-1B突出优势模型量化使用自研的Dongni-AMDC方法量化压缩了DeepSeek R1模型为 DeepSeek R1-1B端
6、侧模型。Dongni-v多模态语义理解使用自研的多层次语义解码架构Dongni-v,通过自适应的模态交互机制实现图像和文本特征的跨模态对齐,赋予了Deepseek R1-1B模型多模态能力。创新量化算法Dongni-AMDC智能动态压缩兼顾性能与效率模型权重+输入数据双压缩:通过自适应策略同步优化模型结构与输入信息,显著降低计算负载,提升端侧推理效率。首Token延迟优化:输入稀疏压缩技术减少初始数据处理量,实现毫秒级响应,适合实时交互场景(如语音助手、手机相册搜索)。超低资源占用适配边缘设备多模态深度语义融合(D