《冷延鹏-- 硅谷小模型技术实践及开源社区思考.pdf》由会员分享,可在线阅读,更多相关《冷延鹏-- 硅谷小模型技术实践及开源社区思考.pdf(37页珍藏版)》请在三个皮匠报告上搜索。
1、硅模型技术实践及开源社区思考AFUTURE TOWARDS OPENSOURCE ON-DEVICE AINEXA AI 在做什么?背景与困境终端 AI-未来已来0.050.0100.0150.020222023202420252026202720282029203020312032ManufacturingAutomotiveGovernmentIT&TelecomConsumers&GoodsHealthcareOther End-Use Industries15.219.123.531.140.249.357.272.088.2111.1143.6Size(USD Billion)Sou
2、rce:Market.us.Edge ai market.Year融法律医疗科研移动设备移动交通业机器基础设施为什么是终端 AI?隐私:不会向外部传输任何敏感数据,从提合规性成本效益:利基于设备的计算能来降低服务器费低延迟:消除服务器通信、即时处理和反馈造成的延迟离线可:需互联连接即可运,在任何地都可靠背景与困境当前挑战Nexa AI 为开发者和企业提供最佳的设备端智能模型、具包和解决案模型没有针对终端设备进优化模型太速度慢且耗电法实现流畅的性能压缩或调整会显着降低本地部署的准确性终端推理的持有限跨设备的持不致 部署变得复杂缺乏硬件加速持(GPU/NPU)影响速度和效率公司标背景与困境NEXA
3、 AI PRODUCTS隐私 低成本 低延迟NEXA SMALL LANGUAGE MODELS能源利效率提 70 倍;RAG+Llama3-8B 快 35 倍;在函数调:仅 0.5B 模型优于 GPT-4oNEXA ON DEVICE MODEL HUB全的量化压缩&开源的设备端 AI 模型库,具有便捷的筛选机制和部署,可帮助开发者实现快速原型设计NEXA SDK持 ONNX 和 GGML 模型的本地设备端推理框架。它持本、图像、频和多模态模型背景与困境我们的产品业界认知在 HuggingFace 的所有模型中位列第在歌 Google I/O 2024 报道背景与困境NEXA SMALL L
4、ANGUAGE MODELS能源利效率提 70 倍;RAG+Llama3-8B 快 35 倍;在函数调:仅 0.5B 模型优于 GPT-4oNEXA ON DEVICE MODEL HUB全的量化压缩&开源的设备端 AI 模型库,具有便捷的筛选机制和部署,可帮助开发者实现快速原型设计NEXA SDK持 ONNX 和 GGML 模型的本地设备端推理框架。它持本、图像、频和多模态模型我们的团队 Our Team背景与困境DR.ALEX CHENCEO,创始人斯坦福学博;斯坦福华创业者协会主席ZACK LICTO,联合创始人斯坦福学硕;前Googler,4年歌端侧AI开发经验COLE LENG总经理
5、哈佛学+清华学2 年带领团队开发 AI 产品功能令牌 FUNCTIONAL TOKEN 参数成阶段 函数选择阶段 以统模型为策略设定 重新设定标关键步骤公通过从 到 范围内分配功能令牌名称,我们能够将函数名称预测任务转换为 N 个功能令牌的单令牌分类任务训练数据集样例Below is the query from the users,please choose the correct function and generate the parameters to call the function.Query:queryResponse:(param1,param2,.)Function de
6、scription:function_description新思路 Octopus 系列模型功能令牌 FUNCTIONAL TOKEN新思路 Octopus 系列模型相较于传统RAG,功能令牌的引可节省 95%的输上下令牌并减少语义搜索中的延迟传统 RAG 解决思路引功能令牌概念后OCTOPUS V2世界个持 AI AGENT GPT-4O 级别函数调准确性的设备上 SLM(0.5B 2B)适应性-High Adaptability性能表现-High Performance在 Google Gemma 上进后期训练