《3-林帆-大模型落地的最后一公里.pdf》由会员分享,可在线阅读,更多相关《3-林帆-大模型落地的最后一公里.pdf(48页珍藏版)》请在三个皮匠报告上搜索。
1、模型落地的最后公云效产品的故事林帆阿云云效数据和智能化应负责林帆花名戟 阿云级技术专家 云效数据和智能产品技术负责 前ThoughtWorks级DevOps技术咨询师 书籍CoreOS实践之路和 容器即服务:从零构建企业级容器集群作者录CONTENTS最后公:模型部署01 性能:更快的推理速度02 成本:更的资源效益03质量:更好的应效果04 01最后公:模型部署模型的交付历程海量 原始数据结构化 数据集通/业 模型智能 服务数据采集 和清洗模型训练模型部署云效数据智能团队前身为代码智能团队 专注于代码算法和 数据挖倔分析在智能代码评审、缺陷 定位、摘要成等领域 积累数篇论和专利推出基于NLP
2、模型 的智能IDE编码补全 辅助插件Cosy2018年2020年2021年数据端业务端积累了海量开源代码 技术档和研发领域 相关知识语料背靠云效DevOps平台 服务中国百万开发者 和数万企业从模型到价值呈现研发领域 数据语料达摩院 通义模型研发业模型智能研发服务代码成 知识问答 智能评审|决定户体验和产品质量的公|以上图由通义万象成理想的模型部署式基于通基础设施(如容器和Kubernetes)使简单、易运维的具可独闭环,不依赖外部服务基于主流GPU和普通硬件设备以上图由通义万象成01性能:更快的推理速度故事的开端叮咚以上图由通义万象成模型准备好了,来试试看吧?第次压测单服务QPS 0.1 平
3、均每秒处理1个请求以上图由通义万象成请求响应这啥 咋这么慢?Lesson LearnedFlask werkzeug Gunicorn sync-mode同步阻塞协程并发线程并发进程并发适于低频低负载的服务模型是计算密集型服务Gunicorn gevent-modeGunicorn gthread-modeGunicorn multi-workers适IO密集型服务,轻量并发适计算密集型服务(对于Python需要GIL锁的系统线程)会导致模型被加载多份,消耗显存例如:奇怪的事情出现了8 秒/百Token20 秒/百Token同个模型测试环境正式环境以上图由通义万象成00:00:0800:00:
4、20pip is good,conda is better.使两种requirement.txt管理依赖版本 优先使conda的依赖包 对于某些特定模型,使conda依赖包推理的速度是pip依赖包的23倍Python包管理具,包含许多conda没有的Python依赖包软件包和运环境管理具,包含BLAS、LAPACK等科学计算库Lesson Learned依赖的安装式会影响性能推理加速案如何选择枪换炮进时,奈案有点多加速具包(SDK式引)加速服务器(带运具)DeepSpeed Triton(Pytriton)Accelerate FasterTransformer TurboTransforme
5、rs OneFlow 眼为实,没有万能的案模型模型模型三 FasterTransformer提速x4不可不可DeepSpeed提速x3不可提速x2OneFlow提速x3提速x2不可 真正可的选项 往往只有个并发上去了,体感依然不佳以上图由通义万象成咋还没动静?叭哒,叭叭哒,叭叭哒哒,叭哒,叭哒,.秒钟后SSE协议加速模型响应叭哒,叭叭哒,叭叭哒哒,.以上图由通义万象成叭哒叭哒,叭叭哒,.即 响应Server-Sent Events协议于实现 服务端到客户端的单向轻量通知 分适合模型的逐字推理过程03成本:更的资源效益被浪费的资源以上图由通义万象成监控显示:有批机器的CPU/内存 使率期低于20
6、%都是服务器规格惹的祸参考型号GPU卡数显存(每卡)CPU核数内存ecs.gn7i-c32g1.16xlarge2*A1024GB64376GBecs.gn7i-c32g1.32xlarge4*A1024GB128752GBecs.gn7-c13g1.13xlarge4*A10040GB52378GBecs.gn7-c13g1.26xlarge8*A10040GB104756GB商惯例:每种型号机型的资源规格固定搭配以阿云ECS主机为例混合部署+动态扩缩提升空间利率提升时间利率有GPU的节点模型服务模型服务其他服务其他服务GPU的节点其他服务其他服务其他