王夕宁-大语言模型服务管理的实践分享.pdf

上传人: 鲁** 编号:615321 2025-03-03 34页 13.24MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。

相关图表

本文主要分享了关于大语言模型服务管理(GenAI/LLM)的实践经验。作者王夕宁,阿里云容器服务技术研发负责人,拥有100多项相关领域的国际技术专利。文章指出,GenAI/LLM服务管理面临独特的挑战,如请求/响应大小较大,查询并行处理,处理时间从几秒到几分钟不等等。针对这些挑战,提出了应对思路与方案,如引入Token长度预测器,使用智能工作负载优先级调度目标等。同时,文章还介绍了基于服务网格技术的流量、安全、可观测规则配置,以及模型服务流水线等。最后,通过案例分享,简化了GenAI的实现过程。
"AI大模型服务管理实践分享" "如何应对GenAI/LLM服务管理挑战" "服务网格技术在AI服务管理中的应用"
客服
商务合作
小程序
服务号