当前位置:首页 > 报告详情

2024龙蜥大会英特尔分论坛:xFasterTransformer助力龙蜥加速LLM推理性能- 缪金成.pdf

上传人: 张** 编号:175472 2024-09-11 23页 5.72MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了英特尔数据中心与人工智能事业部高级软件工程师缪金成,在xFasterTransformer开源社区中,负责新模型引入和低比特量化的开发与优化工作。第五代英特尔至强处理器具备更大的三级缓存、支持CXL内存带宽扩展和英特尔高级矩阵扩展(AMX),能够显著提升深度学习推理和训练性能。xFasterTransformer是一个基于Apache 2.0许可的开源项目,支持多种数据精度和混合精度计算,能够高效地进行跨节点分布式推理。在性能演示中,单颗至强Max处理器可同时部署4路大语言模型推理服务,每个模型只需12core,1/4的内存总带宽,显著提升了AI性能。
如何提升AI推理性能?" 哪些特性助力AI大模型加速?" 如何为开发者带来更多便利?"
客服
商务合作
小程序
服务号
折叠