大语言模型的低比特计算 戴金权.pdf

编号:153248 PDF 30页 4.80MB 下载积分:VIP专享
下载报告请您先登录!

大语言模型的低比特计算 戴金权.pdf

1、1大语言模型的低比特计算大语言模型的低比特计算戴金权英特尔院士、大数据技术全球CTO2自回归大语言模型(基于Transformer解码器架构)Transformer解码器架构自回归大语言模型:预测下一个token3Transformer解码器架构训练训练;推理推理(第一个第一个t token/Prefill)oken/Prefill)4Transformer解码器架构推理推理(下一个下一个t token/Decode)oken/Decode)5大语言模型推理和训练瓶颈内存带宽计算显存大小分布式计算(互联)6大语言模型的低比特计算 模型量化/压缩(WxAy)数据类型(INTx,FPx,NFx)低

2、比特算子 显存使用量 微调(QLoRA,QA-LORA,)生态系统(DeepSpeed,vLLM,LangChain,)7BigDL-LLM:轻量级大模型开源加速库 基于英特尔 XPU(CPU/GPU)平台的开源大模型加速库 支持标准PyTorch模型和API 一两行代码就可以加速现有的应用 英特尔XPU:Core/Xeon/Arc/Flex/Max,etc.模型压缩:llama.cpp/GPTQ/AWQ/bitsandbytes/QLoRA/INC/NNCF/低比特优化:FP4/INT4/NF4/FP8/INT8/模型格式:GGUF/AWQ/GPTQ/低比特微调:QLoRA/QA-LoRA/

3、ReLoRA/PyTorch生态支持:HuggingFace/LangChain/FastChat/vLLM/https:/ (chatglm2-6B (1212代代IntelIntel酷睿笔记本酷睿笔记本)9BigDL-LLM:在Intel笔记本上构建LLM应用chatglm2-6Bchatglm2-6B(4 4个个CPUCPU核核 12 12代代IntelIntel酷睿笔记本酷睿笔记本)10BigDL-LLM:在Intel笔记本上构建LLM应用chatglm2-6Bchatglm2-6B(1212代代IntelIntel酷睿笔记本酷睿笔记本)chatglm2-6Bchatglm2-6B(4

4、 4个个CPUCPU核核 12 12代代IntelIntel酷睿笔记本酷睿笔记本)11BigDL-LLM:在Intel笔记本上构建LLM应用starcoder-15.5Bstarcoder-15.5B(1212代代IntelIntel酷睿笔记本酷睿笔记本)llama2-13Bllama2-13B(1212代代IntelIntel酷睿笔记本酷睿笔记本)12BigDL-LLM:在Intel锐炫显卡上构建LLM应用ChatGLM2-6BChatGLM2-6B(Intel Arc A770(Intel Arc A770)13BigDL-LLM:在Intel锐炫显卡上构建LLM应用LLaMA2-13BL

5、LaMA2-13B (Intel Arc A770(Intel Arc A770)14BigDL-LLM:在Intel锐炫显卡上构建LLM应用StarCoder-15.5BStarCoder-15.5B (Intel Arc A770 (Intel Arc A770)15BigDL-LLM:Vicuna-33B 英特尔至强 CPUVicuna-33BVicuna-33B(1 socket 1 socket 4 4代至强可扩展代至强可扩展CPUCPU)16BigDL-LLM:LLaMA2-70B 英特尔至强 CPULLaMA2-70BLLaMA2-70B(1 socket 1 socket 4

6、4代至强可扩展代至强可扩展CPUCPU)17BigDL-LLM:FastChat 英特尔 Flex GPUhttps:/ QLoRA 微调 Intel Max GPU19BigDL-LLM 精度https:/ Transformers API22支持标准 LangChain API23使用 QLoRA 微调大模型https:/ vLLM Continuous Batchinghttps:/ to Actions关注和试用 BigDL-LLM,并给我们反馈https:/ Big

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(大语言模型的低比特计算 戴金权.pdf)为本站 (张5G) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠