《大语言模型的低比特计算 戴金权.pdf》由会员分享,可在线阅读,更多相关《大语言模型的低比特计算 戴金权.pdf(30页珍藏版)》请在三个皮匠报告上搜索。
1、1大语言模型的低比特计算大语言模型的低比特计算戴金权英特尔院士、大数据技术全球CTO2自回归大语言模型(基于Transformer解码器架构)Transformer解码器架构自回归大语言模型:预测下一个token3Transformer解码器架构训练训练;推理推理(第一个第一个t token/Prefill)oken/Prefill)4Transformer解码器架构推理推理(下一个下一个t token/Decode)oken/Decode)5大语言模型推理和训练瓶颈内存带宽计算显存大小分布式计算(互联)6大语言模型的低比特计算 模型量化/压缩(WxAy)数据类型(INTx,FPx,NFx)低
2、比特算子 显存使用量 微调(QLoRA,QA-LORA,)生态系统(DeepSpeed,vLLM,LangChain,)7BigDL-LLM:轻量级大模型开源加速库 基于英特尔 XPU(CPU/GPU)平台的开源大模型加速库 支持标准PyTorch模型和API 一两行代码就可以加速现有的应用 英特尔XPU:Core/Xeon/Arc/Flex/Max,etc.模型压缩:llama.cpp/GPTQ/AWQ/bitsandbytes/QLoRA/INC/NNCF/低比特优化:FP4/INT4/NF4/FP8/INT8/模型格式:GGUF/AWQ/GPTQ/低比特微调:QLoRA/QA-LoRA/
3、ReLoRA/PyTorch生态支持:HuggingFace/LangChain/FastChat/vLLM/https:/ (chatglm2-6B (1212代代IntelIntel酷睿笔记本酷睿笔记本)9BigDL-LLM:在Intel笔记本上构建LLM应用chatglm2-6Bchatglm2-6B(4 4个个CPUCPU核核 12 12代代IntelIntel酷睿笔记本酷睿笔记本)10BigDL-LLM:在Intel笔记本上构建LLM应用chatglm2-6Bchatglm2-6B(1212代代IntelIntel酷睿笔记本酷睿笔记本)chatglm2-6Bchatglm2-6B(4
4、 4个个CPUCPU核核 12 12代代IntelIntel酷睿笔记本酷睿笔记本)11BigDL-LLM:在Intel笔记本上构建LLM应用starcoder-15.5Bstarcoder-15.5B(1212代代IntelIntel酷睿笔记本酷睿笔记本)llama2-13Bllama2-13B(1212代代IntelIntel酷睿笔记本酷睿笔记本)12BigDL-LLM:在Intel锐炫显卡上构建LLM应用ChatGLM2-6BChatGLM2-6B(Intel Arc A770(Intel Arc A770)13BigDL-LLM:在Intel锐炫显卡上构建LLM应用LLaMA2-13BL
5、LaMA2-13B (Intel Arc A770(Intel Arc A770)14BigDL-LLM:在Intel锐炫显卡上构建LLM应用StarCoder-15.5BStarCoder-15.5B (Intel Arc A770 (Intel Arc A770)15BigDL-LLM:Vicuna-33B 英特尔至强 CPUVicuna-33BVicuna-33B(1 socket 1 socket 4 4代至强可扩展代至强可扩展CPUCPU)16BigDL-LLM:LLaMA2-70B 英特尔至强 CPULLaMA2-70BLLaMA2-70B(1 socket 1 socket 4
6、4代至强可扩展代至强可扩展CPUCPU)17BigDL-LLM:FastChat 英特尔 Flex GPUhttps:/ QLoRA 微调 Intel Max GPU19BigDL-LLM 精度https:/ Transformers API22支持标准 LangChain API23使用 QLoRA 微调大模型https:/ vLLM Continuous Batchinghttps:/ to Actions关注和试用 BigDL-LLM,并给我们反馈https:/ Big