1、 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。1 证券研究报告 金工金工 大模型本地部署大模型本地部署手册手册 华泰研究华泰研究 研究员 林晓明林晓明 SAC No.S0570516010001 SFC No.BPY421 +(86)755 8208 0134 研究员 何康,何康,PhD SAC No.S0570520080004 SFC No.BRB318 +(86)21 2897 2202 联系人 沈洋沈洋 SAC No.S0570123070271 +(86)21 2897 2228 2024 年 10 月 07 日中国内地 深度研究深度研究 人工智能人工智能 83:大模
2、型本地部署实用参考手册大模型本地部署实用参考手册 本文是大模型本地部署的实用参考手册,详细介绍大模型及其应用的本地部署流程。对于大模型本地部署,本文从前后端是否存在的角度将不同部署框架分为三类:前后端皆存在的大模型集成运行环境、仅含前端的对话式网页应用、仅含后端的本地大模型运行库,分别以 Ollama 和 LM Studio、ChatGPT Next Web 与 llama.cpp 为例进行部署流程介绍。对于大模型应用本地部署,本文分别以 AnythingLLM 和 Dify 作为 RAG 应用框架和多智能体应用框架的代表,进行详细的部署说明及应用实例构建。大模型本地部署:集成运行环境大模型本
3、地部署:集成运行环境 Ollama Ollama 是一个集成化的大模型本地部署开源工具。Ollama 支持通过程序文件或 Docker 安装,同时提供了一个丰富的官方预置模型库,可通过简易命令下载或部署大模型,对于非官方预置模型,Ollama 支持导入 gguf 格式或Safetensors 格式的模型源文件,用户也可通过配置文件 Modelfile 进行个性化参数设置。此外,Ollama 支持通过终端 API 或 Python API 提供大模型调用接口,便于外部程序化调用。大模型本地部署:前后端兼备的大模型本地部署:前后端兼备的 LM Studio LM Studio 是一款在本地运行和管
4、理大模型的专业桌面应用,支持加载 gguf格式的大模型文件,而无需安装 Python 环境及其他任何组件。与 Ollama相比,LM Studio 更适合非专业人士使用,例如其用户界面更为友好、模型选择更为广泛、内置 HTTP Server 可一键启动从而便于调用测试等等。与此同时,LM Studio 支持丰富的大模型参数设定,包括多项高级参数和推理参数等,为用户提供了丰富的定制空间。大模型本地部署:大模型本地部署:跨平台跨平台 ChatGPT Next Web 与与纯后端纯后端 llama.cpp 与 Ollama 或 LM Studio 这类偏集成的部署方案不同,ChatGPT Next
5、Web与 llama.cpp 代表了更纯粹的前端或后端部署方案。ChatGPT Next Web 代表一类跨平台的对话式大模型轻页面应用,支持 Web、Linux、Windows、MacOS 等多平台应用部署,核心特色是轻量化。llama.cpp 代表一类专注于大模型推理与量化技术的后端框架,适用于原始开发阶段,llama.cpp 的核心特色更在于技术性。大模型应用本地部署:大模型应用本地部署:AnythinLLM 与与 Dify 若将大模型本地部署看做夯实地基,大模型应用的本地部署则是楼宇建设。本文将大模型应用框架分为两类,RAG 应用框架和多智能体应用框架,分别以 AnythinLLM 和
6、 Dify 为例进行介绍。AnythinLLM 是一个开源的企业级文档聊天机器人解决方案,用户可通过简易步骤构建私人的知识库应用。Dify 则是一个全流程覆盖的专业级 AI 应用开发平台,结合了工作流、RAG、智能体、模型管理等海量功能,用户可基于 Dify 开发并发布功能复杂的大模型应用。风险提示:大模型是海量数据训练获得的产物,输出准确性可能存在风险;不同大模型效果存在差异,需谨慎选择;大模型本地部署框架稳定性可能受到版本切换的影响。下载日志已记录,仅供内部参考,股票报告网 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。2 金工研究金工研究 正文目录正文目录 导言导言.3 大