当前位置:首页 >英文主页 >中英对照 > 报告详情

DeepSeek LLM技术报告(英文版)(48页).pdf

上传人: 淘*** 编号:650879 2025-04-07 48页 7.13MB

下载:
word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了DeepSeek LLM项目,该项目旨在通过研究语言模型的扩展规律,推动开源语言模型的长期发展。主要内容包括: 1. 研究了语言模型的扩展规律,包括超参数、模型和数据规模的扩展规律。发现随着计算能力的增加,应更多地将预算分配给模型扩展而不是数据扩展。 2. 构建了DeepSeek LLM模型,包括7B和67B两个版本。在预训练阶段,使用了2万亿个标记的数据集,并采用了多步学习率调度器。 3. 在公开基准测试中,DeepSeek LLM 67B在代码、数学和推理等任务上优于LLaMA-2 70B。在对话模型上,DeepSeek LLM 67B Chat在中文和英文的开放式评估中均优于GPT-3.5。 4. 在安全性评估中,DeepSeek LLM 67B Chat能够提供安全的响应。 5. 本文的研究为未来开源语言模型的扩展提供了指导,有助于推动人工通用智能的发展。
"如何优化语言模型的扩展性?" "如何提高语言模型的安全性?" "如何训练大规模语言模型?"
客服
商务合作
小程序
服务号
折叠