当前位置:首页 > 报告详情

计算机设备行业:国产大模型进展快速Deepseek~V2和通义千问2.5均展现强大性能-240513(15页).pdf

上传人: 数*** 编号:162199 2024-05-17 15页 1.05MB

下载:
word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
根据报告的内容,本文主要概括了以下几个关键点: 1. 幻方子公司DeepSeek发布了新的MoE(混合专家网络)大模型DeepSeek-V2,相比V1的稠密模型,DeepSeek-V2节约了42.5%的训练成本,减少了推理时93.3%的KV-cache显存占用,将生成的吞吐量也提升到了原来的5.76倍。 2. 阿里云正式发布通义千问2.5大模型,模型在中文语境下的性能超越了GPT-4 Turbo。相比上一代通义千问2.1版本,通义千问2.5在理解能力、逻辑推理、指令遵循、代码能力上全方位提升。 3. 通义千问2.5在文档处理、音视频理解和智能代码使用场景形成了独有优势。在文档处理领域,通义千问2.5可以单次处理1000万字,单次处理100个文档,实现了单次处理文字的最长和处理文档数量的最多。 4. 通义千问2.5赋予了开发者和企业卓越的智能编码能力。以通义代码大模型CodeQwen1.5为底座的智能代码助手「通义灵码」在国内的用户规模已经达到了行业内第一。 5. 幻方子公司DeepSeek的DeepSeek-V2模型在参数量方面达到236B,借助YaRN优化的长度外推训练方法,开源模型的上下文能力得以扩展到了128k大小,在官网/API调用对话上下文能力支持32k大小。 6. 阿里云的通义千问2.5大模型在中文语境下的性能超越了GPT-4 Turbo,相比上一代通义千问2.1版本,在理解能力、逻辑推理、指令遵循、代码能力上分别提升9%、16%、19%、10%。
幻方子公司DeepSeek发布新MoE大模型DeepSeek-V2,相比V1的稠密模型,DeepSeek-V2节约了42.5%的训练成本,减少了推理时93.3%的KV-cache显存占用,将生成的吞吐量也提升到了原来的5.76倍。同时API调用定价低至每百万输入Tokens仅1元,具有极高的性价比。那么,DeepSeek-V2相比V1的稠密模型有哪些优势? 阿里云正式发布通义千问2.5大模型,模型在中文语境下的性能超越了GPT-4 Turbo。相比上一代通义千问2.1版本,通义千问2.5在理解能力、逻辑推理、指令遵循、代码能力上全方位提升。那么,通义千问2.5相比2.1版本有哪些提升? 三星AI推理芯片Mach-1即将原型试产,有望基于三星自家的4nm工艺。那么,三星AI推理芯片Mach-1有哪些特点?
客服
商务合作
小程序
服务号
折叠