当前位置:首页 > 报告详情

史晓峰--IndustryCorpus2.0-多语种多行业预训练数据与指令数据集构建.pdf

上传人: 鲁** 编号:615379 2025-03-03 43页 11.45MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
根据报告的内容,本文主要介绍了IndustryCorpus2预训练数据集和IndustryInstruction指令数据集的构建方案及其在行业大模型训练中的应用。 关键点包括: 1. IndustryCorpus2数据集特点:数据量达3.2T,涵盖30个行业,语种可分,行业可分,质量分层,语料数据灵活度高。 2. IndustryCorpus2构建方案:语种划分、行业分类、语义质量评估,使用规则和模型方法提升数据质量。 3. IndustryInstruction数据集特点:覆盖12个行业,总量约200w,数据质量高,格式丰富。 4. IndustryInstruction构建方案:种子来源为行业名称和高质量预训练语料,数据构建方案包括预处理和生成,数据去重和筛选。 5. 行业大模型训练与效果分析:使用IndustryCorpus和Instruction数据集训练的医疗模型在多个领域取得显著效果,与开源数据集相比具有明显优势。 6. 《AI大模型行业数据集全景扫描》解读:行业数据集存在规模和多样性不足、许可协议复杂、分布稀疏等问题。
如何提升行业数据质量? 行业指令数据如何构建? 行业大模型训练效果如何?
客服
商务合作
小程序
服务号
折叠