史晓峰--IndustryCorpus2.0-多语种多行业预训练数据与指令数据集构建.pdf-三个皮匠报告

1、例：支撑海量数据的大数据平台与架构例：茹炳晟例：腾讯Tech Lead，腾讯研究院特约研究员正文要求：微软雅黑：最小字号 8号宋体：最小字号 10号等线：最小字号 12号IndustryCorpus2-多行业多语种大模型预训练与指令数据集构建史晓峰北京智源人工智能研究院算法研究专家史晓峰北京智源人工智能研究院，算法研究专家多年算法开发和研究经验，曾在头部互联网公司负责亿级产品的搜索算法的研究和应用，主要方向为搜索和多模态。近年来，专注于大模型领域，主要方向为LLM和LMM的模型行业应用和落地，涉及数据集构建，模型训练，领域适配等相关方向的研究和探索。近期主导构建了全球规模最大的多语种多行业文

2、本预训练数据集IndustryCorpus系列和多行业指令数据集IndustryInstruction。在医疗、教育、金融，汽车等多个领域进行了模型训练和相应开源工作，相关模型和方案已经投稿AAAI，相关数据和模型在推动行业模型应用和落地方面取得了显著成果，不完全统计各数据集在huggingface平台已累计70k+下载量。CONTENTS目录1.IndustryCorpus2预训练数据透视与构建方案2.IndustryInstruction指令数据特点与构建方案3.行业大模型训练与效果分析4.AI大模型行业数据集全景扫描解读5.Summary and QAIndustryCorpus2数据

3、透视与构建方案为什么需要行业数据在当前大模型时代，大模型已经进入第二阶段（产业落地），行业模型在推动智能化转型和创新发展中发挥着至关重要的作用，高质量的行业数据是提升大模型性能和实现行业应用落地的关键。愿景现状数据量少数据质量低行业覆盖少数据量足够大质量足够高覆盖足够多行业数据带来的裨益提升模型性能：行业数据中包含专业的、领域特定的知识和业务流程；帮助实现应用落地：行业数据尤其是高质量的行业数据是大模型实际应用中落地的关键；增强模型适应性：行业数据可以帮助模型适配行业中独有的场景问题或挑战；促进行业创新：推动不同行业场景下的工作模式革新；IndustryCorpus2数据特点q 数据磁盘容量：

4、3.2T磁盘存储，其中：中文1Tq 行业覆盖广：30个行业类别。通过国家统计局的国民经济行业分类体系和世界知识体系，构建了严谨可靠的行业类目体系。数据规模大，行业覆盖广01数据种类多，开源开放02q 数据种类多：包含多行业预训练数据，指令数据及部分偏好数据q 开源开放：数据集全开源，无商业敏感顾虑q 预训练数据：规则+语义的多重质量提升方案q 指令数据：多样性和高质量的数据合成方案，以及严谨完备的后验筛选和去重方案数据质量高03q 语种可分：中英文分别标注存储，方便配比实验q 行业可分：各行业分别存储，便于垂类模型开发q 质量分层：基于数据质量分层，方便多阶段训练04语料数据灵活度高Indus

5、tryCorpus2数据透视q 根据数据质量得分将数据分成Low/Middle/Hight独立的三组。q 中文和英文的数据质量分布趋势基本一致，middle数据最多，其次是middle数据，low数据最少；q 英文的hight数据相比中文有更高的占比（斜率更大），符合当前不同语种分布的趋势q 占比top6：学科教育，体育，时事政治，法律，医学健康，影视娱乐这几个行业占据了整体数据的大部分，这几个行业的数据广泛存在于互联网和教材当中；q 强化数学占比：定向补充了数学的数据，这与数学互联网语料的数据占比是不一致的（数学数据普遍认为可以提升模型推理能力）IndustryCorpus2构建方案q语种划

6、分：识别数据语种并进行分别归档，这一步放在整个处理的前置阶段，可以保证不同语种数据分布可被感知，整个数据流程语种可控。q行业分类：对数据进行行业领域分类，要保证数据分类的准确性和类别设置的覆盖性；q语义质量评估：评估数据的质量，对低质数据进行过滤删除。Rule Based：文本长度，特殊字符占比，有毒有害，隐私敏感，删除链接等；Model Based：数据质量评估模型如何实现多行业划分借助文本分类模型实现行业划分：构造领域类目，制作领域标签数据，模型选型训练图1.领域识别任务数据制作流程q模型选型：预训练Bert、GPT模型，NLU略优于NLGq训练方式：basemodel更新参数模型表现排名

史晓峰--IndustryCorpus2.0-多语种多行业预训练数据与指令数据集构建.pdf

相关报告