人工智能行业数据集构建及模型训练方法实践周华.pdf-三个皮匠报告

1、人工智能行业数据集构建及模型训练方法实践1周华北京智源人工智能研究院大模型行业应用总监行业大模型落地难，难在哪里？行业大模型落地难，难在哪里？数据构建数据构建行业大模型专业数据集构建难集成演进集成演进现有IT系统的大模型集成和演进难专业需求专业需求大模型能力与专业业务需求对齐难训练技术训练技术人员算力成本高，技术能力建设难2目录目录一行业数据集的制作技术分享二行业模型训练新范式的实践三NL2SQL助力大模型与传统IT系统集成3助力解决行业模型训练数据问题助力解决行业模型训练数据问题4愿景行业数据现状数据量少数据质量低行业覆盖少数据量足够大质量足够高行业覆盖多在当前大模型时代，行业模型在推动

2、智能化转型和创新发展中发挥着至关重要的作用，而高质量的行业数据是提升大模型性能和实现行业应用落地的关键。行业数据带来的裨益行业数据带来的裨益提升模型性能提升模型性能：行业数据中包含专业的、领域特定的知识或业务流程；实现应用落地实现应用落地：高质量的行业数据是大模型实际应用中落地的关键；增强模型适应性增强模型适应性：行业数据使模型可以适配行业中独有的场景问题或挑战；促进创新促进创新：行业数据极大推动不同的工作模式创新智源智源IndustryCorpus1.0IndustryCorpus1.0：多行业中英双语数据集：多行业中英双语数据集数据为模型服务，模型由开发者实现。从开发者的角度来看，智源I

3、ndustryCorpus数据集有着数据规模数据规模大，行业覆盖广，类型多，质量广，灵活度高大，行业覆盖广，类型多，质量广，灵活度高的显著优势。图1.本次开源行业数据集按行业分布情况（GB）图2.本次开源行业数据集与其它开源行业数据的对比（GB）开源数据3.4T3.4T(2.4EN+1.0ZH)高质量数据0.9T0.9T(定向申请)数据规模大一期18个行业分类二期扩展到3030个行业分类个行业分类行业覆盖广行业预训练数据行业指令数据（医疗、教育）、行业偏好数据（医疗）数据类型多预训练数据：基于规则规则+模型模型的多重质量提升方案指令数据：基于指令复杂性指令复杂性+回复质量回复质量+多轮相关性多

4、轮相关性的筛选方案数据质量高语种可分：方便行业数据配比实验行业可分：便于多行业灵活组合配比数据灵活度高5IndustryCorpusIndustryCorpus行业预训练数据集的构建流程行业预训练数据集的构建流程从海量的数据中筛选出各个语种，各个行业的数据，是一项繁重且高价值工作，主要涉及3个核心内容：语种划分，行业分类，质量评估语种划分，行业分类，质量评估语种划分：识别数据语种并进行分别归档，这一步放在整个处理的前置阶段，可以保证不同语种数据分布可被感知。行业分类：对数据进行行业领域分类，要保证数据分类的准确性和类别设置的覆盖性；质量评估：评估数据的质量，对低质数据进行过滤删除。基于规则：

5、文本长度，特殊字符占比，有毒有害，隐私敏感等；基于模型：质量打分模型、模型困惑度6如何实现数据的行业划分如何实现数据的行业划分对数据进行领域识别是一个典型的文本分类任务：构造领域类目，制作领域标签数据，模型选型训练构造领域类目，制作领域标签数据，模型选型训练图1.领域识别任务数据制作流程模型选型：预训练Bert、GPT模型，NLUNLU略优于略优于NLGNLG 训练方式：basemodel更新参数模型表现排名：1.bge-m3(指标高，收敛快)2.qwen1.5-0.5b-chat3.bge-m3(freeze)4.bert-snowflake(fineweb-edu选用)借助LLM多轮生成

6、文本类别，筛选多次生成类别一致数据；开源新闻数据，配比10%；图2.领域识别任务模型训练方案为什么要提升数据质量为什么要提升数据质量模型学习的过程是数据压缩的过程。高质量的数据训练将一部分数据压缩离线完成，可以提升模型的学高质量的数据训练将一部分数据压缩离线完成，可以提升模型的学习效率和整体表现习效率和整体表现text:_nnTranslated from*Chinese Journal of Biochemistry and Molecular Biology*,2007,23(2):154-159 译自:中国生物化学与分子生物学报n,quality_score:,0.38929006457

人工智能行业数据集构建及模型训练方法实践周华.pdf

相关报告