于政-大语言模型下的文本数据治理.pdf-三个皮匠报告

于政-大语言模型下的文本数据治理.pdf

当前位置：首页 > 报告详情

于政-大语言模型下的文本数据治理.pdf

上传人： 2*** 编号：142180 2023-09-10 PDF PDF 38页 10.78MB

该报告所属合集： 2023AIDD AI+软件研发数字峰会·北京站嘉宾PPT合集

打包下载报告合集

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载报告到电脑，查找使用更方便

VIP专享文档

书签

已收藏

版权投诉

/38

立即下载

word格式文档无特别注明外均可编辑修改，预览文件经过压缩，下载原文更清晰！

三个皮匠报告文库所有资源均是客户上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作商用。

《于政-大语言模型下的文本数据治理.pdf》由会员分享，可在线阅读，更多相关《于政-大语言模型下的文本数据治理.pdf（38页珍藏版）》请在三个皮匠报告上搜索。

1、大语言模型下的文本数据治理于政海致星图演讲嘉宾于政海致星图研发副总裁知识平台研发中心负责人，产业大模型研发与解决方案架构师，主要研究方向为自然语言处理、知识图谱、深度学习等，并在金融、能源电力和工业制造等领域拥有丰富的产品研发、解决方案咨询设计与项目落地经验，主持、参与了多项人工智能国家专项项目，近年来在IJCAI、TKDE等顶级期刊会议上发表多篇文章，申请专利十余项，科学出版社“新一代人工智能平台建设及其关键技术”丛书人机协同主要作者之一。目录CONTENTS1.大模型视角下的数据治理价值2.大模型文本数据治理的关键问题与挑战3.大模型文本数据治理的核心技术4.海致大模型应用落地案例大模型

2、视角下的数据治理价值PART 01数据将是未来 AI 大模型竞争的关键要素数据可以视为机器学习模型训练过程中的燃料，没有高质量的数据，就很难训练出高质量的模型。模型训练对数据的依赖性主要体现在以下几个方面：1.数据质量：模型的训练和预测表现在很大程度上取决于数据质量。如训练数据中缺乏高质量的写作数据、对话数据等，就不可能产生高质量的文章和高质量的对话。2.数据量：对于深度学习模型，需要大量的训练数据才能从中学习到复杂模式。如果数据量不足，模型可能无法从中捕获到有用的信息，从而对未见过的新数据做出准确预测，限制模型对复杂长尾模式的学习能力。OpenAI 在Scaling Laws for Neu

3、ral Language Models中提出LLM 模型所遵循的“伸缩法则”（scaling law），即独立增加训练数据量、模型参数规模或者延长模型训练时间，预训练模型的效果会越来越好。3.数据代表性：训练数据必须真实反映真实世界的情况，在所有可能的输入空间中都有良好的覆盖。否则，模型可能会在面对未见过的情况时表现不佳。4.数据多样性：训练集的数据应该具有高度多样性，模型可以学习到训练数据中的一般特征，而不是特定于某些特例的特征。资料来源：夕小瑶科技说成为Llama 2唯一中国合作伙伴，TA凭什么？数据将是未来 AI 大模型竞争的关键要素人工智能领域权威学者吴承恩发起了“以数据为中心的 AI

4、”运动：即在模型相对固定的前提下，通过提升数据的质量和数量来提升整个模型的训练效果。提升数据集质量的方法主要有：添加数据标记、清洗和转换数据、数据缩减、增加数据多样性、持续监测和维护数据等。未来数据成本在大模型开发中的成本占比或将提升，主要包括数据采集，清洗，标注等成本。资料来源：Daochen Zha et al.“Data-centric Artificial Intelligence:A Survey”2023,华泰研究大模型数据集分析资料来源：OpenDataLab，CSDN，华泰研究大模型数据集分析尽管国内数据资源丰富，但由于数据挖掘不足，数据无法自由在市场上流通等现状，优质中文优质

5、数据集仍然稀缺。如 ChatGPT 训练数据中中文资料比重不足千分之一，为0.0991%，而英文资料占比超过 92.6%。据加利福尼亚大学和Google 研究机构发现，机器学习和自然语言处理模型使用的数据集 50%由 12 家 Top 机构提供，其中 10 家为美国机构，1 家为德国机构，仅 1 家机构来自中国，为香港中文大学。典型中文开源数据集典型中文数据集数据集描述DuReader 数据集于 2018 年由百度发布。DuReader 是一个大规模的开放域中文机器阅读理解数据集。该数据集由 200K 问题、420K 答案和 1M 文档组成，是迄今为止最大的中文 MRC 数据集。问题和文档基于

6、百度搜索和百度知道，答案是手动生成的。WuDaoCorpora 数据集于 2021 年由北京人工智能研究院、清华大学和循环智能联合发布。WuDaoCorpora 是北京智源研究院最新构建的高质量数据集，悟道文本数据集采用20多种规则从 100TB 原始网页数据中清洗得出最终数据集，注重隐私数据信息的去除，从源头上避免 GPT-3 存在的隐私泄露风险；包含教育、科技等 50+个行业数据标签，可以支持多领域预训练模型的训练。CLUECorpus2020 数据集于 2020 年由 CLUE 发布。CLUECorpus2020 是一个可以直接用于语言模型预训练或语言生成等自监督学习的大型语料库，它有

报告速读

本文主要围绕大模型视角下的文本数据治理展开讨论。首先，文章指出数据是AI大模型竞争的关键要素，数据质量、数量、多样性和代表性对模型训练至关重要。接着，文章分析了中文数据集的现状，指出国内优质中文数据集稀缺，并介绍了几个典型的中文数据集。然后，文章讨论了领域文本数据的特点和治理中的难点，如内容复杂、版面多样、文本召回效果受多因素影响等。文章还详细介绍了文档解析、文本召回优化和领域高质量QA样本构建等文本数据治理的核心技术。最后，文章通过案例展示了基于大模型外挂知识库的问答、多轮对话、报告生成和图谱查询等应用。

大模型如何处理复杂版面文档？文本数据治理面临哪些核心问题？如何构建高质量领域问答样本？

于政-大语言模型下的文本数据治理.pdf

相关报告