于政-大语言模型下的文本数据治理.pdf

编号:142180 PDF 38页 10.78MB 下载积分:VIP专享
下载报告请您先登录!

于政-大语言模型下的文本数据治理.pdf

1、大语言模型下的文本数据治理于政海致星图演讲嘉宾于政海致星图研发副总裁知识平台研发中心负责人,产业大模型研发与解决方案架构师,主要研究方向为自然语言处理、知识图谱、深度学习等,并在金融、能源电力和工业制造等领域拥有丰富的产品研发、解决方案咨询设计与项目落地经验,主持、参与了多项人工智能国家专项项目,近年来在IJCAI、TKDE等顶级期刊会议上发表多篇文章,申请专利十余项,科学出版社“新一代人工智能平台建设及其关键技术”丛书人机协同主要作者之一。目 录CONTENTS1.大模型视角下的数据治理价值2.大模型文本数据治理的关键问题与挑战3.大模型文本数据治理的核心技术4.海致大模型应用落地案例大模型

2、视角下的数据治理价值PART 01数据将是未来 AI 大模型竞争的关键要素数据可以视为机器学习模型训练过程中的燃料,没有高质量的数据,就很难训练出高质量的模型。模型训练对数据的依赖性主要体现在以下几个方面:1.数据质量:模型的训练和预测表现在很大程度上取决于数据质量。如训练数据中缺乏高质量的写作数据、对话数据等,就不可能产生高质量的文章和高质量的对话。2.数据量:对于深度学习模型,需要大量的训练数据才能从中学习到复杂模式。如果数据量不足,模型可能无法从中捕获到有用的信息,从而对未见过的新数据做出准确预测,限制模型对复杂长尾模式的学习能力。OpenAI 在Scaling Laws for Neu

3、ral Language Models中提出LLM 模型所遵循的“伸缩法则”(scaling law),即独立增加训练数据量、模型参数规模或者延长模型训练时间,预训练模型的效果会越来越好。3.数据代表性:训练数据必须真实反映真实世界的情况,在所有可能的输入空间中都有良好的覆盖。否则,模型可能会在面对未见过的情况时表现不佳。4.数据多样性:训练集的数据应该具有高度多样性,模型可以学习到训练数据中的一般特征,而不是特定于某些特例的特征。资料来源:夕小瑶科技说成为Llama 2唯一中国合作伙伴,TA凭什么?数据将是未来 AI 大模型竞争的关键要素人工智能领域权威学者吴承恩发起了“以数据为中心的 AI

4、”运动:即在模型相对固定的前提下,通过提升数据的质量和数量来提升整个模型的训练效果。提升数据集质量的方法主要有:添加数据标记、清洗和转换数据、数据缩减、增加数据多样性、持续监测和维护数据等。未来数据成本在大模型开发中的成本占比或将提升,主要包括数据采集,清洗,标注等成本。资料来源:Daochen Zha et al.“Data-centric Artificial Intelligence:A Survey”2023,华泰研究大模型数据集分析资料来源:OpenDataLab,CSDN,华泰研究大模型数据集分析尽管国内数据资源丰富,但由于数据挖掘不足,数据无法自由在市场上流通等现状,优质中文优质

5、数据集仍然稀缺。如 ChatGPT 训练数据中中文资料比重不足千分之一,为0.0991%,而英文资料占比超过 92.6%。据加利福尼亚大学和Google 研究机构发现,机器学习和自然语言处理模型使用的数据集 50%由 12 家 Top 机构提供,其中 10 家为美国机构,1 家为德国机构,仅 1 家机构来自中国,为香港中文大学。典型中文开源数据集典型中文数据集数据集描述DuReader 数据集于 2018 年由百度发布。DuReader 是一个大规模的开放域中文机器阅读理解数据集。该数据集由 200K 问题、420K 答案和 1M 文档组成,是迄今为止最大的中文 MRC 数据集。问题和文档基于

6、百度搜索和百度知道,答案是手动生成的。WuDaoCorpora 数据集于 2021 年由北京人工智能研究院、清华大学和循环智能联合发布。WuDaoCorpora 是北京智源研究院最新构建的高质量数据集,悟道文本数据集采用20多种规则从 100TB 原始网页数据中清洗得出最终数据集,注重隐私数据信息的去除,从源头上避免 GPT-3 存在的隐私泄露风险;包含教育、科技等 50+个行业数据标签,可以支持多领域预训练模型的训练。CLUECorpus2020 数据集于 2020 年由 CLUE 发布。CLUECorpus2020 是一个可以直接用于语言模型预训练或语言生成等自监督学习的大型语料库,它有

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(于政-大语言模型下的文本数据治理.pdf)为本站 (2200) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠