于政-大语言模型下的文本数据治理.pdf

当前位置:首页 > 报告详情
于政-大语言模型下的文本数据治理.pdf

上传人: 2*** 编号:142180 2023-09-10 38页 10.78MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要围绕大模型视角下的文本数据治理展开讨论。首先,文章指出数据是AI大模型竞争的关键要素,数据质量、数量、多样性和代表性对模型训练至关重要。接着,文章分析了中文数据集的现状,指出国内优质中文数据集稀缺,并介绍了几个典型的中文数据集。然后,文章讨论了领域文本数据的特点和治理中的难点,如内容复杂、版面多样、文本召回效果受多因素影响等。文章还详细介绍了文档解析、文本召回优化和领域高质量QA样本构建等文本数据治理的核心技术。最后,文章通过案例展示了基于大模型外挂知识库的问答、多轮对话、报告生成和图谱查询等应用。
大模型如何处理复杂版面文档? 文本数据治理面临哪些核心问题? 如何构建高质量领域问答样本?
客服
商务合作
小程序
服务号
折叠