当前位置:首页 > 报告详情

李直旭-大模型与数据治理-脱敏.pdf

上传人: 张** 编号:169043 2024-07-06 32页 11.21MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
根据报告的内容,本文主要概括了以下几个关键点: 1. 以数据为中心的人工智能(AI)是指对用于构建AI系统的数据进行系统化工程的学科。AI系统的核心是训练的框架加上数据,其中80%的效能取决于数据质量。 2. 大模型预训练中的数据工程需要海量、高质量的数据,如GPT模型使用了45TB原始文本语料和830GB代码数据。大模型通过预训练和有监督训练,实现了“类人”的语言理解、知识记忆和逻辑推理。 3. 大模型驱动的数据治理技术研究刚刚起步,具有重大革新契机。大模型可以首先在数据清洗和数据合规上发挥重要价值,如地址标准化、地理数据清洗、建筑设计图纸合规性检查等。 4. 大模型智能体技术有望解决复杂数据治理场景的决策规划问题,如教育领域知识图谱构建、视频流多模态实体链接等。 5. 基于大模型的数据治理技术研究方兴未艾,充满机遇与挑战,需要进一步探索如何构建安全可信的大模型用于数据治理,以及如何提升大模型对数据治理的决策规划能力。
大模型如何助力数据治理? 数据治理在大模型预训练中扮演什么角色? 大模型如何解决数据清洗和合规性问题?
客服
商务合作
小程序
服务号
折叠