《金路-数据治理与大模型的协同实践-金路_对外_1.pdf》由会员分享,可在线阅读,更多相关《金路-数据治理与大模型的协同实践-金路_对外_1.pdf(32页珍藏版)》请在三个皮匠报告上搜索。
1、演 讲 人:金 路 智 慧 芽 大 数 据 负 责 人DataFunConDataFunCon#20242024PART ONEPART TWOPART THREEPART FOUR企业荣誉企业荣誉荣誉资质:荣誉资质:全球独角兽企业全球独角兽企业江苏省独角兽企业江苏省独角兽企业江苏省人工智能学会科学技术奖苏州新一代人工智能技术供给示范企业AI苏州行业领军企业苏州市新一代人工智能创新应用场景示范项目江苏省大数据、区块链产业发展试点示范项目苏州市新一代人工智能创新应用场景标杆示范项目12001200+人全球员工超过成立于2007年,全球总部苏州,分公司遍及中新英加日五地10001000+人其中中国
2、团队70%70%为技术研发人员SaaS客户数1 120002000年度经常性收入ARR超超1 1亿亿美元美元智慧芽是一家科技创新和知识产权信息服务商,长久以来致力于以人工智能技术和大数据工厂的卓越能力,为全球创新企业和创新生态人群提供服务,提供创新数据以洞察信息,提供创新工具促进敏捷协作,以开放合作构建创新生态,实现“连接创新,突破边界”使命和价值。全球公司1.081.08亿亿新闻21002100万万市场报告7878万万科技文献1.571.57亿亿科研基金272272万万政府资助412412万万风险投资5050万万领域专家194194万万软著数据573573万万每天增量每天增量回溯更新回溯更新
3、1.81.8亿亿+专利数据170170个个 国家/地区/组织专利覆盖生物序列8.18.1亿亿多维度创新数据全球专利大数据数据源均通过合法渠道取得,保证了权威、安全合规、更新及时和持续获得。数据维度丰富,以专利数据为主包涵了数十亿级的论文、期刊、标准、报告和生物医药等数据,形成了真正意义上科技情报大数据,且向公开市场提供科技情报大数据,且向公开市场提供数据数据APIAPI和和数据能力服务数据能力服务。确保数据的可用性、完整性、安全性和合规性的一系列政策、流程和标准。数据解析清洗湖仓架构采集架构清洗架构数据业务平台Biz PaaS搜索、分析、语义等通用业务能力d数据应用数据产品领域大模型DaaS+
4、数据应用生态数据源获取公域+私域数据中台数据治理大数据分析数据API2018年,谷歌发布了BERT,这是一个能够理解自然语言上下文的深度学习模型,开创了大模型时代的开端近年来,百度、华为等中国科技公司也相继发布了ERNIE等具有自主知识产权的大模型,推动了这一技术在国内的快速发展。2020年,OpenAI 发布了令人惊叹的GPT-3模型,展现了大模型在生成式任务上的强大能力。2024年3月,智慧芽旗下专利大模型和生物医药大模型正式亮相,并发布基于智慧芽垂直领域大模型的AI助手“芽仔”1 1、数据理解、数据理解大模型中的知识储备,并能持续学习各类数据,具有数据模式的理解能力3 3、多模态能力、多
5、模态能力大模型具有的应对多模态丰富的数据,而不再受限于结构化数据,让数据真正被用起来2 2、数据加工、数据加工大模型能够领域的数据进行训练和微调,掌握领域知识,因此可以进行领域数据的清洗、加工和治理4 4、数据规划、数据规划大模型的Agent(自治智能体)使得自动化数据处理和数据治理的规划成为可能 文本抽取、文本挖掘等 非结构化多模态数据加工,图片、文档OCR 结构化文本数据的自动解析提取、精准去噪 自动标注,各类图片、表格、翻译、实体、序列、分类等标注 多语言文本翻译 reward、groundTruth生成 SQL编写、数据血缘分析 数据源寻找和知识库 数仓建模、模型优化 数据洞察、挖掘、
6、分析Pretrain/SFT/RLHF/RAG各阶段依赖高质量语料过滤纠偏:PII、版权、伦理、URL、注释、无意义文本、重复子串等数据增强:拆分、重组、合成数据去重:文档、段落、句子级别语义去重数据配比:多语言、长度、困惑度、停词比、代码比等数据评测:评测集、GroudTruth数据质量决定大数据质量决定大模型的能力,因模型的能力,因此需要数据治理此需要数据治理数据治理提供高质量数据,大模型需要高质量数据进行训练大模型改变信息的获取能力,大大提升了数据的应用价值。在智慧芽大模型赋能各类工具,让科技情报的阅读、提取、检索、查重、撰写、问答、等变得更容易数据治理利用大模型提升数据精准度,从而提升