《量子位:2023中国AIGC数据标注产业全景报告(26页).pdf》由会员分享,可在线阅读,更多相关《量子位:2023中国AIGC数据标注产业全景报告(26页).pdf(26页珍藏版)》请在三个皮匠报告上搜索。
1、Q量子位insights中国AIGC数据标注产业全景报告Panoramic Report of Generative AI Data Labeling Industry in China杨净2023.11量子位智库QbitAlInsighhts#page#sights数据标注,正迎来关键时刻。作为AI认识世界的起点,数据标注本质上是将现实世界信序言息结构化、数字化,充分发挥数据信息的价值。大模型时代到来,AIGC众多垂直场景落地,以及通用智能、具身智能等前沿领域探索,与高质量、专业化的场景数据密不可分,数据标注从劳动密集型加速朝着知识密集型转型,行业壁垒进一步提高。作为底层基础服务,数据标注贯
2、穿大模型全生命周期(训练测试、评估验证和应用选代)。一方面,牵涉关键Know-how,更多大模型公司/AI企业选择自建标注团队和管线;另一方面,上下游合作关系将更为紧密和耦合,专业数据服务提供商更多机会将在垂直领域,帮助企业完成私有化部署。机遇与挑战并存。合成数据作为新衍生赛道,潜在市场空间巨大。与此同时,数据标注标准难以统一、数据处理流程尚未规范,高学历多领域多专业成为标注人才的硬指标。#page#nsigh目录01大模型时代下的数据标注02AIGC数据标注四大变化03AIGC数据标注三大影响因素OA数据标注产业竞争格局/市场规模05数据标注代表玩家案例集#page#hsigftsghts0
3、1大模型时代下的数据标注insights#page#hnsighs数据标注是AI认识世界的起点数据标注是将原始数据进行加工处理,比如分类、拉框、注释、标记等操作转换成机器可识别信息的过程。国内数据标注厂商,广义称之为基础数据服务提供商,通常需要完成数据集结构/流程设计、数据处理、数据质检等工作,为下游客户提供通用数据集、定制化服务、数据闭环工具链等。这也是本次AIGC数据标注全景报告的研究对象。一般数据处理流程:根据原始数据类型以及训练任务划分:文本:词性标注、分类标注、情绪标注、命名实体识别、语义标注、模型训练数据数据数据原始数据清洗标注质检意图标注等;测试/验证图像:图像分类、语义分割、实
4、例分割、拉框、OCR转写等;音频:语音识别、声纹识别、语音转写等;数据标注中的二八定律视频:通常在一个A项目中,数据准备工作需要80%时长,模型训练和部署仅占20%。目标跟踪、行为识别等;3D点云nSiC#page#insights大模型时代下的数据标注大模型范式涌入数据标注,自动化标注门槛大幅降低上市公司股价狂,创业公司融资加速海天瑞声是国内唯一一家AI数据上市公司,今年2月以来股价受ChatGPT热潮以SAM模型为代表的图像分割模型开源;GPT-4、GPT-4V为代表的大模型也被验曾一度狂,截至11月10日股价较年初上涨59.75%。证在文本、图像领域标注具有可行性,并衍生出专门做数据标注
5、的大模型,大幅降低自动化标注门槛。国内不少数据服务商进行相关大模型研发,部分产品已经创业代表公司融资情况发布:星尘数据一22年12月5000万A轮曼孚科技一23年9月数千万B轮海天瑞声:数据生产垂直大模型(研发阶段)恺望数据一23年4月战略融资标贝科技一23年4月超亿元B2轮曼孚科技:自动驾驶数据标注视觉大模型(已完成研发)整数智能|23年6月数千万PreA轮23年9月数千万PreA轮龙猫数据:自动驾驶大模型AutopilotGPT(发布)柏川数据一23年7月千万元天使轮商汤:明眸SenseAnnotation自动化数据标注平台(发布)标贝科技:烘培师大模型Baker-GPT(发布)大模型数据
6、解决方案多处开花,以一站式、定制化服务为主智能驾驶新感知范式,BEV+Transformer是机遇也是挑战国绕大模型开发全生命周期(包括预训练、监督微调、RLHF、红队测试、基准测作为最具代表性应用场景,智能驾驶迎试等),专业数据服务商、大模型企业、AI公司等各方都拿出相关数据解决方案,来新感知范式:以BEV+Transformer为大部分以一站式、定制化服务为主。代表的四维感知替代掉2D+CNN为代表云测数据:面向垂直行业大模型数据解决方案的二维感知方案,给数据服务厂商带来星尘数据:星尘COSMO大模型数据金字塔解决方案更多机遇与挑战,包括不限于标注场景澳鹏Appen:A聊天反馈和基准测试两