1/15 2023 年年 12月月 4 日日 行业行业|深度深度|研究报告研究报告 行业研究报告 慧博智能投研 AI PIN深度:深度:概述概述、历史意义历史意义、产业链产业链及相及相关公司深度梳理.
1/31 2023 年年 12 月月 4 日日 行业行业|深度深度|研究报告研究报告 行业研究报告 慧博智能投研 边缘边缘AI行业行业深度:深度:发展趋势发展趋势、相关机遇相关机遇、产产业链业链及相.
证 券 研 究 报证 券 研 究 报 告告 证监会审核华创证券投资咨询业务资格批文号:证监许可(2009)1210 号 未经许可,禁止转载未经许可,禁止转载 行业研究行业研究 消费电子消费电子 20.
人工智能全域变革图景展望:跃迁点来临(2023)2023年12月1 2023 毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中.
免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。1 证券研究报告 互联网互联网 图像图像 AIGC 行业:重塑生产力格局行业:重塑生产力格局 华泰研究华泰研究 互联网互联网 增持增持 (.
AI+HR黑科技秘笈A I 赋 能 人 力 资 本 智 能 化 变 革e 成 科 技 H R 图 灵 学 院 出 品a i.i f c h a n g e.c o mAI黑科技揭秘顶尖科学家团队力作A.
2023 1 2023 2 .3 .4 .6 .8 2023.11 1.13 2.47 3.60 2023.71 1.74 2.80 3.87 4.93 5.99 2023.108 1.111 2.1.
2023 年深度行业分析研究报告 目录目录 摘要.1 一、大模型发展情况.1 1、行业发展历程.1 2、大语言模型概览.3 3、产业发展趋势.6 二、互联网大厂模型.8 1、阿里.8 1.1 模型.8.
体系化人工智能(Holistic AI)技术探索中国移动研究院 张世磊2023.11.24日趋泛在的智能化需求和智能化技术赋能成本高之间的矛盾日趋泛在的智能化需求智能化技术赋能成本高企业智能化需求持续增长0900180020192022中国移动商用落地的智能化项目数量三年增长100多倍核心技术研发成本高GPT-3大模型训练成本费用成本460万美元时间成本1 GPU 355年典型AI商用定制化项目成本构成定制化研发部署交付测试售后运维售前解决方案数据采集合同验收需求沟通定制化、商务、运维成本高性能自动化降成本人工智能的应用需求复杂、迭代优化、运营成本数据成本、算法成本算力成本、人才成本提高定制化任务性能提供技术基础弱人工智能弱人工智能 强人工智能强人工智能 (限定领域、人工参与)(限定领域、人工参与)(通用领域、(通用领域、自动化)自动化)A Survey on Large Language Model based Autonomous Agents自动机器学习自动机器学习LLM单模型的通用化单模型的通用化基于基于AI任务的任务的自动化自动化LLM使能的使能的自主智能体自主智能体神经网络架构神经网络架构搜索搜索业务本身是规模化的:平台化:实用便捷的工具,运营运维共性能力:合理评估AI能力的可达性,构建可达的共性AI能力客户规模,经济规模支撑环境适宜:选择环境,培育环境平台型产品个 九天深度学习平台 九天AI能力平台 智能交互平台 可视化建模平台 智能推荐平台 网络智能化平台 九天毕昇教育平台通用能力网络智能化能力簇核心能力 个智能语音机器视觉自然语言理解智能推荐智能数据分析感知智能预测智能决策智能诊断智能控制智能规模化应用 个大屏数字内容推荐-服务家庭7600 万户-观看率提升42%-单省收入赋能 7000 万甘肃智能客服智能基站节电智慧党建-服务 2500 万甘肃百姓-6000 万关系政务知识图谱-事项覆盖率 100%-29 省全网部署-单站减排 300 千克/年-单站节电量提升 8%-10%-服务 16 万党员-构建超 5 万条知识点数据库-知识检索效率提升 90%CHBN赋能价值赋能价值服务外部客户服务客户服务内部客户云端能力调用次数边端能力调用次数管理领域(M)网络领域(N)政企领域(B)家庭领域(H)10086智能客服-服务10 亿客户-峰值月交互量 2.1 亿次-问题一次解决率 94.2%个人领域(C)城市AI平台(合作)基础大模型:加快构建适用于泛场景的自主可控通用基础大模型,打造通用智能底座行业大模型:聚焦供给侧,加快构建行业大模型,加速国民经济主体行业的智能化转型升级,促进我国整体生产力跃升L1行业大模型衍 生支 撑L0基础大模型语言大模型视觉大模型语音大模型政务模型交通模型.政府治理能源模型工业生产.民生服务医疗模型司法模型.通信特色网络模型客服模型.结构化数据大模型多模态大模型基于体系化人工智能的智力运营行业智能化应用大小模型安全评测数据评测算力基础数据基础网络基础性能评测物联网模型以九天基础模型为基础,联合通信、能源、航空等行业的骨干企业,共建共享九天众擎基座大模型人 工 智 能 训 推 技 术 服 务 平 台测评系统智算引擎通 信九 天 基 础 模 型基础设施算 力 网 络大 规 模 智 算 中 心数 据 汇 聚 平 台能 源航 空医 疗政 务建 筑交通运输冶 金通常需要在满足计算、传输、安全、可控性等多项约束前提下,组合使用多个模型或能力,包括基础模型、行业模型或面向特定任务的小模型,并能够端到端优化服务于业务目标网络问题投诉 级联优化3700 支撑生产1000 AI能力7 万亿累计调用次数体系化人工智能(Holistic AI,HAI)是中国移动研究院九天团队原创技术的攻关方向,依托泛在的网络和AI算力,在开放环境中实现对AI能力进行灵活且高效的配置、调度、训练和部署,以满足日益丰富的数智化业务需求,同时确保AI业务可信可控安全,其主要特征为AI服务大闭环、AI能力原子化重构、网络原生AI及安全可信AI。根据智能化业务需求,按需对AI能力进行调度、配置和运行监控,使其能在最合理的算网资源上运行和服务行业及个人客户AI 核心能力及模型提供方泛AI算力提供方泛在网络资源提供方大闭环泛AI算力云/网/边/端/GPU/ASIC/NPU/CPU/业务可信体系化AI OS可信可信AI能力大闭环原子化网络原生1、“大闭环”(Big Loop AI)“大闭环”AI以业务端到端的大闭环优化为目标,重点攻关多能力级联与并联优化、开放动态环境中AI能力优化的基础理论和技术,从而达到AI产业闭环。2、AI技术原子化重构(Atomized AI)AI能力依据高复用、易调度、自闭环、易适配等原则进行原子化拆解和重构。一个典型的原子化AI能力包含通用智能层、适配层、接口层,通用智能层可多个能力共享。AI原子化重构是体系化人工智能得以实现的基础。3、网络原生(Network Native AI)网络原生AI将AI能力与算力通过标准化的方式接入网络、按需调度,重点攻关AI模型自动伸缩的理论和机制,制定AI计算资源、数据、模型、能力、服务的功能、流程、接口和计量的标准,实现AI能力在网云边端弹性部署、计算和迭代。4、安全可信(Trusted AI)AI数据、模型、能力、业务的安全可信是体系化人工智能服务的重要基础,重点攻关AI服务可追溯、可互信、可审计、抗攻击的基础理论与方法。Vector DBLong-term memoryHai大模型task instances pool思维链任务分解部署应用适配及优化开放动态环境优化原子能力区解决方案原子能力区模型算法蒸馏定制区.功能区n模型类1模型类n模型类N行业区n场景类1场景类n场景类N任务区n需求1需求n需求N模型服务提供商Standardization&Trusted AI assessment 需求可追溯、可计量 HAI protocol分层次多粒度的原子AI能力市场服务计量、评估、回收动态测量评估能力空间能力更新注册其中:是一个复杂的函数,表示体系化人工智能的内部逻辑和流程。数据集 D=d1,d2,,每个数据d都有一个类型 0,1,2,,表示文本、图像和语音等异构数据类型。模型集 M=1,2,,每个模型都有一个类型 0,1,2,,表示分类模型、预测模型和生成模型等不同模型。原子能力集 =1,2,,是第个能力,表示语音识别,语音增强,图像分割,机器翻译等不同的能力。真实环境数据分布集 P=1,2,,每个分布都有一个类型 0,1,2,,表示高斯分布、均匀分布和其他复杂分布。原子化评估集E=1,2,,每个评估都有一个指标 0,1,2,,表示不同的评估指标。标准规范入库集S=s1,2,,每个入库都有一个条件 0,1,2,,表示入库准则。真实场景数据漂移集F=1,2,,每个漂移 都有一个类型 0,1,2,表示协变量漂移、先验漂移和概念漂移等。数据传输的演化更新集U=1,2,,每个更新都有一个方法 0,1,2,,表示校准模型、和主动学习或迁移学习等方式。用户需求服务集 =1,2,,表示用户提出动态的需求和任务;是一个动态的集合。为算力存储资源、网络资源,以及数据隐私等各种资源约束阈值;表示每个流程中对应消耗和占据的资源函数。max(,)s.t.(,)其中:端到端跨模态异构数据建模:(D,M);模型学习机理的优化建模:(,);模型的原子化表征和建模:(M,E);模型的标准规范入库:(M,S);数据漂移的优化建模:(D,F);模型数据传输的演化更新:(M,F,U);运行架构优化建模:(,),如何在资源约束和安全可信的前提下的完成整体业务流程。max(,)考虑体系化人工智能的内部流程和逻辑,进一步可以将 分解为以下几个子函数:.(,)n 原子化n 端到端优化n 基于大模型的调度体系Fig1.体系化原子模型示意图(HAI Atomic Model,HAI-AM)其中绿色部分为其中一条可能的路径原则(1)重用度高(2)输入输出清晰,功能清晰(3)不过于细小导致模型协同成本高于计算成本(4)适合于独立攻关(5)和基础模型能力互补模型介绍 模型的类型(通用型,特定任务型),模型结构及参数量,应用领域,模态,构建时长及机构功能描述主要完成的功能描述和列表输入输出输入输出样例可以是一对多,一对一,多对一等组合接口模型的前向和后向接口及信息适配器适配器选择性能准确率性能,准确率,及测试方法约束应用环境的约束条件。One-Shot Pruning for Fast-adapting Pre-trained Models on Devices,Haiyan Zhao and Guodong Long,arXiv:2307.04365v1 Automatic Mask Pruning(AMP):automatically identify task-specific filters/nodes for different tasks in the pre-trained model.apply the Log Expected Empirical Prediction(LEEP)which is used to evaluate the transferability of representations learned by the source task to the target task.Scalable Mask Selection Pruning(SMSP):fast-adapt the pre-trained model to downstream tasks.基础模型的功能解耦 Decouple one Model into Atomized networks 知识分解:包含结构分解和表征分解每个因子网络包含两部分:通用知识网络(CKN)和特定任务网络(TSN)一种新的信息衡量指标-InfoMax Bottleneck(IMB),使输入和通用特征间互信息最大(最大限度保留大模型的通用知识),使不同特定任务特征间互信息最小(使特定任务网络之间尽可能解耦)。“Factorizing Knowledge in Neural Networks”,Xingyi Yang,Jingwen Ye,Xinchao Wang,ECCV 2022.模型蒸馏 Generic-to-Specific Distillation of Masked Autoencoders.Wei Huang,Zhiliang Peng,Li Dong,Furu Wei,&Jianbin Jiao,Qixiang Ye.(2023).15996-16005.10.1109/CVPR52729.2023.01535:Distilling Pre-trained Language Models based on Generative Models,Y.Gao,Shilei Zhang,Zihao Cui,Chao Deng,Junlan Feng*.Archive-2023Teacher Model(a)DistillationFrozenFeature Extractorlayer1layer2layer3layer41f234Input Embedding2134Predicted Embedding1f234Generated Input Embedding2134Predicted EmbeddingFeature ExtractorWeighted SumDownstream TasksGenDistillerGenDistiller(b)Downstream基础模型的功能蒸馏:Distilling Pre-trained Language Models based on Generative Models,Y.Gao,Shilei Zhang,Zihao Cui,Chao Deng,Junlan Feng*.Archive-2023Two-dimensional Attention Mechanism:T is the frame numbers related with the utterance length,B refers to the batch size,D denotes the feature dimension,H refers the numbers of hidden layers to be predicted plus the original feature.Distillation LossHT,B,D基础模型的功能蒸馏n 原子化n 端到端优化n 基于大模型的调度体系搜索空间巨大:层级搜索、免训练(training free)端到端闭环数据稀疏:参数量和内存消耗大:适配器、蒸馏、剪枝接口复杂:维度一致、梯度连续无监督Meta Auxiliary Learning for Low-resource Spoken Language Understanding,Yingying Gao,Junlan Feng*,Chao Deng,Shilei Zhang.Interspeech 2022Cascaded Multi-task Adaptive Learning Based on Neural Architecture Search,Yingying Gao,Shilei Zhang,Zihao Cui,Chao Deng,Junlan Feng*.Interspeech 2023Fuse Multiple Models into one target modelDeep Model Reassembly,Xingyi Yang,etc.NeurIPS 2022 多个神经元网络层形成一个功能块功能相似网络:输入相似时,输出相似将一个网络分成多个功能块,相似的功能块形成一个集合,这个集合称为:等同网络块集合 Stitch Multiple Big Models into one target model“Stichable Neural Networks”,Zizheng Pan Jianfei Cai Bohan Zhuang,Archive-2023InterfacesTop-K:TokenEmbeddingssoftmaxvaluesMatrix multiply:softmaxoutput*matrixGumbel softmax:smoothdistributionASRNLU语音识别 自然语言理解 级联优化【12】网络问题投诉 级联优化Fuse Multiple Models into one target modelCascaded Multi-task Adaptive Learning Based on Neural Architecture Search,Y.Gao,Shilei Zhang,Zihao Cui,Chao Deng,Junlan Feng*.Interspeech 2023Cancade three models -speech enhancement,ASR,NLU-with Bottleneck AdapterCascaded Multi-task Adaptive Learning Based on Neural Architecture Search,Y.Gao,Shilei Zhang,Zihao Cui,Chao Deng,Junlan Feng*.Interspeech 2023VisionEncoderLanguageEncoderVisionDecoderLanguageDecoderlanguage word tokensvision patch tokensCross-modal Adaptera cat on a deskQ:Describe the photo.Under-standGenerateVQAMasked Self/Cross-AttentionCatadeskonLanguage SpaceVision Spacecatn 原子化n 端到端优化n 基于大模型的调度体系通信网络安全通信网络安全业务层全生命周期动态可追溯业务部署全流程链路安全能力层模型安全 数据安全体系化服务能力可信算力层AI算力调度标准体系可靠可信可靠可信 安全可控安全可控开放环境下的动态测量评估开放环境下的动态测量评估能量模型非规范化概率模型,灵活性对数据和模型统一表示和度量有效捕捉动态变化并敏感相应探索数据和模型的复杂关系模式体系化人工智能:将人工智能技术从单点应用向系统集成转变,形成具有自主学习、自主决策、自主协同等特征的人工智能系统。体系化人工智能服务的重要基础:AI数据、模型、能力、业务的安全可信安全可信:在开放动态环境下,保证人工智能系统的可控可靠、透明可释、隐私保护、明确责任和多元包容网智能力网智应用标准现网网络异构多模态数据网智算法模型现网数据驱动的AI端到端仿真针对主流通信网络仿真系统难以精准模拟现网的难题,提出首个融合常规网络仿真、AI仿真和物理空间孪生的仿真框架,攻关多项AI仿真技术,使能仿真系统更贴近现网,基于该框架成功申请并构建“智慧网络国家新一代人工智能开放创新平台”。立体闭环交互体系端到端智能仿真支持10余种场景仿真,孵化应用31省落地,为亚运通信网络服务保驾护航业务行为用户轨迹AI化程度终端仿真基站仿真信道仿真业务服务器核心网仿真传输网仿真
AI让数据库的路走的“更快更远”阿里云数据库高级技术专家 戴健AI的使用将会越来越普及83Os 相信AI 是一个战略重点MIT Sloan Management Review$2.9 trillion 商业价值由AI创造6.2 billion hours 人力花在了AI上Gartner1、特征、模型管理难AI的困境AI的困境业务数据算法AI一直迭代、演进中CRM MLOpsDataOpsCRM ModelOpsCRM DevOpsAI?DB?AIDB流程简单化、低代码量、更低的开发成本&运维成本DB AI数据、特征、模型一起存DataOps、ModelOps统一做一起存一起算为什么我们选择扩展DataOps到ModelOps事务 ACID查询加速索引缓存一写多读(多写多读)数据新鲜度数据易用性SQLUDF联邦查询ServerlessHTAP扩展DatOps到ModelOps,保持了数据新鲜度,维持了数据的易用性和可用性,避免了模型单独的数据管理系统,数据延迟和复杂的硬编码数据pipeline,方便了AI的在线决策。DataOps ModelOps:核心功能数据特征模型AI模型创建AI模型评估AI模型调参AI模型组合AI模型部署数据管理 特征管理 模型管理SQL SQL for MLOpsCREATE MODEL airlines_gbm_copy1 WITH(model_class=lightgbm,x_cols=Airline,Flight,AirportFrom,AirportTo,DayOfWeek,Time,Length,y_cols=Delay,model_parameter=(boosting_type=gbdt,n_estimators=100,max_depth=8,num_leaves=256)AS(SELECT*FROM airlines_train)SELECT TripID,Delay FROM PREDICT(MODEL airlines_gbm_copy1,SELECT*FROM airlines_train_1000_copy1)WITH(s_cols=TripID,Delay,x_cols=Airline,Flight,AirportFrom,AirportTo,DayOfWeek,Time,Length,y_cols=Delay,primary_key=TripID,CREATE MODEL airlines_gbm WITH(model_class=lightgbm,x_cols=Airline,Flight,AirportFrom,AirportTo,DayOfWeek,Time,Length,y_cols=Delay,model_parameter=(boosting_type=gbdt,n_estimators=100,max_depth=8,num_leaves=256)AS(SELECT*FROM airlines_train)模型创建模型评估SELECT Delay FROM evaluate(MODEL airlines_gbm,SELECT*FROM airlines_test)WITH(x_cols=Airline,Flight,AirportFrom,AirportTo,DayOfWeek,Time,Length,y_cols=Delay,metrics=acc);模型推理(离线)SELECT TripID,Delay FROM PREDICT(MODEL airlines_gbm_copy1,SELECT*FROM airlines_train_1000_copy1)WITH(s_cols=TripID,Delay,x_cols=Airline,Flight,AirportFrom,AirportTo,DayOfWeek,Time,Length,y_cols=Delay,primary_key=TripID,mode=async)INTO lightgbm_v2_predict82201;特征创建模型上传模型部署PolarDB for AIUPLOAD MODEL model_name WITH(model_location=,req_location=)DEPLOY MODEL model_name模型推理(在线)SELECT TripID,Delay FROM PREDICT(MODEL airlines_gbm_copy1,SELECT*FROM airlines_train_1000_copy1)WITH(s_cols=TripID,Delay,x_cols=Airline,Flight,AirportFrom,AirportTo,DayOfWeek,Time,Length,y_cols=Delay,primary_key=TripID,);UDF创建DEPLOY MODEL my_lr_model WITH(mode=in_db);CREATE FUNCTION my_lr_model RETURNS REAL SONAME#ailib#_my_lr_model.so;CREATE FEATURE feature_name WITH(feature_class=,parameters=()AS(SELECT select_expr,select_expr.FROM table_reference)特征更新UPDATE FEATURE feature_name WITH(feature_class=,parameters=()AS(SELECT select_expr,select_expr.FROM table_reference)模型描述DESCRIBE MODEL model_name特征删除DROP FEATURE feature_name模型删除DROP MODEL model_name等AI SQLPolarDB for AI:DB for AI in PolarDB MySQLSQL:Feature Creation,Model Creation,Model Evaluation,Model Inference,etc.一个系统:PolarDB 一套语言:SQL基于高速RDMA的CPU/memory/storage 三层解耦PolarStoreOSSMemRWROPROXYAIAIScaleScaleUpUpScale OutScale OutPolarDB for AI模型推理SELECT TripID,Delay FROM PREDICT(MODEL airlines_gbm_copy1,SELECT*FROM airlines_train_1000_copy1)WITH(s_cols=TripID,Delay,x_cols=Airline,Flight,AirportFrom,AirportTo,DayOfWeek,Time,Length,y_cols=Delay,primary_key=TripID,mode=async)INTO lightgbm_v2_predict82201;数据模型推理结果PolarDB for AI:场景化场景一:从数据到模型到应用模型开发模型应用模型创建模型训练模型评估模型描述https:/ MODEL airlines_gbm WITH(model_class=lightgbm,x_cols=Airline,Flight,AirportFrom,AirportTo,DayOfWeek,Time,Length,y_cols=Delay,model_parameter=(boosting_type=gbdt,n_estimators=100,max_depth=8,num_leaves=256)as(SELECT*FROM db4ai.airlines_train)模型列表SHOW TASK df05244e-21f7-11ed-be66-xxxxxxxxxxxx;模型创建结果查看DESCRIBE MODEL airlines_gbm;模型描述结果查看模型评估SELECT Delay FROM evaluate(MODEL airlines_gbm,SELECT*FROM airlines_test)WITH(x_cols=Airline,Flight,AirportFrom,AirportTo,DayOfWeek,Time,Length,y_cols=Delay,metrics=acc);模型在线推理模型离线推理模型列表SHOW MODELSSELECT TripID,Delay FROM PREDICT(MODEL airlines_gbm_copy1,SELECT*FROM airlines_train_1000_copy1)WITH(s_cols=TripID,Delay,x_cols=Airline,Flight,AirportFrom,AirportTo,DayOfWeek,Time,Length,y_cols=Delay,primary_key=TripID)INTO lightgbm_v2_predict1030;模型在线推理SELECT TripID,Delay FROM PREDICT(MODEL airlines_gbm,SELECT*FROM airlines_train_1000_copy1)WITH(s_cols=TripID,Delay,x_cols=Airline,Flight,AirportFrom,AirportTo,DayOfWeek,Time,Length,y_cols=Delay,primary_key=TripID)模型离线推理场景二:预训练的模型训练好的模型requirements.txtUPLOAD MODEL my_model WITH(model_location=https:/xxxx/model.pkl?Expires=xxxx&OSSAccessKeyId=xxxx&Signature=xxxx,req_location=https:/xxxx/requirements.txt?Expires=xxxx&OSSAccessKeyId=xxxx&Signature=xxxx)模型上传DEPLOY MODEL my_model;模型部署SELECT Y FROM PREDICT(MODEL my_model,SELECT*FROM db4ai.regression_test LIMIT 10)WITH(x_cols=x1,x2,x3,x4,x5,x6,x7,x8,x9,x10,x11,x12,x13,x14,x15,x16,x17,x18,x19,x20,x21,x22,x23,x24,x25,x26,x27,x28,y_cols=);模型在线推理orDEPLOY MODEL model_name WITH(mode=in_db);模型部署CREATE FUNCTION function_name RETURNS return_value SONAME soname;UDF创建SELECT function_name(content);UDF使用场景三:开箱即用的方案idproduct_idproduct_review11华为最新手机Mate 60 Pro自开卖后销售火爆,目前已缺货。21华为大幅提升了Mate 60 Pro的出货量预期。这对于产业和股市的影响力不可忽视。32这个东西只是看着还行,实际体验上不太好,不推荐大家购买。reviewsSELECT*FROM PREDICT(MODEL _polar4ai_tongyi_sa,SELECT product_review FROMreviews WHERE id=1)WITH();result正向情感分析idcomment3今年暑期档最大的变化是:好莱坞大片的失败,与现实题材的国产片大行其道。过去,好莱坞大片讲究炫目视效,在题材上以动作、奇幻、冒险为主,主要靠视觉轰炸。而在后疫情时代,观众则越来越关注现实的、切身的内容。今年的TOP 10电影,现实题材几乎屠榜。消失的她捆绑反恋爱脑与泰国杀妻等热门话题、八角笼中深度挖掘王宝强的人生经历主打草根逆袭;孤注一掷则切中人们对电信诈骗、缅甸诈骗园、荷官设局等社会热点的好奇;热烈也聚焦了普通人、小人物的成长路线。回顾近几年的中国电影市场,现实题材其实早就开始拔尖。2018年我不是药神,以31亿票房拿下当年暑期档冠军。2019年的扫毒2、2021年怒火重案中国医生,再到2022年的人生大事还有其他档期的奇迹笨小孩我的姐姐等等commentsselect*FROM PREDICT(MODEL _polar4ai_tongyi_summarize,selectproduct_review from reviews whereid=3)with();result今年暑期档最大的变化是现实题材电影大受欢迎,好莱坞大片则表现不佳。中国电影市场中,现实题材电影早已成为主流,包括我不是药神、扫毒2、怒火重案等多部影片都取得了高票房。总结研究成果A Comparative Study of in-Database Inference Approaches(ICDE 2022)SmartLite:A DBMS for Serving Multiple Neural Models with Constraint Resource (PVLDB 2024)
1 2023 China Insights Consultancy.All rights reserved.This document contains highly confidential information and is solely for the use of our client.No part of it may be circulated,quoted,copied or otherwise reproduced without the written consent of China Insights Consultancy.CIC灼识咨询灼识咨询大模型与大模型与AIGC蓝皮书蓝皮书2灼识咨询是一家知名咨询公司。其服务包括IPO行业咨询、商业尽职调查、战略咨询、专家网络服务等。其咨询团队长期追踪物流、互联网、消费品、大数据、高科技、能源电力、供应链、人工智能、金融服务、医疗、教育、文娱、环境和楼宇科技、化工、工业、制造业、农业等方面最新的市场趋势,并拥有上述行业最相关且有见地的市场信息。灼识咨询通过运用各种资源进行一手研究和二手研究。一手研究包括访谈行业专家和业内人士。二手研究包括分析各种公开发布的数据资源,数据来源包括中华人民共和国国家统计局、上市公司公告等。灼识咨询使用内部数据分析模型对所收集的信息和数据进行分析,通过对使用各类研究方法收集的数据进行参考比对,以确保分析的准确性。所有统计数据真实可靠,并是基于截至本报告发布日的可用信息。若您希望获取CIC灼识咨询的详细资料、与灼识建立媒体/市场合作,或加入灼识行业交流群,欢迎扫码、致电021-23560288或致函。3I.大模型如今已展现出卓越的能力,随着其不断演进和完善,大模型如今已展现出卓越的能力,随着其不断演进和完善,必将引领必将引领AI的未来道路,开创智能时代的新纪元的未来道路,开创智能时代的新纪元II.受益于大模型技术的日益成熟,受益于大模型技术的日益成熟,AIGC有望掀起新一轮产业革有望掀起新一轮产业革命,开启人类发展的智能新时代命,开启人类发展的智能新时代III.GPGPU高度并行的计算资源为大型模型的训练和推理提供了高度并行的计算资源为大型模型的训练和推理提供了不可或缺的支持,推动了大模型与不可或缺的支持,推动了大模型与AI领域的不断进步和创新领域的不断进步和创新IV.彩蛋:生成式彩蛋:生成式AI如何提升工作效率如何提升工作效率目录目录4行业行业数据及数据及AI基础设施建设基础设施建设中国中国AI应用情况应用情况AI应用的挑战应用的挑战数据量数据质量IT系统成熟度中国AI支出占AI市场比例,2022AI占IT支出比例AI支出CAGR,22-27E20222027E金融金融12.1.8.8(.1%不同机构之间的数据孤岛数据系统安全及隐私零售零售5.7%3.7%5.7&.6%传统零售商获取结构化/高度可用的数据供应链机器学习算法优化制造业制造业8.6%1.8%4.4C.6%专注单点技术突破,但无法跨场景规模化应用数据整合程度低,管理欠佳AI解决方案供应商分散能源能源2.6%5.1%9.8A.4%AI应用/转型进度较慢医疗医疗5.6%5.5%8.2.6%数据分散在各医院/管理机构数据系统安全及隐私汽车汽车12.3.5%.5!.0%自动驾驶数据融合难度高政府政府27.1!.6(.3.7%不同机构之间的数据孤岛数据系统安全及隐私强/主要的弱/次要的全球全球AI市场预计将于市场预计将于2030年达到年达到1万亿美元,并且全球超过万亿美元,并且全球超过15%的的GDP将由将由AI驱动;驱动;AI在各垂直领域的应用渗在各垂直领域的应用渗透率也将继续提升。透率也将继续提升。AI应用现状应用现状AI在垂直领域中的应用在垂直领域中的应用资料来源:灼识咨询5AI可分为ANI(Artificial Narrow Intelligence)、AGI(Artificial General Intelligence)和ASI(Artificial Super Intelligence)。ANI是专注于执行某一领域任务的经过训练的人工智能,是目前大多数的AI形式;AGI是通用人工智能,是指一种具有与人类相当的认知能力的智能系统,能够理解、学习、计划和解决问题;ASI是超级人工智能,指在几乎所有领域都超过最优秀的人类所具备的智能、知识、创造力、智慧和社交能力的智能系统。目前,ANI已经广泛应用,AGI处于研发阶段,而大模型是实现AGI的重要路径。定义定义AI的三种类型比较的三种类型比较擅长领域擅长领域具备能力具备能力发展成熟度发展成熟度某一特定领域具备执行能力已应用广泛大部分领域拥有能够与人类相媲美的智慧处于研发阶段所有领域全知全能尚处早期专用人工智能专用人工智能(ANI)超级人工智能超级人工智能(ASI)大模型是实现大模型是实现AGI的重要路径,其具有诸多特点的重要路径,其具有诸多特点 涌现性涌现性大模型参数超过百亿级时,模型性能会呈现出指数级增长,同时能够对未经专门训练的问题举一反三。工程化工程化大模型对数据、算法、算力要求极高,需要工程化的经营思路。需要严格把控数据清洗,把控用于关键性训练的数据,和构建大规模高质量训练的算力。高投入高投入大模型具有重投入、长周期的特点,如每次测试需要海量的算力资源,训练一次成本高达千万美元。通用性通用性大模型可以快速并大规模地与云计算、互联网等其他技术结合,广泛地应用在经济的各个领域。大模型是基于海量多源数据打造的模型,其是实现通用人工智能(大模型是基于海量多源数据打造的模型,其是实现通用人工智能(AGI)的重要路径。大模型可以整合多种不)的重要路径。大模型可以整合多种不同类型的数据和信息,实现多模态处理和分析,从而更全面地理解和解决复杂问题,其具备通用性、涌现性等同类型的数据和信息,实现多模态处理和分析,从而更全面地理解和解决复杂问题,其具备通用性、涌现性等诸多特点。诸多特点。通用人工智能通用人工智能(AGI)四大特点四大特点资料来源:灼识咨询大模型的定义大模型的定义6大模型产业涵盖了行业应用、产品服务、模型工具和基础设施四个关键层面,广泛应用于各行业与垂直场景,大模型产业涵盖了行业应用、产品服务、模型工具和基础设施四个关键层面,广泛应用于各行业与垂直场景,前景广阔。前景广阔。大模型产业图谱大模型产业图谱资料来源:中国信通院,灼识咨询行行业业应应用用产产品品服服务务模模型型与与工工具具基基础础设设施施金融金融教育教育艺术设计艺术设计游戏游戏医药医药文化娱乐文化娱乐其他其他文本文本图像图像音频音频视频视频虚拟空间虚拟空间代码代码算法模型算法模型工具平台工具平台模型托管模型托管/交易交易数据数据云平台云平台芯片芯片大模型相关产业图谱大模型相关产业图谱7基础大模型基础大模型1精调大模型精调大模型2能力涌现的大模型能力涌现的大模型3模模型型变变化化模型示意图,以模型示意图,以GPT-3模型为例模型为例共共128层层每层每层千个千个节点节点每层每层千个千个节点节点每层每层千个千个节点节点指令精调示意图指令精调示意图能力涌现示意图能力涌现示意图学习输出模板学习输出模板建立评分机制建立评分机制根据结果重复优化过程根据结果重复优化过程人工对大量问题的回答形成模板供模型学习人工对模型的数个输出进行排序,建立奖励模型并为后续结果进行打分模型根据打分结果调整后续输出,并不断重复上述过程以优化模型随着模型参数的指数级增长,大模型能力呈现明显的爆发增长,呈现能力涌现的情况。指令精调在于确保模型输出结果的准确性及安全性,在该阶段需要使用较多的人工标注介入。在此基础上,引入奖励模型,让模型脱落人工指引,实现自优化。GPT-3采用了96层的多头Transformer,参数量达到1,750亿,并使用45TB数据进行训练。模模型型特特征征具备大量知识储备,能理解并生成语言,质量差强人意。能按照人类偏好及普世价值取向,并保证一定安全性的前提下生成高度可用的内容。具备逻辑推理能力及上下文理解能力,更接近人类水平。语境理解多任务自然语言理解真实问答场景映射修辞手法单词解谜国际音标转写取余数运算准确性准确性准确性准确性准确性准确性准确性准确性模型规模模型规模大模型的演变经历大模型的演变经历3个阶段:基础大模型具备大量知识储备,能理解并生成内容,质量差强人意;精调大模型能个阶段:基础大模型具备大量知识储备,能理解并生成内容,质量差强人意;精调大模型能按照人类偏好及普世价值取向、并保证一定安全性的前提下,生成高度可用的内容;而出现能力涌现的大模型按照人类偏好及普世价值取向、并保证一定安全性的前提下,生成高度可用的内容;而出现能力涌现的大模型所生成的内容接近人类水平。所生成的内容接近人类水平。大模型演变概览大模型演变概览资料来源:“Are Emergent Abilities of Large Language Models a Mirage?”,灼识咨询低/弱高/强大模型的演变大模型的演变8C端端B端端企业自用企业自用主要特点主要特点应用案例应用案例主要变现模式主要变现模式大模型的终端用户分类大模型的终端用户分类大模型的终端用户大模型的终端用户主要用于个人娱乐、学习和创作标准化程度高,普适性强强调用户友好性与互动性C端用户订阅针对企业和机构,提供针对性解决方案的大模型通常基于基础大模型,根据不同企业、行业的需求进行一定程度的定制,模型较为异质化、用途多样强调模型在不同领域的专业能力,以及客户的数据隐私和安全B端企业用户订阅或购买非定制化行业模型主要用于内部业务优化个性化定制,解决企业独特的问题和需求数据保密性至关重要,强调内部控制和数据安全无直接变现,主要作用在于降低企业自身运营成本并提升效率大模型的终端用户包括大模型的终端用户包括C端、端、B端和企业自用三类。端和企业自用三类。C端用户一般使用标准化的模型产品,端用户一般使用标准化的模型产品,B端用户更倾向于选择端用户更倾向于选择能满足行业或企业特定需求的个性化解决方案,而企业自用的模型则旨在降低运营成本、提高运营效率、优化能满足行业或企业特定需求的个性化解决方案,而企业自用的模型则旨在降低运营成本、提高运营效率、优化产品的用户体验。产品的用户体验。资料来源:灼识咨询9大模型在多领域表现卓越,在自然语言理解、学习能力、视觉听觉识别等领域可以媲美甚至超越人类。提高大大模型在多领域表现卓越,在自然语言理解、学习能力、视觉听觉识别等领域可以媲美甚至超越人类。提高大模型的创造能力、减少对数据的依赖性、加强隐私保护等将会是大模型迭代的重点。模型的创造能力、减少对数据的依赖性、加强隐私保护等将会是大模型迭代的重点。资料来源:“Computers ace IQ tests but still make dumb mistakes.Can different tests help?”,灼识咨询-1-0.8-0.6-0.4-0.200.219982003200820132018MNIST(handwriting recognition)Switchboard(speech recognition)ImageNet(image recognition)SQuAD 1.1(reading comprehension)SQuAD 2.0(reading comprehension)2GLUE(language understanding)人类表现大模型在不同场景中与人类表现对比大模型在不同场景中与人类表现对比MNIST(手写识别)ImageNet(图像识别)SQuAD 2.0(综合阅读)Switchboard(语音识别)SQuAD 1.1(综合阅读)GLUE(语言理解)大模型尚不具备大模型具备但仍需改进大模型具备且可与人类媲美创造性思维自然语言自然语言理解理解视觉视觉识别识别伦理是非判断直觉抽象思维学习能力学习能力艺术表现情感判断听觉识别听觉识别视觉视觉/听觉识别:听觉识别:基本达到甚至一定程度上超越人类,准确率较高学习能力:学习能力:具备自动学习能力,在特定任务和数据集上可以超越人类自然语言理解:自然语言理解:熟练掌握多种人类语言,基本达到甚至一定程度上超越人类,存在一定语言不够自然(机械化)的问题创造性思维:创造性思维:能够生成创造性内容,但通常是在已知样本的基础上进行创作或是需要人类指导/二次修改抽象思维:抽象思维:相对有限,依赖于数据与模型参数艺术表现:艺术表现:可以生成艺术作品,但通常缺乏情感和创新情感判断:情感判断:能够进行情感分析,但不具备真实情感体验伦理是非判断:伦理是非判断:不具备,可能引发错误或数据隐私等安全问题直觉:直觉:不具备大模型的表现大模型的表现10BLOOM随着大模型的不断演进,它们的参数规模也呈现出指数级增长的趋势;与此同时,它们的复杂性和功能愈发提随着大模型的不断演进,它们的参数规模也呈现出指数级增长的趋势;与此同时,它们的复杂性和功能愈发提升,使得大模型能够在各领域担任更加多样和复杂的任务。升,使得大模型能够在各领域担任更加多样和复杂的任务。资料来源:HAI,灼识咨询参数数量参数数量时间时间Wu Dao 2.0 GPT-3 175B(davinci)Turing NLG T5-11BMegatron-LM(Original,8.3B)T5-3BMeenaGrover-MegaGPT-2Megatron-Turing NLG 530B HyperClovaPanGu-uJurassic-1-JumboGopherPaLM(540B)Minerva(540B)GLM-130BChinchillaGPT-NeoX-20BJurassic-XDALL E 2 Stable Diffusion(LDM-KL-8-G)OPT-175BDALL-ECodexERNIE 3.0 GPT-J-6BCogViewGPT-NeoWu Dao-Wen Yuan ERNIE-GEN(large)3.2e 83.2e 93.2e 103.2e 123.2e 1120192020202120222023GPT-4(1.8T)Sparrow(70B)Claude(52B)Ernie Bot(260B)ChatGLM-6B通义千问(7B)日日新(180B)在大模型出现之前,机器学习算法的参数量以平均每5-6年翻一个数量级的速度快速增长,而大模型的出现使模型参数量的增长速度大幅提升。举例而言,大模型及多模态模型的鼻祖之一GPT-2发布于2019年,参数量为15亿;GPT-3发布于2020年,参数量即达到了1,750亿,相比GPT-2增长了100多倍。粗略计算,在大模型兴起的前几年,大模型的参数量每年即可增长1-2个数量级。在目前已公开参数量的大模型中,参数量最多的达到了1.75万亿。分析分析大模型的发展及参数量大模型的发展及参数量大模型的发展现状大模型的发展现状11应用场景应用场景主要用途主要用途相关大模型相关大模型描述描述文本文本营销(内容)销售(邮件)通用写作记笔记GPTGopherOPTBloomCohereAnthropicAI2Yandex模型比较擅长通用的短/中篇幅写作,通常用于初稿及更新稿撰写模型能够理解上下文,生成更自然的文本,准确性逐渐接近人类水平,广泛应用于智能客服、文本摘要、内容生成等领域编程编程代码生成代码文档化文本到SQL网页应用构建GPTTabnineStability.ai代码生成可能在短期内对开发人员的生产力带来重大影响能降低非开发人员编程的门槛图像图像图像生成消费者/社交应用媒体/广告设计Dall-E 2Stable DiffusionCraiyon在图像识别、分割、风格转换等领域有广泛应用,能够处理复杂的视觉任务不同风格的图像模型以及编辑和修改生成图像技术音频音频语音合成OpenAI对声音和语音的理解能力逐渐提高,生成的音频逐渐自然、不机械,且接近人类水平视频视频视频编辑/生成X-CLIPMake-A-Video用于自动剪辑、特效创作、噪音修复、虚拟场景制作等,大大提升了编辑效率3D3D模型/场景搭建DreamFusionGET3DMDM(Motion Diffusion Model)在游戏、电影、虚拟现实、建筑和实体产品设计等大型创意市场极具潜力大模型正在各应用场景崭露头角,其应用场景广泛且多样化。从自然语言处理到图像生成,从音频处理到视频、大模型正在各应用场景崭露头角,其应用场景广泛且多样化。从自然语言处理到图像生成,从音频处理到视频、3D场景创建,大模型能够应对多领域的挑战。未来,大模型有望为更多应用场景带来更多机会和创新。场景创建,大模型能够应对多领域的挑战。未来,大模型有望为更多应用场景带来更多机会和创新。大模型的应用场景大模型的应用场景资料来源:红杉资本,灼识咨询大模型的应用大模型的应用12资料来源:红杉资本,灼识咨询大模型在不同领域的进展大模型在不同领域的进展垃圾邮件检测、翻译、基本问答一行代码自动填写终稿超越人类平均文本到产品(草稿)终稿模型(产品设计、建筑等)终稿超越专业作家文本到产品(超越全职开发者)终稿超越专业设计师、艺术家、摄影师AI Roblox定制游戏与视频完善垂类精调能力(例如科研论文)更多编程语言及领域基本文案及初稿撰写多行代码生成3D及视频文件二稿概念模型(如产品设计、建筑等)3D及视频文件初稿更长文案及二稿撰写更长更准确的代码艺术、logo创作、摄影时间线时间线视频/3D/游戏图像编程文本大模型在多个领域的应用上取得了显著进展,文本生成、编程、图像处理等领域的能力逐渐完善,有望商业化大模型在多个领域的应用上取得了显著进展,文本生成、编程、图像处理等领域的能力逐渐完善,有望商业化落地。然而,落地。然而,3D、视频、游戏等领域发展相对较慢,但潜力巨大,需要更多时间来成熟和商业化。、视频、游戏等领域发展相对较慢,但潜力巨大,需要更多时间来成熟和商业化。发发展展程程度度商业化落地商业化落地基本完善基本完善初试阶段初试阶段已经准备就绪,性性能稳定能稳定,可以投入商业应用性能提升显著,已接近商业应用水平,但仍需微仍需微调和测试调和测试参数较少,性能有限性能有限,需要进一步优化和训练显著增强开发人员工作效率为普通用户提供了编程的可能性不断增长的个性化网络及电子邮件内容需求为大语言模型提供了理想的应用场景有机会为特定的终端市场构建更出色的生成型应用,例如法律合同撰写、剧本创作等允许任何人随意探索不同的艺术主题和风格,这在以前可能需要终身学习并完善已可实现根据草图和prompt进行高清渲染随着 3D 模型的出现,生成式设计流程将延伸到制造生产,即文本到对象大模型的应用大模型的应用13大模型在垂直行业的应用大模型在垂直行业的应用大模型应用情况大模型应用情况典型案例典型案例在金融领域,大模型主要应用包括风险评估、量化交易、柜台业务办理等。以风险评估为例,大模型可用于预测信用风险、欺诈检测和市场趋势分析。第四范式携手中关村银行,以“式说”大模型为基础,联合开展多模态智慧金融平台研发及私有化部署,在行内规章制度及人员信息查询、行业术语通俗化解释、客户经理信贷管理、人工客服问答推荐、理财业务办理、AI应用快速研发等多个环节形成大模型能力。金融金融垂直行业垂直行业代表玩家代表玩家在医疗领域,大模型可应用于疾病诊断、药物发现等场景。以疾病诊断为例,大模型可用于医学图象识别,如X射线、MRI和CT扫描,以帮助医生诊断疾病。科大讯飞利用星火认知大模型打造“诊后康复管理平台”,将“专业的诊后管理和康复知道延伸到院外”,可根据患者健康画像自动分析,为患者生成个性化康复计划,并督促患者按计划进行。医疗医疗在汽车领域,大模型可应用于自动驾驶、虚拟设计和仿真、质量控制、供应链管理、销售和营销、定制设计、新能源汽车性能优化等。百度智能云为长安汽车提供了人工智能基础设施平台和数字人平台,双方正在开发一款基于文心大模型的生成式人工智能产品,以提升用户体验。同时,百度与吉利汽车一起打造汽车行业大模型,构建工厂数字化大脑,降低管理运维成本,提高资源利用效率。汽车汽车在制造业领域,大模型主要应用场景包括工业自动化、供应链优化等。以工业自动化为例,大模型可用于监控生产过程,预测设备故障,提高生产效率。华为云携手赛意信息,基于盘古大模型的自然语言大模型和视觉大模型,共同打造制造业大模型,为制造业客户提供针对工艺工程AI自动化、AI质检、供应链的智能优化等细分场景,提供“开箱即用”的模型服务。制造制造在零售行业,大模型可应用于个性化推荐、价格优化等场景。以个性化推荐为例,大模型可用于分析客户行为,提供个性化产品建议和广告走向。京东发布“言犀”大模型产品,支持语言、语音、视觉、多模态等应用。以AIGC创作内容营销为例,大模型的应用可使每套图的制作成本降低90%,制作周期从7天缩短至半天。零售零售大模型也已开始逐步渗透进金融、医疗、汽车、制造、零售等行业,头部大厂及垂类解决方案服务商相继推出大模型也已开始逐步渗透进金融、医疗、汽车、制造、零售等行业,头部大厂及垂类解决方案服务商相继推出适用于各垂直行业的解决方案,助力行业变革。适用于各垂直行业的解决方案,助力行业变革。资料来源:灼识咨询大模型的应用大模型的应用142011 2015“十二五”规划十二五”规划 推进推进产业智能化改革产业智能化改革 促进基于互联网的人工智能应用促进基于互联网的人工智能应用2016 2020“十三五”规划十三五”规划 强调人工智能为战略前沿领域强调人工智能为战略前沿领域 制定制定人工智能发展目标人工智能发展目标2021 2025“十四五”规划十四五”规划明确人工智能应用的重点领域明确人工智能应用的重点领域规范生成时人工智能服务规范生成时人工智能服务2015年年5月:国务院月:国务院中国制造中国制造 20252015年年7月:国务院月:国务院国务院关于积极推动“互国务院关于积极推动“互联网联网 ”行动的指导行动的指导2016年年7月:国务院月:国务院“十三五”国家科技创新规划十三五”国家科技创新规划2017年年7月:国务院月:国务院新一代人工智能发展规划新一代人工智能发展规划2020年年7月:中央网信办等五部门月:中央网信办等五部门国家新一代人国家新一代人工智能标准体系建设指南工智能标准体系建设指南2021年年3月:全国人大月:全国人大中华人民共和国国民经济和社会发展第十四个五中华人民共和国国民经济和社会发展第十四个五年规划和年规划和 2035年远景目标纲要年远景目标纲要2022年年8月:月:科技部科技部关于支持建设新一代人工智关于支持建设新一代人工智能示范应用场景的通知能示范应用场景的通知2023年年4月:国家网信办月:国家网信办生成式人工智能服务管生成式人工智能服务管理办法(征求意见稿)理办法(征求意见稿)大模型相关政策概览大模型相关政策概览提出基于信息物理系统的智能制造技术引领制造方式变革推进生产过程智能化加速人工智能核心技术突破促进人工智能在生活、工作、公共领域的创新应用,如智能家居、智能终端、服务型机器人等加强智能机器人等关键技术研发和应用推广整合优化资源配置,瞄准引领未来发展的战略领域2030年成为世界主要人工智能创新中心深化人工智能在制造、农业、金融、教育、医疗、交通等领域的融合应用加强人工智能领域标准化顶层设计,推动人工智能产业技术研发和标准制定瞄准人工智能等前沿领域,实施一批具有前瞻 性、战略性的国家重大科技项目强调人工智能在重点领域的应用,包括公共安全、智慧城市、医疗健康、重大活动等需求迫切且普惠性强的领域规定了提供生成式人工智能产品或服务应当遵守法律法规的要求利用生成式人工智能生成的内容应当体现社会主义核心价值观随着大模型相关政策的出台,大模型的发展得到了进一步的推进和规范。这些政策不仅为大模型的研发和应用随着大模型相关政策的出台,大模型的发展得到了进一步的推进和规范。这些政策不仅为大模型的研发和应用提供了指导和支持,同时也为大模型的推广和应用提供了更加广阔的空间和机遇。提供了指导和支持,同时也为大模型的推广和应用提供了更加广阔的空间和机遇。资料来源:灼识咨询大模型的相关政策大模型的相关政策15GPT-1GPT-2GPT-3ChatGPT/GPT-3.5GPT-4 API支持的token输入从3.2万个升级到12.8万个,相当于一本标准大小的300页纸质书所包含的文本量理解复杂情景理解复杂情景1新的模型允许开发者指示模型固定以特定形式返回。同时开发者可以通过访问参数和响应字段,来实现“模型对每次请求都给出确定性的输出”。开发者权限提升开发者权限提升2添加多模态处理能力以接受文生图及声音合成。3GPT-4 Turbo的亮点的亮点使用大数据对Transformer模型进行无监督的预训练。在小型监督数据集上进行微调。在测试常识推理和阅读理解的数据集上取得了杰出的成果。解决零次样本学习问题,使模型更具通用性。数据量的指数增长使得可以使用少量样本进行学习,接近人脑学习模式。基于GPT-3模型的微调已有落地于其他领域,包括代码生成、图像生成、数学算术等。优化与现实语料库数据集的连接。支持多轮对话和结果修正,并能够更快速、更有效地进行人机交互。解决更复杂的任务并增强安全性。多模态能力叠加图像识别。参数数量预训练数据集量ChatGPT:建立在:建立在OpenAI引入的深度学习模型引入的深度学习模型GPT基础上,它已经成为迄今为止增长最快的基础上,它已经成为迄今为止增长最快的APP之一。之一。多模态多模态API资料来源:灼识咨询GPT的发展历程的发展历程大模型典型案例(大模型典型案例(1/2)推出GPT store,用户可以共享GPT用法GPT-4 API升级为GPT-4 Turbo并降价发布GPT assistant API,使开发者可以在自己的应用程序中构建Agent开源语音和图像模块GPT-4 Turbo与与GPT Store对于现实世界的理解从2021年9月更新至2023年4月。4知识库更新知识库更新16文心一言文心一言3.5大模型典型案例(大模型典型案例(2/2)百度文心:中国领先大模型之一,且对于中文有更深入的理解。百度文心:中国领先大模型之一,且对于中文有更深入的理解。百度文心一言概览百度文心一言概览文心一言文心一言4.0的亮点的亮点文心一言文心一言4.0VS逻辑能力提升幅度是逻辑能力提升幅度是理解能力提升幅度的理解能力提升幅度的300%文心一言文心一言4.0相比于相比于3.5版本,显著提升了版本,显著提升了理解、生成、逻辑、记忆四大能力理解、生成、逻辑、记忆四大能力记忆能力提升幅度是记忆能力提升幅度是理解能力提升幅度的理解能力提升幅度的200%能够理解乱序、模能够理解乱序、模糊意图、潜台词等糊意图、潜台词等复杂提示词复杂提示词几分钟内生成几分钟内生成海报、营销视频等复海报、营销视频等复杂图像和视频杂图像和视频逻辑能力提升,逻辑能力提升,解答数学难题并解答数学难题并总结知识点总结知识点能够完成完成能够完成完成千字小说千字小说撰写和角色、情节设置撰写和角色、情节设置资料来源:IDC,灼识咨询L1L2L3L4L4L3L2L1L1L2L3生态能力生态能力应用能力应用能力产品能力产品能力百度文心大模型百度文心大模型国内大模型平均分国内大模型平均分注:目前尚未有厂商在产品能力和生态能力方面达到L5,应用能力尚未有厂商达到L4,因此不在本次评估中凸显根据IDC公布的数据,百度文心大模型在产品能力、应用能力、生态能力方面在中国领先。国内市场格局领先国内市场格局领先1百度作为中国搜索引擎龙头,拥有更多的中文语料数据进行模型训练。因此,百度文心大模型对中文有更深入的理解,能够熟练使用成语、写藏头诗等。对中文的深入理解对中文的深入理解217I.大模型如今已展现出卓越的能力,随着其不断演进和完善,大模型如今已展现出卓越的能力,随着其不断演进和完善,必将引领必将引领AI的未来道路,开创智能时代的新纪元的未来道路,开创智能时代的新纪元II.受益于大模型技术的日益成熟,受益于大模型技术的日益成熟,AIGC有望掀起新一轮产业革有望掀起新一轮产业革命,开启人类发展的智能新时代命,开启人类发展的智能新时代III.GPGPU高度并行的计算资源为大型模型的训练和推理提供了高度并行的计算资源为大型模型的训练和推理提供了不可或缺的支持,推动了大模型与不可或缺的支持,推动了大模型与AI领域的不断进步和创新领域的不断进步和创新IV.彩蛋:生成式彩蛋:生成式AI如何提升工作效率如何提升工作效率目录目录18AIGC定义定义AIGC是继是继PGC和和UGC之后之后,经由经由AI自动生成内容的新型内容生产方式自动生成内容的新型内容生产方式。作为一种先进的生产力变革作为一种先进的生产力变革,AIGC的的兴起让世界进入了智能创作时代兴起让世界进入了智能创作时代。资料来源:灼识咨询内容生产阶段及比较,内容生产阶段及比较,2000年至今年至今PGC(2000-2010年)年)UGC(2010-2017年)年)AIGC 1.0(2017-2022年)年)AIGC 2.0(2022-未来)未来)官媒时代,由专业的内容创作者或团队进行创作、编辑或发布的内容由普通用户或受众参与创作、编辑和发布的内容,微博微信的诞生为UGC发展提供土壤基于PGC、UGC生成创作框架,下达指令让AI自动生成内容,指导AI完成编码、绘画、建模等复杂任务OpenAI发布,大模型时代开启,创作突破人为限制,提升到自主创作的层次,创造更加丰富多样的内容专业用户一般用户AI基于指令创作大模型逐步实现自主创作为保障质量,一般PGC的内容制作成本较高,需要投入大量的人力、物力和财力用户个性化、自主创作,通常制作成本较低随着生成内容数量增加,边际成本大幅下降知识性、创造性工作的边际成本将降至无限接近0,产生巨大生产效率和经济价值包括主题选定、创意构思、策划、撰写、编辑、排版、发布等多个环节,需要长时间投入通常为个人兴趣爱好、在自媒体平台、社交网络等自发的创作行为,创作流程简单直接通过程序训练生成,流程自动化,仅需进行算法训练与参数调整,效率较高随着技术进步,AIGC将越来越多用于快速生成内容及自动化创作,效率进一步提升内容生产者拥有专业知识、内容相关领域资质和一定权威,因此内容相对专业、权威内容丰富但质量参差不齐,通常需要平台设计规则加以约束或遴选出优质内容发展初期存在使用门槛高、内容生成简单和质量偏低等问题随着AI大模型从大量数据中进一步学习,内容质量进一步提升内容生产者及生产程序专业性强内容经过筛选,从而带来强内容可控性每天有大量用户自由创作,需要依靠机器及人工对内容进行审核,内容可控性弱AI大模型作为辅助人进行内容生产的工具,可根据指令对内容进行编辑及优化,可控性较强通过深度学习技术训练模型,使其能够学习到输入数据的内在规律,并根据规律创作内容,可控性强定义定义内容生产者内容生产者内容生产成本内容生产成本内容生产效率内容生产效率内容生产质量内容生产质量内容可控性内容可控性高/强低/弱内容生产方式内容生产方式专业化的内容生产专业化的内容生产用户生产内容用户生产内容AI辅助内容生产辅助内容生产未来:全未来:全AI生产内容生产内容191950年,艾伦图灵提出“图灵测试”,给出确认机器是否具有智能的方法1966年,成功开发世界第一款可人机对话的机器人“Eliza”2006年,深度学习算法取得重大突破,GPU、TPU等算力设备性能不断提升,AI发展取得显著进步2014年,随着以GAN为代表的深度学习算法提出和迭代,生成内容百花齐放2017年微软“小冰”推出世界首部由AI创作的诗集阳光失了玻璃窗2022年,OpenAI发布ChatGPT,可以完成撰写邮件、视频脚本、文案、翻译、代码、写论文等任务。1957年,第一支由计算机创作的弦乐四重奏依利亚克组曲完成2012年,微软公开展示了全自动同声传译系统,可将英文演讲者的内容自动翻译成中文语音1980年代,IBM创造语音控制打字机“Tangora”2007年,世界第一部完全由AI创作的小说1 The Road问世2021年,OpenAl推出了DALL-E,主要应用于文本与图像交互生成内容实验性向实用性转变,受限于算法瓶颈实验性向实用性转变,受限于算法瓶颈,难以难以直接进行内容生成直接进行内容生成算法不断迭代,算法不断迭代,AI生成内容百花齐放,效果逐渐逼生成内容百花齐放,效果逐渐逼真直至人类难以真直至人类难以分辨分辨1950195719661980s200620072012201420172018202120222018年,英伟达发布可以自动生成高质量图片的StyleGAN模型2019年,DeepMind发布DVD-GAN模型用以生成连续视频受限于科技水平,受限于科技水平,AIGC仅限于小范围实验仅限于小范围实验2019AIGC发展阶段、发展特点和典型事件发展阶段、发展特点和典型事件早期萌芽阶段早期萌芽阶段1950s 1990s沉淀积累阶段沉淀积累阶段1990s 2010s快速发展阶段快速发展阶段2010s 至今至今AIGC发展历程发展历程结合结合AI的演进历程的演进历程,AIGC的发展大致可分为早期萌芽的发展大致可分为早期萌芽、沉淀积累沉淀积累、快速发展三个阶段快速发展三个阶段。资料来源:灼识咨询20AIGC降低了用户的内容制作门槛,例如没有绘画基础的用户也能借助AIGC工具快速作画,内容创作将迎来爆发期。降低降低内容制作成本内容制作成本:例如游戏行业,美术创作者可以使用AIGC寻找灵感,降低初期成本投入提升提升效率效率:承担信息挖掘、素材调用、复刻编辑等基础性机械劳动,从技术层面实现以低边际成本、高效率的方式满足提升内容创作质量提升内容创作质量3增加内容多样性增加内容多样性生产多模态内容生产多模态内容:有助于企业多元化交付工作成果,例如通过文本形成图片、基于文本生成视频短片,满足海量个性化需求降低内容创作门槛降低内容创作门槛金融金融电商电商娱乐娱乐影视影视工业工业多样内容多样内容医疗医疗教育教育传媒传媒AIGC核心价值核心价值降本增效降本增效有助于企业提升交付工作成果,近年来AI模型在手写、语音和图像识别、阅读理解和语言理解方面的表现逐渐超过了人类的基准水平。质量提升质量提升降本增效降本增效新商业模式新商业模式降低门槛降低门槛全新模式全新模式通过支持AIGC与其他产业的多维互动、融合渗透从而孕育新业态新模式,为各行各业创造新的商业模式,提供价值增长新动能AIGC核心价值核心价值对于企业而言对于企业而言,AIGC在降低内容制作成本在降低内容制作成本、加快内容制作效率的同时提升了内容的多样性及质量加快内容制作效率的同时提升了内容的多样性及质量,AIGC与不与不同产业融合互动亦可孕育出新业态新模式;对个人而言同产业融合互动亦可孕育出新业态新模式;对个人而言,AIGC则显著降低了内容创作门槛则显著降低了内容创作门槛。1245资料来源:灼识咨询21开发架构开发架构ChainerKerasTensorFlowTorchMXNetPyTorchPaddlePaddleONNX高质量输出高质量输出AI生成文本生成文本AI生成代码生成代码AI生成图像生成图像AI生成声音生成声音AI生成视频生成视频AI生成生成3DAI生成其他生成其他GAN生成对抗网络生成对抗网络可以生成清晰真实清晰真实的样本,泛用性强;后由CGAN等改良算法进一步完善Diffusion Model扩散模型扩散模型训练简单训练简单,可以将图像中的噪声部分进行滤除,并保留图像的细节和结构Transformer模型模型降低计算量和计算降低计算量和计算时间时间,提高模型训练速度,输出结果质量高质量高CLIP模型模型能够同时进行同时进行自然语言理解和计算机视觉分析FBMs基于流的生成模型基于流的生成模型可以生成逼真的高高分辨率分辨率图像,支持高效采样,可操纵数据属性VAE变分自动编码变分自动编码可以处理各种类型的数据,但生成输输出结果模糊出结果模糊NeRF神经辐射场神经辐射场信息传递更加直接,优化目标为所见即优化目标为所见即所得所得,但计算开销开销大,较难实现大,较难实现TheanoCaffe持续优化迭代基础生成算法模型不断突破创新基础生成算法模型不断突破创新开发架构提供了对底层算法的封装开发架构提供了对底层算法的封装AIGC 关键底层算法模型数据预处理数据预处理及模型训练及模型训练AIGC的实现逻辑的实现逻辑底层生成算法和开发架构是实现底层生成算法和开发架构是实现AIGC所必不可缺的部分所必不可缺的部分。底层生成算法是实现内容生成的基石底层生成算法是实现内容生成的基石,通常是深度学通常是深度学习模型习模型,而开发架构是支撑底层算法的基础设施而开发架构是支撑底层算法的基础设施,以便开发人员较易集成多种算法组成以便开发人员较易集成多种算法组成。AIGC技术架构概览技术架构概览底层生成算法底层生成算法资料来源:灼识咨询22文本生成文本生成图像与视频生成图像与视频生成音频生成音频生成基础层基础层应用层应用层终端用终端用户层户层数据数据包括业务数据联通、素材数据搜集等算法及模型算法及模型包括神经网络、深度学习、自然语言处理技术、扩散模型、云渲染等开源算发。以及基于算法通过数据训练生成的机器学习模型、深度学习模型及大模型等。算力算力包括服务器、GPU、HPC、云等提供基本计算能力的基础设施各类内容创各类内容创作及分发平作及分发平台台内容终端内容终端生产厂商生产厂商第三方内容服第三方内容服务机构务机构上上游游中中游游下下游游AIGC产业链概览产业链概览AIGC产业仍处于早期发展阶段产业仍处于早期发展阶段,在数据在数据、算法和算力的基础之上算法和算力的基础之上,核心模型以关键企业研究成果为主导核心模型以关键企业研究成果为主导,AIGC以以AI生成文本生成文本、图像图像、视频和音频为主流形式视频和音频为主流形式。AIGC产业链概览产业链概览基于模块分类基于模块分类资料来源:灼识咨询23娱娱乐乐领领域域传传媒媒领领域域影影视视领领域域电电商商领领域域其其他他AIGC应用场景应用场景教育教育工业工业金融金融医疗医疗合成历史人物视频虚拟教授线上课程音视频处理辅助工程设计数字孪生系统构建营销视频合成智能客服VR金融场景构建医学图像处理智能病例录入合成肢体投影商品展示商品展示主播打造主播打造交易场景交易场景智能商品详情商品3D模型生成品牌虚拟主播虚拟商城构建前期创作前期创作信息采集信息采集全民娱乐全民娱乐中期拍摄中期拍摄后期制作后期制作剧本创作场景设计辅助采访助手多语言翻译人脸美妆/融合黑白图像上色图像风格转换数字复活已故演员高难度动作合成演员角色年龄的跨越替换劣迹艺人影视作品修复影视内容2D转3D内容编辑内容编辑内容播报内容播报写稿机器人剪辑视频集锦视频字幕自动生成AI主播智能播报社交互动社交互动偶像养成偶像养成虚拟歌姬虚拟直播用户数字化身AIGC产品形态产品形态3D模型模型文本生成文本生成音频生成音频生成图像生成图像生成视频生成视频生成代码生成代码生成其他其他AIGC 传媒:传媒:人机协同生产,推动媒体融合人机协同生产,推动媒体融合采编环节:采访录音语音转写,提升传媒工作者的工作体验;智能新闻写作,提升新闻资讯的时效;智能视频剪辑,提升视频内容价值传播环节:AIGC应用主要集中在以AI合成主播为核心的新闻播报等领域AIGC 娱乐:娱乐:扩展辐射边界,获得发展动能扩展辐射边界,获得发展动能实现趣味性图像或音视频生成,激发用户参与热情打造虚拟偶像,释放IP价值开发C端用户数字化身,布局消费元宇宙AIGC 影视:影视:拓展创作空间,提升作品质量拓展创作空间,提升作品质量为剧本创作提供新思路扩展角色和场景创作空间赋能影视剪辑,升级后期制作AIGC 电商:电商:推进虚实交融,营造沉浸体验推进虚实交融,营造沉浸体验生成商品3D模型用于商品展示和虚拟试用,提升线上购物体验打造虚拟主播,赋能直播带货赋能线上商城和线下秀场加速演变,为消费者提供全新的购物场景AIGC 其他:其他:推进数实融合,加快产业升级推进数实融合,加快产业升级教育领域:AIGC赋予教育材料新活力金融领域:AIGC主力实现降本增效医疗领域:AIGC赋能诊疗全过程工业领域:AIGC提升产业效率和价值AIGC应应用用场场景景AIGC应用场景应用场景AIGC产品形态多元产品形态多元,如文本生成如文本生成、音频生成音频生成、图象生成图象生成、视频生成视频生成、代码生成代码生成、3D模型等模型等,赋能赋能“数字化程度数字化程度高高 内容需求丰富内容需求丰富”的行业的行业,如娱乐如娱乐、传媒传媒、影视影视、电商等电商等,驱动各行业创新驱动各行业创新。AIGC应用场景应用场景概览概览资料来源:灼识咨询24AIGC算法技术升级步入深化阶段算法技术升级步入深化阶段CNN/RNN 神经网络与神经网络与Transformer对比对比传统机器学习算法传统机器学习算法深度神经网络深度神经网络算法特点:算法特点:不具备强大的学习能力,依赖于预先定义的统计模型或专家系统执行特定的任务,可以完成简单线条、文本和旋律的生成算法缺点:算法缺点:算力挑战:传统机器学习方法的维度诅咒等导致算力挑战缺乏感知:生成内容空洞、刻板、文不对题算法示例:算法示例:通过定义复杂的函数方程组,计算机所绘出的函数曲线具备某种美学图样回归算法:线性、回归树等分类算法:逻辑回归等聚类算法:仿射传播等算算法法学习范式学习范式 网络结构不断网络结构不断迭代迭代卷积神经网络 CNN递归神经网络 RNN损失函数和梯度下降算法可以灵活快速的调整深度神经网络中的参数,从而实现从数据中进行学习的功能生成对抗网络 GAN深度强化学习深度变分自编码器流模型扩散模型深度残差网络Transformer早期神经网络早期神经网络Transformer与与RNN、CNN准确度对比准确度对比Transformer算法具备跨时代意义具备跨时代意义的原因是算法上添加了注意力机制注意力机制。这种机制突破了RNN模型不能并行计算的限制;相比CNN模型,其关联所需的操作次数不随距离增长。Transformer算法在语义特征提取能力、远距离特捕获能力等方面明显增强。CNN/RNN 神经网络神经网络Transformer引入大规模并行处理,模拟人脑分类学习和适应性联想。1234567使用注意力机制进行优化,使语句中的词语有了重点区分。GPT-3、InstructGPT、ChatGPT都是在此模型上迭代、演进的。关键关键分析分析AIGC行业发展驱动因素行业发展驱动因素算法升级算法升级不断迭代升级的算法可以实现不断迭代升级的算法可以实现AI模型的性能稳定模型的性能稳定、功能进阶功能进阶,进而使得进而使得AIGC产品表现愈加出色产品表现愈加出色。AIGC算法不断迭代升级算法不断迭代升级资料来源:“Why Self-Attention?A Targeted Evaluation of Neural Machine Translation Architectures”,灼识咨询84p0%语义特征提取能力远距离特征捕获能力RNNS2S(RNN模型)ConvS2S(CNN模型)Transformer算法25年均复合增长率年均复合增长率2021-2030E27.6.74.4%总计总计65.1%全球计算设备算力总规模,以全球计算设备算力总规模,以FP322计,计,2021-2030E2323,30002,00052,00054,00056,00036914202152,5002002030E61556,000基础算力规模(FP32)智能算力规模(换算为FP32)超算算力规模(换算为FP32)注:注:*基础算力规模按照全球近6年服务器算力总量估算;智能算力规模按照全球近6年AI服务器算力总量估算;超算算力规模主要是基于全球超级计算机TOP500数据,并参考超算生产商的相关数据估算*FP32为单精度浮点数算力是打造大模型生态的必备基础算力是打造大模型生态的必备基础算力是指计算设备执行算法、处理数据的能力,包括CPU、GPU等。算力的应用包括数据中心、分布式计算、云计算、边缘计算等。AIGC背景下,大模型是AI发展的必然趋势,而算力是打造大模型生态的必备基础。AIGC拉动算力需求指数级增长拉动算力需求指数级增长大模型训练所需算力每3-4 个月增长1倍,增速远超摩尔定律(18-24 个月/倍)。模型预训练过程是消耗算力的最主要场景,AI训练所需算力呈现指数增长态势。Eflops(1018次)算力芯片算力芯片、AI服务器有望持续放量服务器有望持续放量,数据中心建设提速数据中心建设提速需求拉动算力芯片及AI服务器的技术迭代,预计未来将持续放量;同时,各国纷纷提速数据中心建设,我国“东数西算”工程投资规划逐步清晰。全球算力规模将保持高速稳定增长态势全球算力规模将保持高速稳定增长态势预计2030年人类将迎来YB数据时代,全球算力规模达到56ZFlops(1021次)。预计智能算力2021至2030年年均复合增长率将超65%,以支撑庞大的新增非结构化数据(文本、图片、语音、视频等)。不同模型训练需要的算力不同模型训练需要的算力Pflops/s-day11101001,00010,000BERT-BaseBERT-LargeROBERTa-BaseROBERTa-LargeT5-SmallT5-BaseT5-LargeT5-3BT5-11BGPT-3 SmallGPT-3 MediumGPT-3 LargeGPT-3 XLGPT-3 2.7BGPT3 6.7BGPT-3 13BGPT-3 175BBERT模型T5模型GPT模型注:1.Pflops/s-day:以1015次每秒浮点运算次数的速度进行计算,需要消耗的天数;2.单精度浮点数,用8bit 表示指数,23bit 表示小数。AIGC行业发展驱动因素行业发展驱动因素算力扩容算力扩容算力提升是算力提升是AIGC发展的重要驱动力之一发展的重要驱动力之一,愈大的算力规模可以支撑更大规模的模型运转愈大的算力规模可以支撑更大规模的模型运转。算力是打造大模型生态的必备基础,算力是打造大模型生态的必备基础,AIGC拉动算力需求指数级增长拉动算力需求指数级增长算力芯片、算力芯片、AI服务器有望持续放量,数据中心建设提速,全球算力服务器有望持续放量,数据中心建设提速,全球算力总规模将保持高速稳定增长态势总规模将保持高速稳定增长态势资料来源:“Language Models are Few-Shot Learners”,IDC,灼识咨询26OpenAI 变现模式概览变现模式概览产出内容收费2提供软件服务收费3模型训练收费4具体属性收费5作为底层平台收费1作为底层平台接入其他产品对外开放,按照数据请求量和实际计算量计算如GPT-4对外提供API接口,采用的四种模型分别采用不同的按量收费方式按平台和工具产出内容量收费大多数AI图像生成平台大多按照图像张数收费主要服务于C端企业用户,大部分C端AIGC工具则以约80人民币/月的价格对外出售模型训练费用,适用于NPC训练等个性化定制需求较强的领域针对对特殊性质的内容自动生成服务进行专门化收费方式设计潜在变现方式潜在变现方式2C个个人人用用户户端端微软、亚马逊、谷歌的人工智能平台存在按API盈利盈利的模式,用户调用的API次数越多,收费越高。按次收费OpenAI、DALL E、Deep Dream Generator等AI图像生成平台大多按照图像张数收费,收费方式更符合用户预更符合用户预期期按产出收费2B企企业业端端客户根据需求按次收费,通常是根据API调用次数进行收费按次收费客户可以按月会员制付费,得到相应的服务和升级,内容输出根据方案的不同呈现阶梯式阶梯式会员制GPT-4 API接口接口产品简介:产品简介:AI技术驱动的大规模多模态模型,可以接受图像和文本输入,产生文本输出收费标准:收费标准:不超过8K文本长度时,定价为每1K个提示令牌0.03美元,每1K个补全令牌0.06美元ChatGPT Plus产品简介:产品简介:AI技术驱动的自然语言处理工具收费标准:收费标准:每月20美元DALL.E产品简介:产品简介:AI技术驱动的文本生成图像模型收费标准:收费标准:15美元可购买115个积分,约能生成460张图片,并获得图片的使用权,包括商业用途ChatGPT API 接口接口产品简介:产品简介:AI技术驱动的自然语言处理工具收费标准:收费标准:每1K个提示令牌0.002美元2C个个人人用用户户端端2B企企业业端端InstructGPT API 接口接口产品简介:产品简介:专注于解决指导型对话收费标准:收费标准:每1K个提示令牌0.0004美元-0.02美元DALL.E API 接口接口文本生成图像Whisper API 接口接口自动语音识别微调模型微调模型增加分类器或特征映射微调GPT-3模型嵌入模型嵌入模型将一个内容实体映射为低维向量,从而可以获得内容之间的相似度AIGC行业发展驱动因素行业发展驱动因素多元化变现模式多元化变现模式AIGC通常可同时面向企业和个人变现通常可同时面向企业和个人变现,随着用户方需求持续升级和随着用户方需求持续升级和AIGC产品愈加成熟产品愈加成熟,诸多潜在的变现方式诸多潜在的变现方式也将进一步刺激也将进一步刺激AIGC行业蓬勃发展行业蓬勃发展。AIGC变现模式变现模式概览概览用户可免费享受部分功能,可以通过成为会员获取更优会员获取更优质的内容服务质的内容服务,主要包含定制化、更高质量及多模态的输出内容会员制资料来源:灼识咨询27I.大模型如今已展现出卓越的能力,随着其不断演进和完善,大模型如今已展现出卓越的能力,随着其不断演进和完善,必将引领必将引领AI的未来道路,开创智能时代的新纪元的未来道路,开创智能时代的新纪元II.受益于大模型技术的日益成熟,受益于大模型技术的日益成熟,AIGC有望掀起新一轮产业革有望掀起新一轮产业革命,开启人类发展的智能新时代命,开启人类发展的智能新时代III.GPGPU高度并行的计算资源为大型模型的训练和推理提供了高度并行的计算资源为大型模型的训练和推理提供了不可或缺的支持,推动了大模型与不可或缺的支持,推动了大模型与AI领域的不断进步和创新领域的不断进步和创新IV.彩蛋:生成式彩蛋:生成式AI如何提升工作效率如何提升工作效率目录目录28定义定义特征特征应用应用典型产品典型产品GPGPUGPGPU是执行原本由CPU处理完成的通用计算任务的处理器。GPGPU具有GPU高度并行的非专用计算能力,并针对通用计算任务进行了优化,尤其适合大规模数尤其适合大规模数据集的训练和推理。据集的训练和推理。大模型大模型数据中心高性能计算图形图形GPU图形GPU是专门处理图形计算任务的处理器。图形GPU专注于传统的图形处理计算,如渲染图像、视频和游戏视觉效果制作等。非线性编辑视频编解码图形加速可视化3D设计独立独立GPU(商用)(商用)独立GPU是显示芯片及相关器件制作成一个独立于电脑主板的板卡,成为专业的图形处理硬件设施。通过独显插到主板相应接口上,具备高位宽,高频独立显存和更多的处理单元,性能优越,不仅可用于一般性的工作,还具有完善的2D效果和很强的3D水平。常用于高性能台式机和笔记本电脑以及服务器集成集成GPU集成GPU是指一般不带显存,而是使用系统的一部分主内存,可以被整合进主板作为芯片的一部分,也可以和CPU集成。集成在CPU里面的图形处理单元,构成CPU的一部分,其价格低,兼容性较好,但是性能相对较差,功耗低。常用于笔记本电脑GPU分类分类通过集成方通过集成方式分类式分类通过功能通过功能分类分类GPGPU定义定义GPU可根据其功能和集成方法进行分类。可根据其功能和集成方法进行分类。GPGPU出色的处理和并行计算能力被广泛应用于大模型、高性能计算出色的处理和并行计算能力被广泛应用于大模型、高性能计算和其他领域,也是未来和其他领域,也是未来AI发展的重要基础设施。发展的重要基础设施。英伟达 H100英伟达 GeForce 4090英伟达 GeForce 7050AMD X1250英特尔 GMA X4500HD英特尔 Iris Xe DG1AMD MI300英特尔 Ponte VecchioAMD Radeon PRO英特尔 ARC资料来源:灼识咨询29在在GPGPU产业链中,上游供应商主要为中游的芯片设计公司提供服务,在产业链中,上游供应商主要为中游的芯片设计公司提供服务,在GPGPU生产出来后再被转交给下游生产出来后再被转交给下游的终端用户。随着的终端用户。随着GPGPU在更多新兴应用场景中的普及,预计未来终端用户的覆盖范围将进一步扩大。在更多新兴应用场景中的普及,预计未来终端用户的覆盖范围将进一步扩大。GPGPU产业链产业链上上游游中中游游下下游游半导体半导体IP硅片设计硅片设计EDA工具工具晶圆制造晶圆制造封装组配封装组配集成测试集成测试PC云厂商云厂商产业链上游产业链上游:半导体IP供应商提供搭建SoC所需的核心功能模块。硅片设计服务供应商提供各个研发环节部分或全部的研发服务及后续晶圆制造、封装及测试的委外管理EDA工具供应商则主要提供芯片设计所需的自动化软件工具等。产业链中游产业链中游:芯片设计指根据芯片规格要求,通过主系统涉及、逻辑设计、电路设计、物理设计,最终形成设计版图。晶圆制造环节是根据设计版图将电路图形信息蚀刻在硅片上,并形成电路的过程。封装则是将芯片在框架上布局、粘贴、固定及连接,引出接线端子并通过可塑性绝缘介质灌封固定,构成整体立体结构的工艺。封装完成后,再对芯片进行功能和性能测试。产业链下游产业链下游:下游主要为终端厂商,如运营商、云厂商、AI厂商、互联网、行业AI、政府AIDC等。如今,GPGPU已被用于越来越多的新兴领域,推动各行业快速发展。GPGPU产业链产业链 运营商运营商芯片设计芯片设计关键分析关键分析终端用户终端用户资料来源:灼识咨询30GPGPU的软件为开发人员提供了主流的深度学习框架,并允许他们重新编程,从而在芯片计算利用率、数据吞吐量、多芯片互联等方面尽可能优化GPGPU性能。软件升级为GPGPU带来的进一步性能优化已成为 GPGPU公司至关重要的竞争优势。GPGPU的硬件架构以最初的GPU架构为基础,增强了通用计算单元,同时减少了用于渲染功能的硬件加速单元。这种量身定制的硬件架构使GPGPU成为通用智能计算的首选芯片,为AI计算奠定了坚实的硬件基础,推动了AI市场的发展。GPGPU架构架构框架框架GPGPU硬件硬件GPGPU软件软件GPGPU应用应用控制单元控制单元L1缓存缓存L2缓存缓存寄存器寄存器执行线路执行线路数据中心数据中心云服务供应商云服务供应商驱动模块驱动模块编译器编译器算法库算法库工具模块工具模块GPGPU架构架构关键分析关键分析软硬件集成所带来的性能优化已成为软硬件集成所带来的性能优化已成为GPGPU的关键竞争力。目前,持续的微架构创新和制程工艺升级,以及软的关键竞争力。目前,持续的微架构创新和制程工艺升级,以及软件开发人员对生态系统完整性和多样性的提升促进了件开发人员对生态系统完整性和多样性的提升促进了GPGPU的持续发展。的持续发展。GPGPU应用GPGPU软件GPGPU硬件其他硬件资料来源:灼识咨询31TF32,TFLOPSTFLOPS 是指每秒一万亿次浮点运算次数。TF32指TensorFlow-32,指一种单精度浮点格式。BF16指Brain Float-16,指一种数据精度低于TF32的浮点数据格式。INT8指8位二进制数据格式。数字越大,每种格式下的芯片计算能力越强。BF16,TFLOPSINT8,TOPSW热设计功耗是指GPGPU的最大功耗。TF32,TFLOPS/W一般将计算能力除以热设计功耗计算得出,反映了在相同功耗下GPGPU可提供的计算能力。BF16,TFLOPS/WINT8,TOPS/Wnm用于制造芯片晶片的核心工艺。数字越小,工艺技术越先进,性能也越强。GB内存是指GPGPU可以临时存储和快速访问的数据大小。内存越大,GPGPU可同时处理的数据就越多,性能也就越强。GB/S内存带宽是指芯片与内存之间的数据传输速度。内存带宽越大,GPGPU 从内存读取数据的速度就越快。GPGPU关键参数关键参数计算能力、热设计功耗、能效比、进程、内存和内存带宽等是计算能力、热设计功耗、能效比、进程、内存和内存带宽等是GPGPU的关键参数。的关键参数。关键参数关键参数描述描述123计算能力计算能力624 TOPS INT8312 TFLOPS BF16156 TFLOPS TF321热设计功耗热设计功耗400W能效比能效比1.6 TOPS/W INT80.8 TFLOPS/W BF160.4 TFLOPS/W TF32234564制程制程7nm5内存内存80GB HBM2E Memory6内存带宽内存带宽1,935 GB/sGPGPU关键参数关键参数GPGPU性能指标示意(以英伟达性能指标示意(以英伟达A100为例)为例)资料来源:灼识咨询32CAGR2018-2022 2022-2027E38.89.2%关键分析关键分析尽管GPGPU最初是为了完成图像相关的任务而发明的,但它的架构并非是定制的,这使它们能够广泛应用于各种不同的计算任务,在计算场景不断发展和多样化的当今世界,这是一个至关重要的优势。因此,GPGPU已成为通用计算芯片的主流选择,并将在未来继续保持这一优势。推理的算力需求通常会随着用户使用AI模型次数的增加而增加。受益于AI模型用户的不断增长,推理所需的计算能力未来将持续增长。同时,AI模型的参数越多,完成一次训练所需的计算能力就越高。随着大模型的不断发展,对能够处理此类大规模计算的GPGPU的需求将越来越大。未来,大模型的在各行业应用更加多样化,长期促进训练所需的计算能力的增长,推动GPGPU市场的发展。百万个全球全球GPGPU出货量出货量,2018-2027E全球全球GPGPU市场规模市场规模,2018-2027E十亿美元CAGR2018-2022 2022-2027E45.0U.5%GPGPU技术在大模型、技术在大模型、AI和其他领域的应用日趋成熟,推动全球和其他领域的应用日趋成熟,推动全球GPGPU市场持续快速发展。市场持续快速发展。GPGPU市场规模市场规模资料来源:灼识咨询020406080100120140201820222027E024681012201820222027E33I.大模型如今已展现出卓越的能力,随着其不断演进和完善,大模型如今已展现出卓越的能力,随着其不断演进和完善,必将引领必将引领AI的未来道路,开创智能时代的新纪元的未来道路,开创智能时代的新纪元II.受益于大模型技术的日益成熟,受益于大模型技术的日益成熟,AIGC有望掀起新一轮产业革有望掀起新一轮产业革命,开启人类发展的智能新时代命,开启人类发展的智能新时代III.GPGPU高度并行的计算资源为大型模型的训练和推理提供了高度并行的计算资源为大型模型的训练和推理提供了不可或缺的支持,推动了大模型与不可或缺的支持,推动了大模型与AI领域的不断进步和创新领域的不断进步和创新IV.彩蛋:生成式彩蛋:生成式AI如何提升工作效率如何提升工作效率目录目录34彩蛋:生成式彩蛋:生成式AI如何提升工作效率如何提升工作效率1文字类(对话、写作等)2图像类3音视频类4编程类5办公类市面上市面上AI工具五花八门,有文字、图像、音视频、编程、办公等众多类型。工具五花八门,有文字、图像、音视频、编程、办公等众多类型。GPT爆火后,各行各业都在开发大爆火后,各行各业都在开发大模型,有些是蹭热度,有些是基于已有产品进行升级,但目前具有颠覆性的仍是我们熟知的模型,有些是蹭热度,有些是基于已有产品进行升级,但目前具有颠覆性的仍是我们熟知的GPT、Midjourney等文字、图像类生成式等文字、图像类生成式AI工具。工具。注:以上截图来自网站-https:/ai- 常用大模型帮助撰写一些分析,如行业驱动因素等,经过简单改写或让常用大模型帮助撰写一些分析,如行业驱动因素等,经过简单改写或让AI基于之前的回复改写后,生成基于之前的回复改写后,生成的内容能够达到及格水平;也会用来翻译中英文、改写并总结文字。以修改英语为例,虽然简单但仍有一定的的内容能够达到及格水平;也会用来翻译中英文、改写并总结文字。以修改英语为例,虽然简单但仍有一定的技巧,合适的技巧,合适的prompt可以更高效地完成工作。可以更高效地完成工作。彩蛋:生成式彩蛋:生成式AI如何提升工作效率如何提升工作效率Prompt 1要求要求:你是一个英语为母语且是一个专业的分析师。你现在要修订报告中的内容,语言是英文。我会把每一段文字复制给你,你需要检查语法、错别字、表达不当,返回给我修订后的版本Prompt 1:In February 2020 we set out our ambition to be a net zero company by 2050 or sooner and to help the world get to net zero.This ambition is supported by 10 aims:five to help us become a net zero company,and five to help the world meet net zero.Prompt 2:We believe that our net zero ambition and aims,taken together,set out a path for bp that is consistent with the goals of the Paris Agreement.回复Prompt 2要求要求:你是一个英语为母语且是一个专业的分析师。你现在要修订报告中的内容,语言是英文。我会把每一段文字复制给你,你需要检查语法、错别字、表达不当,返回给我一个修订后的版本,再返回给我一个修订后的版本中体现所有修改痕迹,删除的部分加上删除线,更新的部分加粗显示。必须按照我的要求体现所有修改痕迹。Prompt 1:In February 2020 we set out our ambition to be a net zero company by 2050 or sooner and to help the world get to net zero.This ambition is supported by 10 aims:five to help us become a net zero company,and five to help the world meet net zero.Prompt 2:We believe that our net zero ambition and aims,taken together,set out a path for bp that is consistent with the goals of the Paris Agreement.回复36文字文字 在使用文字生成式在使用文字生成式AI时,时,promot要清晰、目的明确、且与话题相关,主要有帮助翻译、发散思路、和扩要清晰、目的明确、且与话题相关,主要有帮助翻译、发散思路、和扩写想法三种提高效率的方式。写想法三种提高效率的方式。彩蛋:生成式彩蛋:生成式AI如何提升工作效率如何提升工作效率帮助翻译1角色赋予角色赋予给予它一个明确身份帮助它使用你想要的语序和表达习惯2鼓励反馈鼓励反馈鼓励 ChatGPT 提出问题或提供反馈,以保持对话的互动性和吸引力。3针对修改针对修改具体、有针对性的提示来关注语言的具体方面,如语法、词汇或发音“假如你是一个英国人,请帮我翻译“假如你是一个英国人,请帮我翻译”“从母语为英语表达者的习惯来看,这个句子有“从母语为英语表达者的习惯来看,这个句子有什么问题吗?可以帮我修改吗?”什么问题吗?可以帮我修改吗?”“我不喜欢“我不喜欢effective这个词,帮我用一个高这个词,帮我用一个高级一些的词汇替换它”级一些的词汇替换它”发散思路扩写想法1保持正轨保持正轨误解或者跑偏时直白明确地指出错误,它可以很快做出修正,2扩展性提问扩展性提问要求它对其中一条做出解释扩写其中你认为较好的一条3持续补充持续补充可以要求他补充发散一些灵感,这个补充可以是没有目的的,也可以是针对某个方面进行发散“我想要的不是“我想要的不是,而是,而是”“请展开详细解释一下请展开详细解释一下这一条这一条”“我还想听到五个有关如何指导“我还想听到五个有关如何指导chatgpt给出给出我想要的文风的原则”我想要的文风的原则”2提供样例句子提供样例句子你可以要求他进行模仿描写,帮助它更熟悉你想要的文字风格和内容方向3善用总结善用总结一般chatgpt都会给你一段很长的内容,但不需要在一开始就过多的限制她的长度,善用总结“请写一段描述说明“请写一段描述说明,我希望这段描述中包括,我希望这段描述中包括ChatGPT在工作中的应用场景和使用后提高工作效在工作中的应用场景和使用后提高工作效率的原因”率的原因”“请仿照烹调锅具的多元化在满足更多厨房场“请仿照烹调锅具的多元化在满足更多厨房场景需求的同时,也成为了带动全球烹调锅具市场景需求的同时,也成为了带动全球烹调锅具市场发展的重要增量来源之一。帮我写一段话描述发展的重要增量来源之一。帮我写一段话描述”“把这段话缩写到“把这段话缩写到10字以内”字以内”1规定关键词规定关键词明确你希望它在扩写的过程当中提到的关键词或扩写方向你可以明确告诉它一些行业术语从而确保它生成的内容与特定领域相关“再优化一下语言,使得表述简洁明确没有“再优化一下语言,使得表述简洁明确没有重复内容”重复内容”37彩蛋:生成式彩蛋:生成式AI如何提升工作效率如何提升工作效率二手二手 New Bing可以联网,功能强大且可以联网,功能强大且UI更好,但回复较慢;虽然更好,但回复较慢;虽然GPT-4的训练数据还是基于的训练数据还是基于21年,但可以通年,但可以通过插件联网收集二手信息,只是效果一般,可以基于二手信息再用过插件联网收集二手信息,只是效果一般,可以基于二手信息再用GPT-4的其他功能进行处理。的其他功能进行处理。Prompt(GPT-4通过web pilot插件联网)回复Prompt 1:帮我列出下面21家的咨询公司的信息并返回表格,第一列是企业名称,第二列是成立年份,第三列是总部所在地区,第四列是企业简介(企业简介不要超过30字),第五列是企业的官网(如果没有就填写None)。这些公司是:Tata Group,Deloitte,PricewaterhouseCoopers,Accenture,Ernst Young,Cognizant,Infosys Public Services,Boston Consulting Group,McKinsey Company,CGI Group,Booz Allen Hamilton,Bain Company,Gartner,Mercer,Capgemini Invent,KPMG,Oliver Wyman,A.T.Kearney,Roland Berger,Arthur D.Little,China insights consultancyPrompt 2:你需要回复一个表格就可以,你发太多东西了Prompt 3:进入前三个公司的网站,总结他们的成立时间、总部所在地、发展历史、主要产品。返回表格就可以,第一列公司名称,第二列成立时间、第三列总部所在地、第三列发展历史(不要超过30字)、主要产品(不要超过30字)。Prompt(New Bing)Prompt 1:帮我列出下面21家的咨询公司的信息并返回表格,第一列是企业名称,第二列是成立年份,第三列是总部所在地区,第四列是企业简介(企业简介不要超过30字),第五列是企业的官网(如果没有就填写None)。这些公司是:Tata Group,Deloitte,PricewaterhouseCoopers,Accenture,Ernst Young,Cognizant,Infosys Public Services,Boston Consulting Group,McKinsey Company,CGI Group,Booz Allen Hamilton,Bain Company,Gartner,Mercer,Capgemini Invent,KPMG,Oliver Wyman,A.T.Kearney,Roland Berger,Arthur D.Little,China insights consultancyPrompt 2:进入前三个公司的网站,总结他们的成立时间、总部所在地、发展历史、主要产品。返回表格就可以,第一列公司名称,第二列成立时间、第三列总部所在地、第三列发展历史(不要超过30字)、主要产品(不要超过30字)。回复231238二手二手 Perplexity是基于大模型的应用,做二手非常强大,而且可以试用。是基于大模型的应用,做二手非常强大,而且可以试用。GPT4Claude2Perplexity彩蛋:生成式彩蛋:生成式AI如何提升工作效率如何提升工作效率39图片图片 日常工作中,常找一些封面页的背景图片,生成式日常工作中,常找一些封面页的背景图片,生成式AI可以生成非常好且合适主题的图片;另外,常常要可以生成非常好且合适主题的图片;另外,常常要找一些找一些icon和插画,生成式和插画,生成式AI可以生成简单的可以生成简单的icon和插画。当然,使用和插画。当然,使用Midjourney需要一定的技巧,目前上手需要一定的技巧,目前上手有一定的难度。有一定的难度。彩蛋:生成式彩蛋:生成式AI如何提升工作效率如何提升工作效率找到合适的Prompt1把Prompt发给Midjourney 2微调并下载3找到合适的Prompt并替换内容1把Prompt发给Midjourney 2微调并下载3Prompt:Generate a clean set of oil production industry icons representing the various segments of the oil production chain.Icons should have a professional look and feel with straight lines,minimalist design and consistent proportions.The color palette should be neutral and muted,suitable for a consultants output report.Each icon should be easily recognizable and distinguishable,reflecting the essence of the respective segment.Prompt:Generate 4 illustrations of the oil extraction industry,illustrations should have a professional look and feel with straight lines,minimalist design and consistent proportions.The color palette should be neutral and muted,suitable for a consultants output report.Each illustration should be easily recognizable and distinguishable,reflecting the essence of the respective segment.40行业分析行业分析 MindOs是一个基于大模型的应用,有一个角色是“行业分析师”,告诉它想要分析哪个行业即可生是一个基于大模型的应用,有一个角色是“行业分析师”,告诉它想要分析哪个行业即可生成报告。生成的报告质量不敢恭维且很模板化,但思路很有意思,即先通过网页搜索,找到最合适的信息源,成报告。生成的报告质量不敢恭维且很模板化,但思路很有意思,即先通过网页搜索,找到最合适的信息源,再总结输出为报告。再总结输出为报告。彩蛋:生成式彩蛋:生成式AI如何提升工作效率如何提升工作效率思考过程输出的报告注:以上截图来自网站-https:/ 有个比较难用肉眼识别的图想复现一下,基于有个比较难用肉眼识别的图想复现一下,基于GPT-4的的Advanced Data Analysis可以给图像加上横可以给图像加上横线、竖线,帮助判断具体数字。线、竖线,帮助判断具体数字。彩蛋:生成式彩蛋:生成式AI如何提升工作效率如何提升工作效率“请在我上传的图像上添加50条红色半透明横线和50条红色半透明的竖线,以便于我手动估算图表中的数值。横线应该从图像顶部到底部精确均匀分布,每一条线的间隔必须精确的为100%除以横线的数量,从0%到100%全覆盖。竖线应该从图像坐部到右部均匀分布,每条线的间隔应精确的为100%除以竖线数量,从0%到100%全覆盖。请确保每条横线和竖线的位置是精确计算出来的,以避免任何不等间距的情况。横线的标签应该一半一半分布在图像的左侧和右侧以避免视觉混乱,竖线的标签一半一半分布的分布在上方和下方。处理好的图像直接生成出来让我看见并给我一个附上下载链接。”1245342生成式生成式AI能够提升我们的工作效率,但目前仍有不少问题,如:能够提升我们的工作效率,但目前仍有不少问题,如:1)应用端不成熟;)应用端不成熟;2)无法突破数据、敏感性)无法突破数据、敏感性的限制;的限制;3)使用受限;)使用受限;4)对用户要求较高。)对用户要求较高。彩蛋:生成式彩蛋:生成式AI如何提升工作效率如何提升工作效率应用端还不成熟需要不断摸索方法并总结和标准化才能真正的提升效率,因为很多场景对我们日常工作是低频的,例如画图,想要通过生成式AI生成符合我们要求的图需要不断调试,前期要花费大量的时间。1无法突破数据、敏感性的限制以做二手为例,底层逻辑是通过企查查、天眼查、维基百科等发起请求并给予查询到的内容进行整理,很多信息在搜索引擎上查找起来也是比较费劲的以MindOS为例,它所查询的数据基本是非常公开的数据,而很多我们常用的数据在公开渠道查找比较困难,未来即使有行业大模型,受版权等限制这些数据仍不会是公开数据,或许私有化的垂类大模型能够做到整合私有化的数据并提供输出2使用受限我们虽然都自带“魔法”,但想要使用GPT-4、Midjourney十分困难首先,这2家对“魔法”要求比较高,得有特定的线路和支持全局的“魔法”其次,付款限制严格,GPT-4不支持中国境内发行的卡(包括外币卡)再次,价格高,GPT-4每月$20,Midjourney最基础版本每月$10国内目前也已经推出了不少大模型,在文字输出上尚可,其他方面的能力略有不足。3对用户要求较高除去国内特有的一些限制及价格较高的限制外,目前生成式AI实际对用户的知识边界仍有不低的要求,增效仅局限于已有的知识,想要通过生成式AI达到不懂行业的及格线非常困难(需要不断的扩自己的知识边界才能更全面提升)以GPT-4的Code Interpreter为例,不需要用户会写代码,但想要实现更复杂的工作,还是需要用户对编程有一定的了解且能够大致读懂代码,否则使用起来非常费劲。以Midjourney为例,生成一张比较复杂的图片,需要不断调整,而且还要善于理解特定的prompt。不懂的用户其实根本就没法调整,例如普通用户对各种画风可能一无所知。443 2023 China Insights Consultancy.All rights reserved.This document contains highly confidential information and is solely for the use of our client.No part of it may be circulated,quoted,copied or otherwise reproduced without the written consent of China Insights Consultancy.CIC灼识咨询灼识咨询电话: 86 21 2356 0288地址:上海市静安区普济路88号静安国际中心B座10楼如需更多信息,请访问:敬请致函:扫码关注公众号灼识扫码关注公众号灼识CIC扫码添加扫码添加CIC灼识小助手灼识小助手
September 2023,IDC#CHC50428523 市场份额 中国 AI 赋能的工业质检解决方案市场份额,2022:差异化竞争日益凸显 Wency Yang Yuri Cui IDC 市场份额图市场份额图 图图 1:中国中国 AI 赋能的赋能的工业质检解决方案市场份额概况,工业质检解决方案市场份额概况,2022 注:2022 年厂商份额(%),收入(百万美元),增长率(%);解决方案包括支撑业务开展的应用软件及其定制化部署实施服务,不包括硬件。来源:IDC,2023 2023 IDC#CHC50428523 2 执行概要执行概要 制造业作为国民经济的重要组成部分,在国家的繁荣与稳定方面起着至关重要的作用。为了实现制造业的智能化升级和跨越式发展,底层问题亟待解决。工业互联网是支撑工业制造业转型的重要技术组成方案,加快核心技术产品攻关,如人工智能(AI)在工业领域的应用,将推动我国工业的数字化转型。同时,随着工业制造的需求越来越多,传统方式已无法满足企业需求,工业质检等方案的升级是必然趋势。IDC 定义的 AI 赋能的工业质检是利用基于深度学习等 AI 技术的视觉检测技术,在工业生产过程中,对产品图像进行视觉检测,从而帮助发现和消除缺陷。基于 AI 视觉技术进行人的行为检测识别、视频巡检等应用,不属于本报告讨论的工业 AI 质检范畴。工业 AI 质检技术凭借工业互联网体系中丰富的数据、算法和算力资源,结合云边端等技术手段,成为推动工业生产数字化转型的重要驱动力。市场规模市场规模:2022 年工业质检解决方案(不包含硬件)整体市场规模为 2.7 亿美元,较 2021 年增长了 27.4%,从增长趋势来看,2022 年受到疫情影响,增长趋势有所放缓,但对比其他 AI 市场仍然属于相对较高的水平。从行业角度来看 3C 依旧占据半壁江山,在总市场中占比达到 53.1%,汽车、轻工消费品紧随其后,占比分别为 18.6%、13.4%。IDC 预计,2026 年中国工业 AI 质检整体市场将达到 13.35 亿美元。目前现状:目前现状:2022 年开始头部厂商更加有所侧重地选择有经验和沉淀的细分行业和场景开展深耕,并利用自身优势基于工业 AI 视觉平台打造完整的解决方案,同时在原有细分行业有序进行规模化的复制,由此取得稳定的收入增长。也有不少新的玩家包括检测设备商和行业系统集成商(SI),进入市场进行跑马圈地,所以 IDC 也观察到该市场竞争态势日趋激烈。行业市场 3C 和动力电池、汽车等仍然是市场的核心需求方向,需求旺盛。同时,在装备制造、有色金属、包装印刷、食品饮料等新行业新场景的应用仍在继续涌现,这些领域对产品质量和安全的要求同样严格,AI 质检的应用为它们提供了重要的技术支持。从技术的角度来看,目前大模型 工业质检已有商业化落地案例,2022 年矿业基于视觉大模型开展自身内部各种场景的质检落地。在 3C 电子行业,已有技术厂商利用大模型对电路板进行高精度的检测,确保产品的可靠性。在轻工消费的纺织行业中,通过大模型实现对面料瑕疵的精准识别,提高产品的质量。未来趋势:未来趋势:随着检测设备供应商和行业系统集成商的不断进入,产品智能化水平不断提高,AI 厂商的市场份额逐渐受到挤压。一些过去专注于 AI 质检的大型企业和创业公司正在逐步转型或退出市场,市场竞争格局正在发生变化。未来,AI 厂商是否能够凭借 AI 质检平台持续占据一席之地仍未可知。深入挖掘行业,发现新的技术应用场景,利用大模型、AIGC 等新技术提高工业质检精度,可能是突围的重要途径之一。本 IDC 研究对 2022 年中国 AI 赋能的工业质检解决方案市场的规模、厂商份额、市场现状及未来趋势进行了分析。IDC 中国人工智能高级分析师杨雯表示:“2022 年中国 AI 赋能的工业质检解决方案(不包含硬件)整体市场规模为 2.7 亿美元,受到疫情影响,较 2021 年增长了 27.4%,增速有所放缓。3C、汽车和轻工消费仍然是 AI 工业质检的主要行业。面对 AI 技术的不断突破和新的玩家持续涌现,工业质检技术厂商需要重点关注技术创新、垂直领域深耕,不断提升产品和服务质量,以保持竞争优势,并取得更多市场份额。”给技术提供商的建议给技术提供商的建议 AI 赋能的工业质检是一个具有潜力的发展中市场,为行业提供了巨大的想象空间。为了更好地支持技术提供商抓住市场机会,IDC 提供如下建议:2023 IDC#CHC50428523 3 强化强化 A AI I 视觉平台视觉平台能力,加速能力,加速工具打造工具打造:利用自身优势,拉动平台体系建设,打造完整解决方案。关注用户需求,积极收集反馈,不断优化平台功能。并持续推动技术和算法升级,以保持在该领域的领先地位。聚焦聚焦细分细分行业,在行业中持续行业,在行业中持续拓展应用场景拓展应用场景,明晰明晰 A AI I 盈利策略盈利策略:从市场覆盖广度到细分行业深耕,需要凭借自身知识沉淀,发展行业应用深度,在头部行业(3C、汽车、轻工消费等)进行规模化复制。另外,除了传统行业,光伏、锂电池等行业也需要布局拓展行业应用,将碎片化的生产链进行梳理,了解不同场景下的需求和挑战,为客户提供定制化解决方案,挖掘应用潜力,明确营收目标,通过清晰的战略规划推动自身市场规模扩张。持续关注市场持续关注市场竞争竞争变化,变化,提前布局:提前布局:市场竞争加剧,新的玩家不断涌入,检测设备商和行业系统集成商(SI)以及创新企业进入市场,凭借其客户、产品、战略优势有突出重围的可能性,软件厂商应围绕差异化竞争优势筑建壁垒,注重新技术融合。关注政策,强化数据安全能力关注政策,强化数据安全能力:企业需要严格遵守相关的法律法规和行业规范,如中华人民共和国网络安全法、个人信息保护法等。确保用户数据的保密性和完整性,为用户提供可信赖的解决方案。建立完善的数据安全管理制度,明确数据采集、处理和存储的流程和规范。通过建立数据安全管理制度,企业可以确保数据的处理和存储符合规范,避免数据泄露、篡改等安全问题。通过以上建议,工业质检技术厂商可以更好地满足客户需求,提高产品质量和技术竞争力,实现可持续发展。市场份额市场份额 根据技术提供商主要提供的产品与服务类型,IDC 在 2022 年将 AI 赋能的工业质检解决方案市场聚焦在为用户提供“软件 服务”的解决方案市场,摄像头、质检仪、光学硬件设备等暂不计入。IDC 连续四年追踪 AI 工业质检市场,2022 年市场增长在疫情的影响下有所放缓,增速从 2021 年的48.4%下降到 27.4%。但 AI 质检在行业的应用规模化复制的趋势仍在,并且伴随着大模型的应用落地,未来工业 AI 质检市场增速有望回升。2022 年 AI 工业质检市场竞争进一步激烈,更多设备商、系统集成商、创业公司等进入市场,百度智能云、创新奇智、腾讯云、微亿智造和阿丘科技等凭借在各自细分领域的持续积累,占据了市场领先位置,CR5 厂商市场份额达到了 44.7%,相对来说市场集中度不高。2022 年主要的中国 AI 赋能的工业质检解决方案(仅包含软件和服务)厂商的市场份额如表 1 所示。表表 1 中国工业质检解决方案市场份额概况,中国工业质检解决方案市场份额概况,2022 厂商 解决方案收入(百万美元)市场份额(%)百度智能云 28.6 10.6 创新奇智 28.1 10.4 腾讯云 27.3 10.2 微亿智造 19.6 7.3 阿丘科技 16.6 6.2 其他厂商 148.5 55.3 2023 IDC#CHC50428523 4 表表 1 中国工业质检解决方案市场份额概况,中国工业质检解决方案市场份额概况,2022 厂商 解决方案收入(百万美元)市场份额(%)总计 268.6 100.0 来源:IDC,2023 子市场:子市场:中国通信及电子制造业行业中国通信及电子制造业行业 AI 工业质检市场份额工业质检市场份额 从行业来看,通信和电子制造、汽车及零部件、消费品和原材料 4 个行业中很多场景实现了规模化复制,需求也相对旺盛,构成目前市场主要应用行业。其中钢铁行业受限于行业自身不景气,市场占比有所缩减,3C 行业的持续需求增长使行业在整体市场占比中进一步提升。2022 年,AI 质检仍有不少新行业和新应用场景出现,例如装备制造、包装印刷、食品饮料等。具体应用行业分布如图2 所示。图图 2 AIAI 工业质检工业质检解决方案解决方案应用行业分布情况应用行业分布情况,2 2022 022 来源:IDC,2023 2022 年 AI 工业质检 3C 行业市场规模达 1.4 亿美元,如表 2 所示,腾讯云、创新奇智、阿丘科技处于头部位置。2023 IDC#CHC50428523 5 其中,腾讯云从 3C 锂电池向其他行业延伸,主要深耕平台算法,并通过应用带动 TI 平台的落地,凭借其完善的平台功能优势在工业质检最大的行业子市场拔得头筹。创新奇智在“技术产品” “行业场景”双轮驱动模式下按照“点-线-面”的业务拓展路径,2022 年在行业复制和扩张方面都取得了不错的成绩。阿丘科技则一直围绕工业软件进行深耕,在 3C 行业专注于解决复杂的工业检测问题(工业 AI 视觉)及智能分析服务,市场规模表现良好。着眼未来,手机、PCB 以及半导体面板等检测市场依旧是竞争最激烈的领域之一,而汽车及零部件在工业方面有异军突起之势,有望在未来几年成为增长新动力。同时由于 AI 技术的发展,大模型、AIGC 等技术也将持续赋能工业领域,推动商业模式的变革。表表 2 中国通信及电子制造业行业中国通信及电子制造业行业 AI 工业质检工业质检市场份额市场份额,2022 厂商 解决方案收入(百万美元)市场份额(%)腾讯云 18.7 13.1 创新奇智 16.8 11.8 阿丘科技 10.0 7.0 康耐视 9.8 6.9 其他厂商 87.3 61.2 总计 142.6 100.0 来源:IDC,2023 图图 3 中国通信及电子制造业行业中国通信及电子制造业行业 AI 工业质检市场份额工业质检市场份额,2022 来源:IDC,2023 2023 IDC#CHC50428523 6 哪些厂商塑造了这一年?哪些厂商塑造了这一年?百度智能云百度智能云 百度智能云依托于融合了大模型技术的新开物解决方案,构建了敏捷智能的工业智能应用。百度智能云已累积超过 280 个工业解决方案,沉淀了 4.3 万个工业模型,已在全国 18 个区域或园区落地。针对数字化进程迅猛的汽车行业,百度智能云还首次发布汽车云,通过集团云、网联云、供应链协同云三朵云结合,构成从制造到销售运行的一套服务汽车企业的完整载体。在工业质检产品线方面,百度智能云提供完备端到端的解决方案。首先从平台侧来看,百度智能云拥有工业视觉智能平台,集百度自研的 AI 算法、模型和各类硬件算力为核心,提供全流程“0”代码的模型训练、模型优化与模型预测服务,并配备数据对齐、模型训练、模型测试和模型分发、模型管理和项目管理等 AI 工具。在质检、巡检等工业视觉场景中,帮助工业生产和制造业客户通过 AI应用实现降本增效。另外,飞桨是百度自研的深度学习框架,持续开源核心能力,为产业、学术、科研创新提供基础底座。在硬件产品侧,百度智能云支持丰富的 AI 芯片类型,包括百度自研的昆仑芯片以及行业多规格的主流数据中心级 GPU,以满足不同场景、不同性价比的识别、推理需求。此外,百度智能云还提供高性能训练机、工业级预测机、边缘算力设备、轻量级智能相机、AR 智能眼镜等硬件产品。解决方案层面,百度智能云工业 AI 质检解决方案深耕汽车整车及零部件和以化纤、钢铁为代表的原材料等 15 个规模化行业,已覆盖 100 多个场景,服务首钢、宝武、恒逸、一汽等知名企业。在汽车行业,广汽本田总装车间里,一辆车的全车车灯质检,需检查 22 个点位,处理120 多张图,这套工序使用 AI 完成仅需 1 秒,准确率高达 99%。在化纤行业,恒逸集团车间里,开物的 AI 质检设备检验 1 个丝锭只需 2.5 秒,效率比人工提高 70%。创新奇智创新奇智 创新奇智成立于 2018 年 2 月,是中国快速发展的企业级 AI 解决方案提供商。公司在“技术产品” “行业场景”双轮驱动模式下,致力于为企业提供 AI 产品及解决方案,包括 AI 平台、算法、软件及 AI 赋能设备,提高客户运营效率和商业价值,实现数字化转型。截至 2022 年底,创新奇智形成以山东青岛为总部,落地全国 12 个城市,下设多家子公司的全面布局。创新奇智自研面向行业应用的“MMOC 人工智能技术平台”和“AInnoGC 工业大模型平台”。除平台性技术外,针对制造业应用需求打造核心算法,创新奇智建立智能算法引擎,降低模型生产成本,为智能制造领域的模型应用提供关键算法能力。例如,针对制造业样本数据不足的问题,创新奇智深入研究小样本学习算法,打造涵盖从数据标注、算法应用到跨领域迁移的全系列小样本学习算法,建立 AI 工业视觉领域的技术优势。在大模型浪潮下,创新奇智工业大模型基于行业或企业内部的业务数据知识而打造,可以让不同细分行业或企业都拥有基于自身数据的 AI 生成能力,比如内容生成、智能问答、多轮对话、推理能力、代码生成等,可以快速把 AIGC 的能力带到以制造业为主的垂类场景中,比如交互式 BI、智能产线设计、跨场景的质量检测、交互式故障诊断、人员培训、人机互动等领域。在行业方面,创新奇智在工业领域深耕,重点发力在钢铁冶金、面板半导体、3C 高科技、汽车装备、能源电力、食品饮料和新材料、智造实训,按照“点-线-面”的业务拓展路径,实现 1*N 复制和 1 N 扩张,致力于长期可持续增长。在面板半导体的生产过程中,创新奇智研发的面板玻璃质量检测解决方案可以针对客户不同产线,以及随时间不断变化的缺陷模式,灵活快速地调整检测算法和方案,从而保障小于 0.1%的误检率以及小于 0.01%的漏检率。腾讯云腾讯云 腾讯云聚焦于软硬一体 AI 外观质检解决方案,其工业质检解决方案服务了众多企业项目,积累了丰富的落地经验,打磨出成熟的落地方案,在落地流程上也有所沉淀。在产品方面,依托腾讯云及优图实验室开发计算成像(多图融合、多图深度恢复)、光度立体成像等多项技术能力,及 NCNN、TNN 等深度学习加速框架的支持,腾讯云构建起包括腾讯云 TI 平台、腾讯云工业质检训练平台、腾2023 IDC#CHC50428523 7 慧飞瞳一体机在内的 AI 视觉检测产品矩阵,打造覆盖工业质检全流程,软硬一体的技术解决方案,在降低企业内部人力成本的同时,提升产品缺陷识别效率及准确度。在技术能力上,针对工业之间的模型基于自研 Angel 训练和前向推理框架实现模型训练和推理的加速,训练加速比提升了 43%,推理加速比提升了 100%。在赋能企业研发人员规模化进行 AI 应用的过程中,腾讯云打造出全栈式机器学习平台 TI 平台,帮助研发人员提高 AI 应用开发、调试效率,具体而言,在一站式的平台上打通标注、建模、调优、封装、服务发布全流程,辅助客户做数据可视化与统一纳管,提供可视化与低码建模工具降低 AI 建模与调试的门槛,并通过自研 Angel 加速套件,在模型训练与推理过程中提供加速能力,提升算力利用率。与此同时,针对工业大规模边缘推理场景,TI 平台对云边端协同功能进行了特别的优化,既可以一键批量进行边缘服务发布与更新,也可以对边缘设备进行统一纳管,在中心侧监控边缘设备的运行状态与运行的应用版本,提升大规模 AI 应用的运维效率。在 AI 外观质检应用开发与运维过程中,腾讯云针对工业质检这一垂直领域特别打造了工业质检训练平台(TI-AOI),协助开发人员零代码快速构建 AI 质检应用,并提供可视化运营工具方便现场监控与运维。具体而言,开发人员可使用 TI-AOI 训练模块输出 AI 质检算法,在质检设备上部署运营模块,可快速交付 AI 质检项目。TI-AOI 工业质检训练平台支持缺陷定义、算法训练及调优,创新性地打造了根据需求匹配 PPL、点位自动校准、PPL 详情展示、后处理策略可视化调整等功能,能同时支持单材质与多材质产品的质检需求。腾讯云重点聚焦 3C 电子及新能源等行业,在 2022 年拓展了锂电池部件、光伏以及新材料等场景应用。目前,在工业 AI 质检场景中,腾讯云打造了超过 20 多个细分领域外观检测的解决方案,年累计交付超过 200 台外观检测系统,单一客户累计完成超过 2000 万件产品外观检测,为这些企业的产品质量检测自动化、智能化升级带来了质的飞越。同时携手合作伙伴,打造了面向多个场景的外观检测解决方案,助力富驰、宁德时代等客户每年节省超千万支出,助力企业实现降本增效。微亿智造微亿智造 微亿智造成立于 2018 年,多年来深耕工业制造领域数智化转型升级相关技术研发和应用。公司以工业人工智能 机器视觉为主线,提供“眼、手、脑、云”全栈式解决方案,走通了工厂智能化柔性生产的最后一公里,助力制造业数智化转型升级。在整套解决方案中,微亿智造以视觉 AI 为技术基底,跨领域融合多种技术,从感知(眼)切入场景、沉淀数据,机器人智能控制(手)、训练模型(脑),通过云端灵活算力的调用,实现对质检的统一工程化改造,以满足工厂现场应用点上的需求。“眼”,指的是微亿智造自研的图像感知技术与可组合光学成像系统,捕捉缺陷,突破高反光、透明等复杂表面检测行为瓶颈,检测精度达到微米级别。“手”,即机器人智能控制,在复杂的场景、背景下能够做到机器人自主运动规划,无需人工调试,并且具备自主学习人的调试经验,以更快的速度生成检测方案,实现柔性部署。“脑”是更贴合离散制造需求的多任务学习和小样本训练技术,基于多模态开发以及行业的缺陷数据积累形成预训练模型,降低对于样本数据的需求,也进一步提升部署速度。“云”为“脑”提供算力支撑,为上层技术提供基础环境。2023 年针对国内工厂普遍存在的多品种、小批量的生产情况,为全面加速标准化产品项目的落地,正式对外公布标准化产品工小匠和灵系列,可以克服各种不同表面材质的工况,做到快速上线和柔性切换。同时,进一步深耕新能源、汽车制造、医疗器械等行业,发掘并深入应用场景,打造行业标机,并且全面增加推广渠道,增加标机渠道代理商,增加移动、联通、京东等合作渠道,自上而下打开市场空间,通过标准化和模块化合作的方式配合产业链上下游企业进行资源整合,外加灵活的可租可售商业模式,进一步降低企业导入智能化数字化的难度。集成多种工业能力到标准产品上,以最佳的实施成本打开市场是微亿智造的目标。阿丘科技阿丘科技 阿丘科技自 2017 年成立以来,一直致力于打造领先的工业 AI 视觉平台,并专注于解决复杂的工业检测问题(工业 AI 视觉)及智能分析服务。从产品和解决方案角度来看,阿丘科技已经推出了智能工业视觉平台 AIDI、云端 AI 平台 NexSight、AI 智能相机 EVS 以及垂直行业 AI 解决方案。2023 IDC#CHC50428523 8 阿丘科技 AIDI(Artificial Intelligent Defect Inspection)是基于深度学习的工业视觉软件平台,赋能多种工业应用场景,有效解决复杂缺陷的定位识别、缺陷检测、分类定级及字符识别等问题,具有强大的兼容性。AIDI 内置多种应用模块,无需编程,帮助用户快速构建和迭代模型,满足不同业务场景下的差异化需求,助力产业智能化升级。软件主要包括四大核心功能模块(定位、分割、检测和分类)以及 OCR 字符识别工具包,最新突破的非监督学习功能,可以满足缺陷难收集的场景下的检测需求。NexSight 系列,是构建在云端的工业 AI 视觉平台,大大降低长尾市场的使用门槛和导入成本,提供 AI 模型构建、算力集中管理、数据云存储、质量数据管理等能力,广泛适用于工业领域各类视觉检测场景。2023 年阿丘最新发布了一体式智能硬件产品深度学习智能相机 EVS-SC200,该产品高度集成阿丘自研 AI 算法、软件和硬件,满足采图/传输/推理/通信的一站式需求,有效解决简单至复杂的 OCR、装配检查、计数、外观检测、分类等产线在线检测问题。在解决方案方面,阿丘科技为原始设备制造厂商(OEM)提供 AI 算法模块及工业 AI 检测视觉系统等模块,也面向部分终端客户提供完整的 AI 解决方案。目前其软件产品已广泛应用于消费电子、汽车、新能源、医药、电路半导体等行业场景,部署上线数百家工厂,其中包括数十家先进制造业标杆企业,并为自动化系统提供商、行业系统集成商等提供服务。市场环境市场环境 重大市场变化重大市场变化 AI 工业质检技术在 2022 年取得了显著的进步和发展。随着技术的不断进步和应用场景的扩大,预计未来这一领域还将继续保持快速发展的趋势,具体来说 2022 年主要变化如下:探究预训练大模型在工业质检领域的融合应用:探究预训练大模型在工业质检领域的融合应用:预训练大模型在自然语言处理和计算机视觉领域取得了显著成就,而在 2022 年,技术厂商开始尝试将其应用于工业质检领域。通过使用预训练的模型,AI 可以在质检任务中学习更丰富的特征表示和模式,从而提高质检的准确性和鲁棒性。同时,随着算法模型的不断升级,工业质检领域的图像识别和缺陷检测能力也得到了显著提升。AI 系统能够更准确地检测和分类产品的缺陷,从而提高生产线上的质检效率,降低不良品率。从技术角度来看,工业质检领域迎来了一轮新的浪潮。在过去 2年,已经有不少试点,并在 2022 年首次实现了商业落地,例如矿业基于视觉大模型开展自身内部各种场景的质检落地。市场竞争态势加剧:市场竞争态势加剧:更多的检测设备商、系统集成商等加入市场,也有如视睿科技、波尔智造等一批创业公司获得融资加入了市场竞争。在激烈的价格战竞争态势下,也有一部分过去在重点聚焦 AI 质检的大公司企业和创业企业在逐步转型,甚至退出市场。AIAI 视觉平台和标准化检测硬件的需求增长:视觉平台和标准化检测硬件的需求增长:相比于 2021 年及之前,由于应用场景的碎片化,以及后续仍需要持续的模型调优,对通用的 AI 视觉平台的需求快速增长。为应对产品的碎片化,一体厂商推出了 2 个路线的 AI 检测硬件,分别类似机床的多轴和机器臂,在电子结构件检测方面都取得了规模化应用。厂商差异化竞争日趋明显厂商差异化竞争日趋明显:在激烈的竞争态势下,头部厂商更加有所侧重地选择自身优势的细分行业和场景开展深耕。在各个细分行业和领域,以 AI 技术为代表的厂商更多是与检测设备商和行业系统集成商(SI)进行竞争。同时,AI 工业质检不再局限于单个技术的应用,而是朝着端到端的解决方案发展。整合多种技术和算法,构建全面的质检系统,使得质检过程更加智能化和高效化。越来越多的企业希望 AI 质检解决方案能够与企业现有的生产管理系统、质量控制系统等打通集成,实现数据的共享和交互,打造自动化的模型训练闭环,实现企业整体生产效益的提升。多模态技术推动数据源丰多模态技术推动数据源丰富度提升:富度提升:多模态技术通过对不同类型的数据进行特征提取和整合,能够提取出更丰富的特征信息,用于质量检测。这些特征可以是图像中的纹理、形状、颜色等,也可以是音频中的频率、振幅等。通过将多种特征进行综合,可以更好地描述产品特性和检测结果。通过对多种数据源进行联合训练模型,可以提高 AI 工业质检系统的准确性和鲁棒性。2023 IDC#CHC50428523 9 研究方法研究方法 IDC 长期跟踪中国 AI 软件及应用市场,本研究是中国人工智能市场研究的一部分。IDC 获取信息主要通过一手资料研究和案头研究,两种方法同时使用,相互关联、相互验证,以确保信息的有效性和准确性。资料获取具体方法如下:一手资料主要通过对独立软件开发商、解决方案商及最终用户直接访谈获得。案头研究资料主要包括(但不局限于)互联网网站、贸易期刊和报纸、IDC 先前的研究资料、以及IDC 专有数据库等。对独立软件开发商和解决方案商的访问:对独立软件开发商和解决方案商的访问:IDC 的分析师通过对独立软件开发商和解决方案市场的重要参与者进行访问,以确定其软件和服务的收入情况和其它相关信息。大部分访问以面访的形式进行,电话访问、电子邮件联系等其它信息收集方式会根据需要采用。厂商介绍、新闻稿和其它对外公布的信息:厂商介绍、新闻稿和其它对外公布的信息:IDC 的分析师每年与大量的厂商进行广泛交流,以便有机会了解厂商目前和今后的产品、服务及解决方案的策略、收入状况、客户情况、目标市场,以及其它重要市场信息。IDCIDC 最终用户研究:最终用户研究:这主要包括每年对上千个最终用户的访谈。通过最终用户研究可以了解用户产品应用现状、痛点、采购流程、未来需求等,也可对厂商的竞争情况及业绩提供进一步的验证。IDCIDC 全球数据库:全球数据库:IDC 全球 IT 厂商数据库提供了全面的主流厂商历史信息,这将对分析厂商的策略提供极好的参考依据。IDC 的行业用户数据库提供了对行业趋势和发展的持续观察研究。综上所述,IDC 在此研究报告中呈现的数据代表了 IDC 基于上述数据源、厂商介绍和观察到的主要市场活动、以及对数据的进一步建模分析,从而形成对市场最为近似的估计。在本次研究中,直接数据来源大约占 70%,间接数据来源大约占 30%。注:由于使用四舍五入,本报告中的数据不完全精确。市场定义市场定义 本研究报告中的解决方案主要是指支撑业务开展的应用软件及其定制化部署实施服务,不包括硬件。具体包括如下产品形态:定制检测系统:如轧钢表面检测、车漆检测等面向具体业务场景的定制化软件 硬件的检测系统中的软件及服务部分、公有云 AI 平台。一体化装备:AOI、AVI、检测分拣一体机等以一体化成套装备销售的检测或检测执行一体化系统中的软件及服务部分、公有云 AI 平台。工业 AI 质检平台:面向工业企业提供的平台软件及相关服务,ISV 或 SI 订阅的云平台服务或购买的平台软件。相关研究相关研究 IDC Perspective:AIGC 的技术趋势与应用场景(IDC#CHC50344923,即将发布)IDC Perspective:多模态技术及应用场景趋势展望(IDC#CHC50354623,即将发布)中国计算机视觉解决方案厂商评估,2023(IDC#CHC50445423,即将发布)中国智能决策解决方案市场份额,2022:技术革新,未来可期(IDC#CHC50428423,2023 年 7 月)AI 大模型技术能力评估报告,2023(IDC#CHC49698923,2023 年 7 月)2023 IDC#CHC50428523 10 中国 RPA AI 解决方案市场份额,2022:AI 技术不断升级,推动 RPA 边界拓展(IDC#CHC50354423,2023 年 6 月)IDC PeerScape:AI 数字人最佳实践案例与探索(IDC#CHC50345023,2023 年 3 月)IDC Market Glance:中国 AI 大模型市场概览,3Q22(IDC#CHC48744322,2022 年 9月)关于关于 IDC 国际数据公司(IDC)是在信息技术、电信行业和消费科技领域,全球领先的专业的市场调查、咨询服务及会展活动提供商。IDC 在全球拥有超过 1,100 名分析师,他们针对 110 多个国家/地区的技术、IT 对标研究和采购以及行业发展机遇和趋势,提供全球化、区域性和本地化的专业意见。IDC的分析和洞察有助于 IT 专业人士、业务主管和投资界做出基于事实的技术决策,实现他们的关键业务目标。IDC 成立于 1964 年,是国际数据集团(IDG,Inc.)的全资子公司。IDC China IDC 中国(北京):中国北京市东城区北三环东路 36 号环球贸易中心 E 座 901 室 邮编:100013 86.10.5889.1666 Twitter:IDC 版权声明 本 IDC 研究文件作为 IDC 包括书面研究、分析师互动、电话说明会和会议在内的持续性资讯服务的一部分发布。欲了解更多 IDC 服务订阅与咨询服务事宜,请访问 。如欲了解 IDC 全球机构分布,请访问 IDC 服务的价格及更多信息,或者有关获取额外副本和 Web 发布权利的信息,请拨打 IDC 热线电话 800.343.4952 转 7988(或 1.508.988.7988),或发邮件至。版权所有 2023 IDC。未经许可,不得复制。保留所有权利。
-大模型在金融行业的落地探索大模型在金融行业的落地探索祝世虎CONTENTS目录目录数字化转型助力大模型数字化转型助力大模型0 05 55 5金融机构眼中的大模型技术金融机构眼中的大模型技术0 04 .
2023年第1期未来就业报告:人工智能对工作的影响目录内容提要3AI 与职场的交汇4914192429跨行业和地域的 AI 技能加速高管和员工情绪生成式 AI 开始改变我们的工作方式参与领英互动,建立 AI 信心方法和致谢内容提要我们深信,理解 AI 时代职场的演变非常重要,因此发布了这份未来职业报告:人工智能对工作的影响。这份季度报告旨在帮助职场人士和商业领袖了解最新动向。我们相信,每一位职场人士和商业领袖都能从中找到一些有意义的内容,帮助自己应对这些变革。我们将领英上超过 10 亿职场人士的实际情况,从宏观和微观层面,汇总成独一无二的劳动力市场洞察,涵盖三个主要方面:AI 与职场的交汇:不仅相关的职位发布在增加,而且全球越来越多的领英会员已将 AI 技能添加到自己的职业档案中。我们看到,自 2022 年 11 月以来,全球英文职位发布中提到新的 AI 技术(如 GPT 或 ChatGPT)的比例增长了 21 倍。2023 年 6 月,具有 AI 技能的全球会员数量是 2016 年 1 月的 9 倍。生成式人工智能(GAI)在职场的使用现状:GAI 技术(包括 ChatGPT)蓄势待发,已悄然开始改变我们的工作方式。事实上,美国有 47%的高管认为,使用生成式 AI 将提高生产力,92%的人认为人际互动能力比以往任何时候都更重要。这意味着,工作不一定会消失,但会发生变化,从事工作所需的技能也会发生变化。领英如何帮助职场人士驾驭 AI 驱动的世界:我们帮助职场人士提升技能,并提供 AI 辅助产品,支持求职者、雇主、营销和销售人员,以及思想领袖在工作中主动拥抱 AI。职场人士可在领英上与 AI 领域的知名专家互动,分享和探索来自思想领袖的智慧,找到与 AI 相关的职位,并借助领英学习平台提升技能。随着时间的推移,在未来的报告中,我们将定期持续提供洞察更新,并就改变职场未来的其他主题展开探讨。领英平台以其独到优势,将不断助力全球职场人士抓住机遇,不仅塑造这一全新时代,更从中充分受益。3联系领英获取全球化人才解决方案AI 与职场的交汇GAI 关键词25%自今年 4 月初以来,美国提及 GAI 关键词的领英会员动态发布数量,环比增加了 25%。会员档案和职位发布在领英平台上,我们看到职场对 AI 的关注度正以各种方式与日俱增,包括雇主发布的职位列表,会员在职业档案中添加的技能,以及人们之间的日常对话。虽然 AI 并不是新事物,但 2022 年 11 月推出的 ChatGPT,引发了领英会员对 AI(特别是 GAI1)的兴趣和讨论激增。47%的美国高管认为“使用生成式 AI 将提高生产力”,44%的高管计划今后一年内在其组织中增加 AI 的使用,40%的高管认为使用生成式 AI 将有助于今后一年内释放更多增长/营收机会。来源:领英 2023 年 6 月美国高管信心指数调查1.生成式 AI 关键词:GPT、ChatGPT、生成式 AI、生成式预训练转换器75 倍自今年年初以来,我们发现将“GAI”、“ChatGPT”、“Prompt Engineering”(提示工程)和“Prompt Crafting”(提示编写)等术语添加到职业档案中的全球会员数量平均每月增加 75%。6 月,会员将这些关键词添加到职业档案中的频率是 1 月的 15 倍。5涉及新 AI 技术的职位发布数量也在迅速攀升:自 2022 年 11 月以来,提到 GPT 或 ChatGPT 的全球英语职位发布的比例增加了 21 倍。职场人士和企业开始在日常工作中主动采用 AI 辅助技术(如 ChatGPT),并调整其工作流程。投入精力和资源,掌握利用 GAI 处理日常任务方法,实现省时增效、提升生产力,对雇主和员工可谓双赢。3 倍过去五年,担任“AI 主管”职位的美国领英会员数量几乎增加到了原来的 3 倍。为了应对 AI 和 GAI 给职场带来的变革,并加快 AI 工具的采用,雇主需要关注人才的技能提升和再培训,提高员工 AI 素养。谈到 AI 人才,一些在 2022 年增长最快、在全球各地被添加到领英档案中的 AI 特定技能(如自动问答和分类),都与 GAI 有关。与此相关的会员技能、雇主的职位发布、平台对话的数量上升,均表明专门 AI 职位的人才招聘竞争正在加剧。由于这些职位中有许多是全新的,而且尚无现成的学位项目能完全满足职位要求,因此为了填补这些职位空缺,需要更加以技能为先。企业需要透彻了解自身已具备的和所需要的技能,才能有的放矢地聘用具有合适技能的候选人并重点帮助现有员工开展技能提升。2022 年,领英会员档案中 5 项增长最快的 AI 相关技能,都从侧面印证了 GAI 的兴起:自动问答: 332%分类: 43%推荐系统: 40%计算机视觉: 32%自然语言处理(NLP): 19%专注于技能的公司,不再重点考虑学位、背景或先前雇主等过时信号,这样可以确保具有合适技能的合适人才,进入合适岗位,充分发挥才能。但这还不是终点。具有合适技能的员工进入了合适岗位之后,Ryan Roslansky,领英首席执行官,财富杂志,2023 年 3 月 20 日6“继续投资于他们的职业生涯发展和技能也同样重要。”我们十分重视 AI 人才,因为,携程作为 OTA 平台,需要个性化算法来提升用户体验,高效帮助用户找到合适的商品,更好地完成转化;其次,携程平台存在大量旅行攻略相关的内容,通过 AI 对该内容中的文字、图片和视频进行理解,可以精细地索引,从而提升用户对内容的消费体验;最后,从售后层面来说,我们开发的 AI 客服可以自主回答一些用户的问题,降低人工客服的时间成本,使其有精力跟进更高阶、复杂的服务诉求,更好地提升客户体验。王清携程集团 AI 研发部负责人抢占高端 AI 人才先机,积极驱动企业变革携程所在的旅游行业,正处于非常好的发展机遇中,具有良好的资金储备和足够的底气去投资未来。如今,整个社会都在积极拥抱 AI。通过大模型的运用,AI 可以帮助提升整个社会的生产效率、服务效率等。因此,企业对于高端 AI 人才的竞争异常激烈。携程当下最需要的是机器学习方向的人才,包括:搜索、广告、推荐、自然语言处理、语音识别和处理、计算机视觉等相关领域,并主要通过两种方式获取人才。校园招聘:打造核心人才中坚力量今年,携程面向全球顶尖院校的顶尖学生提出了“天宫计划”,希望能够吸引到 AI 方向的优秀学生加入企业,提升整个团队的技术实力。因为,他们将是携程未来核心人才的中坚力量。社会招聘:吸引行业头部人才加入携程努力在一些国内或国外的头部互联网公司中,吸引在岗的 AI 人才加入。8跨行业和地域的 AI 技能加速自 2016 年以来,AI 专门人才和新增 AI 技能的领英会员数量一直在加速增长。随着 ChatGPT 的推出,我们不仅看到了 AI 的广阔前景,也看到了 AI 正在如何重塑职场所需技能,同时帮助人们提高工作成效。一项关于 AI 技能如何在 25 个国家推广的分析显示,自 ChatGPT 推出以来,领英会员在职业档案中添加 AI 技能的比例几乎翻了一番,从 7.7%(2022 年 5 月至 11 月)上升到 13%(2022 年 11 月至 2023 年 6 月)。2016 年,每 1,000 名会员中仅有 3 人可被视为 AI 人才。到 2022 年,这一数字增加到千分之 17(根据 25 个国家的 AI 人才比例中位数计算)。领英新推出的“AI 技能指数”提供了一个独特的视角,有助于了解 AI 技能在不同地区和行业中的应用情况。追踪 AI 技能在全球经济中推广的速度和方向,有助于我们更敏锐地把脉职场变革的节奏和方式。201620221,000 分之 31,000 分之 17了解领英 AI 技能指数领英 AI 技能指数,显示了不同行业和国家/地区的会员在职业档案中添加 AI 技能的速度。例如,一个国家/地区在 2023 年 6 月的指数为 10,意味着其拥有至少两种 AI技能的领英会员比例,已增长至 2016 年 1 月的 10 倍。领英技能分类中的 AI 技能定义:领英技能分类中有 38,000 种技能,其中 121 种被认为是AI 技能,包括机器学习、自然语言和深度学习。2AI 人才定义:从事 AI 相关工作或至少拥有一项 AI 技能的成员。2.请参阅第 27 页的方法论了解详情。10联系领英获取全球化人才解决方案我们正在见证一个前所未有的趋势,即全球越来越多的领英会员正将 AI 技能添加到职业档案中。根据 25 个国家的 AI 技能指数数据,截至 2023 年 6 月,具有 AI 技能的会员数量是 2016 年 1 月的 8 倍。指数表明,新加坡、芬兰、爱尔兰、印度和加拿大的 AI 技能推广速度最快。我们还看到,AI 技能的采用已从技术领域扩展到一系列行业,包括零售、教育、金融服务等等。要充分实现 AI 助推生产力提升的广阔前景,取决于 AI 技能在不同地域、行业和人才群体中的推广。AI 的采用和用法优化当然需要时间,但在现今早期阶段,推广的步伐似乎正在稳步提升。由此催生的最佳全球经济成果,将是创新跨越国界,促进所有人的生产力提升。Karin Kimbrough,领英首席经济学家11联系领英获取全球化人才解决方案地理快照截至 2023 年 6 月,新加坡的推广率最高(20 倍);换言之,将 AI 技能添加到职业档案的会员比例,已提升至 2016 年 1 月的 20 倍。芬兰(16 倍)、爱尔兰(15 倍)、印度(14 倍)和加拿大(13 倍)是技能推广率最高的前五个国家。领英 AI 技能指数显示,2023 年 6 月具有 AI 技能的会员比例是 2016 年的 9 倍。33.25 个用于对比的国家的中间值各国 AI 技能指数2520151052016/1/12018/1/12020/1/12022/1/1阿根廷澳大利亚比利时 巴西加拿大丹麦 芬兰 法国 德国 希腊 印度 爱尔兰以色列意大利墨西哥荷兰 波兰 葡萄牙新加坡西班牙瑞典 瑞士 土耳其英国 美国12AI 技能指数行业快照正如预期,在美国,技术、信息与媒体行业中具有 AI 技能的领英会员比例最高(2.2%);虽然规模仍较小,但远高于其他行业,如教育(1.2%)、专业服务(0.9%)、金融服务(0.9%)和制造业(0.8%)。然而,其他行业正在迅速赶上。只需观察会员将 AI 技能添加到职业档案中的速度,即可发现,比起技术、信息和媒体行业(11 倍),金融服务(30 倍)、零售(29 倍)和批发(24 倍)行业人士新增 AI 技能的速度更快。纵观美国 10 个行业,唯独在金融服务行业中,拥有 AI 技能的领英会员比例,以及会员将 AI 技能添加到职业档案中的速度,两者均高于所有行业的平均水平。这个例子表明,技术行业以外的职场人士,不仅有潜力成为早期采用者,而且还可能成为 AI 创新的驱动者。各行业 AI 技能指数(美国)302010消费服务教育金融服务政府部门医院和医疗保健制造业专业服务零售业技术、信息和媒体批发业2016/1/12018/1/12020/1/12022/1/113AI 技能指数联系领英获取全球化人才解决方案高管和员工情绪AI 的潜力:在兴奋和未知中探索前行AI 正在开创职场新纪元,将对职位、职业生涯和行业产生深远影响。探索职场将会如何改变,可以做些什么来掌控自己的职业生涯,这些都是人们正在寻求解答的问题。职场人士和公司汇聚领英平台,热议 AI 将如何塑造未来。首席高管的观点领英高管信心指数,旨在深入研究首席高管层和资深高管对职场变迁的感受,重点关注业务前景展望、人才,以及包括 AI 在内的新技术。2023 年 6 月的结果显示,尽管宏观环境仍存在不确定性,但美国高管对整体业务持乐观态度,认为企业有能力提升利润、投资于未来增长。谈到人才,美国高管对吸引和留住员工的信心稍显不足,认为在培养人才方面还有改进的空间。关于 AI,我们的数据显示,高管大多乐观地认为AI 技术将有利于提升生产力和营收,即使目前尚不清楚 AI 将如何在长期内改变其组织。虽然还处于早期阶段,但 AI 已经加速了整个劳动力市场的显著转变,并促使职场人士和公司积极适应。公司如能主动拥抱 AI,支持员工技能提升,帮助其适应变化并从中受益,则将能最有效地吸引并留住顶尖人才。1551%的美国高管对 AI 进展感到兴奋,但还不知道47%的美国高管认同“使用 GAI 将提高生产力”。44%的美国高管表示,计划今后一年内在其组织中40%的美国高管也表示,使用 GAI 将有助于今后4%目前,只有 4%的高管由于 AI 对其员工队伍的影响,计划重新评估职位并减少员工人数。自己的组织将如何充分利用 AI工具和技能。增加 AI 的使用。一年内释放更多的增长和营收机会。职场人士观点对于任何技术变革,人们的忧惧不安都是正常的,AI 也不例外。即便如此,我们从职场人士中观察到的主要是兴奋情绪,因为 AI 工具有助于提高效率、减少工作负担。据微软 2023 年工作趋势指数年度报告称,大多数人(70%)愿意将尽可能多的工作委派给 AI,以减少自身工作量。些工具,并继续加强自身人际互动能力,与这些工具互补。”Karin Kimbrough,领英首席经济学家16不仅有约四分之三的人(76%)表示愿意使用 AI 完成日常行政事务,而且大多数人也表示愿意使用 AI 开展具有分析性(79%)乃至创造性的工作(73%)。人们也在借助 AI 找到所需的正确信息和答案(86%),总结会议内容和行动事项(80%),以及规划每日日程(77%)。来源:2023 年微软工作趋势指数年度报告“归根结底,谈论 AI 对工作的影响时,我们真正探讨的是人们如何利用这联系领英获取全球化人才解决方案领英可以通过提供更多的行业洞察和数据分析,帮助我们更好地了解市场趋势,制定战略决策。随着领英不断提升算法和 AI 技术,我们期望领英能够更精准地匹配 Zilliz 的人才需求,帮助我们更有效地招聘和发展人才。Aaron ZhangDirector of Human Resources,Zilliz充分利用 AI 技术,释放团队生产力作为全球颇受欢迎的开源向量数据库 Milvus 的创造者,Zilliz 提供面向 AI 应用的新一代数据库技术,帮助企业便捷开发 AI 应用。以 AI 民主化为使命,Zilliz 致力于简化 AI 数据管理基础设施,通过向量数据库赋能更多企业。AI 释放团队生产力,完成潜移默化的团队变革随着 AI 技术的普及,一些传统工作特别是入门基础岗位会受到比较大的影响。加之自动化工具与AI 技术的糅合,客观上提升了部门内部以及跨部门的协作和串联效率,这会对原有组织形态下依赖于人作为信息传递的现状深入变革。ChatGPT 可以用于生成代码注释,解释函数、类和代码块,提高代码的可读性和可维护性;同时,ChatGPT 可以自动生成文档,包括技术规范、API 文档和项目文档,减轻开发团队的文档编写负担。18GAI 技术为员工创造更多时间,推进工作方式的转变生成式人工智能(GAI)技术在提高效率的同时,也在推进工作方式的转变。职场中,ChatGPT可以用于快速生成文本、自动回答常见问题、协助文档写作等任务,这有助于减轻员工在日常工作中的繁琐任务,使其更专注于创造性和战略性的工作;ChatGPT 可以用于启发思维、提供新的视角,有助于推动创新和解决问题的能力。当然,新技术总伴随着挑战。在使用 GAI 技术时,企业需要考虑数据隐私、文化差异、伦理道德等实际存在一些问题,确保安全合规地使用。生成式 AI开始改变我们的工作方式GAI 重塑全球劳动力市场:生成式 AI 对员工潜在影响的比较研究虽然各类 AI 技能从总体上都在各行业和地区加速落地,但我们也看到像 ChatGPT 这样的 GAI 开始实际进入职场。随着公司和组织将 GAI 融入日常运营,这类新技术将重塑我们的日常工作。GAI 将减少人们在某些任务上花费的时间,并催生新技能,同时也将进一步突显人际互动能力的重要性。几乎每一种职位都需要用到 GAI 可以执行的技能,但并不是每一种职位都受到相同的影响。根据领英经济图谱研究院的研究,84%的美国会员所从事的工作中,可以利用 GAI 自动完成至少四分之一的重复性任务,从而提高效率。虽然 GAI 将减少职场人士用于某些技能(如写作或数据分析)上的时间,但它的影响并不局限于减少例行工作。GAI 还将推动对其他技能的需求,尤其是人际互动能力和专业技能。例如,GAI 可能会引导语言翻译人员将工作重点从逐字翻译,转向审校和认证机器生成的翻译,或者专注于特定的法律或文学内容。领英研究人员列出了 500 多项可能受 GAI 技术影响的技能,包括领英会员最常提及的一些技能:工商业:财务报告、电子邮件营销、数据分析传播和媒体:写作、编辑、文档、翻译、内容创建工程:软件开发工具、编程语言、数据科学人际互动:时间管理工具20理解 GAI作为一项快速发展的技术,GAI 有潜力执行过去只有人类才能完成的任务,如写作、创建内容和分析数据。新 GAI 工具可以减轻职场人士的工作量,并帮助专业人员(如教师)专注于工作中最重要的部分。为了更好地理解这一点,我们根据领英数据,分析了领英平台上一些最常见的职业(代表近五分之一的美国领英会员)。通过分辨哪些技能可由 GAI 来增强,哪些技能只能由人来完成,有助于预测 GAI 可能如何转变这些职位的工作方式和效率。注:由于某些技能不属于这些类别,百分比加总可能不是100%。21职业可由 GAI 增强的技能占比可由 GAI 增强的主要技能:可部分由GAI 辅助软件执行的主要技能人际互动能力和专业技能:需要由人来执行的主要技能,以及在可由 GAI 增强的基础上协同互补的技能人际互动能力和专业技能占比教师45%讲课计划、课程开发、教师培训、识字、辅导课堂管理、差异化教学、基础教育、教育技术、特殊教育53%软件工程师96%Jenkins、Docker 产品、AngularJS、TypeScript、GitJira、敏捷方法、Microsoft Azure3%护士6%患者护理、优质患者护理、患者评估高级心脏生命支持(ACLS)、护理、基本生命支持(BLS)、急症护理、重症护理90%销售人员59%自荐式电话、零售销售、外部销售、销售流程、内部销售进货、医院销售、心脏病科、内分泌科、医疗销售15%项目经理28%Scrum、提交资料、软件开发生命周期(SDLC)、敏捷方法、敏捷项目管理施工管理、项目估算、施工前、价值工程法、变更单44%客户服务代表76%电话礼仪、打字、客户支持保修、食品和饮料运营、进货、酒店服务、调度4%司机9%仓库运营、物流管理、货物运输规划卡车驾驶、专业驾驶、商业驾驶执照 A 类、商业驾驶执照、商业驾驶88%医生7%医学研究、癌症、心脏病医学教育、内科、外科、普外科、家庭医学、63%出纳员59%食品服务规划、商品销售进货、快餐、侍应、饮食经营22%儿童保育提供者20%课程规划、辅导儿童保育、儿童工作、照看儿童、儿童发展、保姆76%环境、健康、安全专家3%风险评估、根因分析、地理信息系统(GIS)环境、健康和安全(EHS)、事故调查、职业健康、工业卫生、环境合规性70%活动项目经理39%活动营销、酒店管理、餐饮策划、线上活动公司活动、活动制作、特别活动、会议策划、私人活动44%施工专家11%施工图、提交资料、Revit施工管理、施工、地面铺设、施工安全、施工前78%油田操作员1%项目调试、预防性维护计划石油和天然气钻井、钻机、油田、井控、定向钻井89%理解 GAIGAI 让人五味杂陈,不确定中夹杂着兴奋之情。GAI 释放的能力和效率,无疑将以某种方式影响我们所有人的工作。事实上,正如我们在 2023 年 6 月美国高管信心指数调查中发现的,只有 4%的高管由于 AI 对其员工队伍的影响,计划重新评估职位并减少员工人数。为了更好地理解这一点,我们研究了 GAI 可能如何影响三种职业教师、软件工程师、施工专家。教师教师的各种技能中,有 45%用于支持的一系列任务(如:讲课计划、课程开发、教师培训),可以由 GAI 帮助提高效率。教师的职责内容约有一半涉及人际互动能力,如直接与学生打交道,这不太可能被 GAI 取代。教师可从 GAI 支持中受益的领域:课堂管理、差异化教学、特殊教育。软件工程师大多数软件工程师花费大量时间使用不同的编程语言编写代码,因而这一职业 96%的技能都可以通过 GAI 得到增强,显著提高工作效率(如:编程、编码和技术能力)。人际互动能力和专业技能,是对软件工程师技术工作的补充。例如,软件工程师用于编写代码的时间减少,便可更多地关注工作中的其他方面,包括涉及敏捷方法、Microsoft Azure 和 Jira(一种用于追踪工作流程进度,并与关键利益相关者开展有效沟通的工具)的工作,而这些方面对软件工程师的职业成功至关重要。此类技能几乎占软件工程师日常使用技能的 3%。软件工程师可从 GAI 支持中受益的关键领域之一:与技术和非技术受众进行更有效的沟通。施工专家施工专家的各种技能中,只有 11%可以通过 GAI 来增强(如:与施工相关的绘图、Revit 软件)。这种职业很大程度上依靠专业技能(78%),如施工管理、地面铺设和施工安全。施工专家可以利用 GAI 的关键领域之一:提交许可证等重复性任务。22联系领英获取全球化人才解决方案人际互动能力变得比以往任何时候都更加重要。事实上,自从 ChatGPT 推出以来,美国职位发布信息中增长最快的一系列技能,都属于人际互动能力(如:灵活性和职业道德)。这证明了人际互动能力是各类工作的核心,也表明了人们之间相互合作对于工作的重要性。在美国,自 2022 年 11 月以来需求增长最快的技能是:灵活性 158%职业道德 120%社交感知力 118%自我管理 83#在美国,沟通仍是所有职位发布中要求的首要技能。92%的美国高管认为,人际互动能力比以往任何时候都更重要。来源:领英 2023 年 6 月美国高管信心指数调查参与领英互动,建立 AI 信心2.6 倍过去五年,拥有“AI 主管”职位的美国公司数量增加了 2.6 倍。借助领英 AI 产品和工具,分享知识、提升技能、发现人才对许多人来说,AI 可能仍是一个流行热词而已。但随着企业开始寻求将 GAI 整合入日常工作,在职场中与 AI 互动正迅速成为新常态,即使还处于早期阶段。AI 技能和 AI 相关职位的迅速兴起,表明越来越多的人正在利用这一机会,将自己定位在这一新兴技术的前沿。分析雇主和职场人士在领英上的互动方式,有助于挖掘宝贵洞察,了解 AI 正在如何开始影响职场从哪些 AI 技能正在增长以及在哪些行业中增长,到 AI 技能的落地速度,再到 AI 正在如何改变雇主期望。求职者、雇主、营销和销售人员,都在以各种方式分享关于 AI 的知识、提升技能,寻找顶尖 AI 人才,并利用领英的学习、招聘、销售和洞察产品的力量,解锁新的机遇和增长。我们的 AI 辅助产品推出已超过 15 年,我们不断向市场推出新产品,帮助求职者、雇主、营销和销售人员以及思想领袖主动拥抱 AI。受微软在负责任 AI 领域的领导地位的启发,并为了与之保持一致,我们分享了用于指导我们在领英工作的负责任 AI 原则。这些原则是我们的指南针,引导我们负责任地将 AI 作为一种工具,用于帮助领英会员实现其目标,并加快所有人实现经济机会。25领英如何创造经济机会:面向求职者的机会我们从领英会员那里听说,以简明扼要的方式,表述自己职业身份的精髓,是一项艰巨的任务。因此,我们正在领英上测试职业档案和消息个性化写作建议工具。对于职业档案,这一工具采用会员档案中已有的内容(如近期工作经历),通过精心撰写的标题和“个人简介”版块,帮助会员以最佳方式呈现自身技能。对于消息撰写,这一工具提供个性化的写作建议,利用求职者公开档案和职位描述(包括用人经理的身份和档案,以及关于用人公司的信息),为求职者定制一份消息草稿,以便求职者解决写作思路受阻的问题,轻松与用人经理开展对话。目前这一功能正在面向高级帐号会员进行测试,预计将在未来几个月更广泛地推出。面向招聘人员的机会我们知道,75%的招聘人员希望 GAI 能帮自己腾出时间,以便做更具战略性的工作,三分之二(67%)的招聘人员希望 GAI 能帮自己发掘新的候选人。因此,我们正在测试 AI 辅助消息和 AI 辅助职位描述功能,以帮助招聘人员更快找到合格候选人,并为招聘过程中更具战略意义的部分腾出时间,例如与候选人交谈并建立关系。当招聘人员发出个性化 InMail 时,整体接受率可提升 40%。但是,手动研究每一位候选人,并个性化撰写每一份消息,几乎是不可能大规模完成的。因此,我们正在领英企业招聘帐号中推出 AI 辅助消息,帮助招聘人员启动个性化消息,以便节省时间,提高候选人的参与度,并将更多时间用于建立有意义的联系,因为这才必须依靠人的技能。我们还知道,撰写职位描述可能是一项既耗时又痛苦的任务,尤其是当您正在努力吸引合适的候选人时。因此,我们正在测试一种新的 AI 辅助职位描述工具,将使职位描述撰写变得更快、更轻松。26面向营销人员和销售人员的机会我们的市场研究,旨在帮助销售和营销专业人员理解如何在销售过程中保持高效和战略性,以及如何让潜在买家发现自己公司的商业价值。我们在最新的调查中发现,GAI 已经与许多日常任务相关从撰写文案到发送推广邮件。除了现有的 GAI 工具之外,销售和营销人员还对使用更多自动化和 AI 工具表现出了强烈兴趣,希望利用这些工具完成任务,并充分提升工作成效。我们的数据显示,69%的销售人员预计他们对 AI 的使用将在未来六个月内增加。4我们也知道,销售和营销人员约 59%的技能将受到 GAI 的影响。为了抓住 GAI 赋能销售和营销人员的机会,我们已经研究了助力他们成功的最关键任务,并正在将相关功能嵌入领英营销管理工具和企业销售帐号产品中。这些任务范围广泛,包括构建有效的推广活动,寻找回复几率最高的最佳销售线索,以及研究可在高管级别对话中探讨的公司优先事项。借助领英营销管理工具和企业销售帐号,销售和营销人员可以更迅速地完成这些任务,腾出时间专注于销售和营销中更为关键的人性化因素:发现合适的买家,深入理解客户动机,建立关系,促成客户考虑产品并达成交易。4.领英决策者宏观经济脉搏调查,2023 年 4 月至 6 月。问题:未来 6 个月,您预计您所在的销售组织对生成式 AI 的使用会发生怎样的变化?生成式AI 是一种人工智能技术,可用于创建新内容,包括文本、音频、图像和视频。总样本数 N=1569。面向所有人的机会解锁存在于领英会员中的约 100 亿年集体经验智慧,有助于解决常见的职场问题。通过“协作文章”,也就是由 AI 辅助的对话发起工具,可将会员的洞察和观点,与领英发布的知识主题汇集在一起,解锁会员的集体知识,激发对话、学习和互动。许多工作所需的技能种类,自 2015 年以来已发生了多达 25%的惊人变化,由于 AI 等新技术的快速发展,预计到 2030 年,这一变化数字将达到至少 65%。我们理解帮助会员更新技能的重要性,因此已在领英学习中提供了 300 多门 AI 课程,并与微软合作推出了全球首张生成式 AI 专业证书由领英学习提供,免费直至 2025 年。无论您是刚刚开始职业生涯,还是经验丰富的专业人士,抑或是希望掌握最新进展的商业领袖,我们的课程都旨在帮助您学习新技能,提高工作效率,并加速职业发展。我们增加了 30 多个 GAI 课程,并将在未来一年内推出更多课程,包括:什么是生成式 AI?讲师:Pinar Seyhan Demirdag生成式 AI 提示工程入门 讲师:Ronnie Sheer对话式AI 入门 讲师:Ian Barkin面向业务领导者的生成式 AI 讲师:Tomer Cohen这一领域的众多专家正在通过领英分享关于 AI 的知识。关注这些知名AI 专家,与他们一起互动和学习:Bernard Marr、Cassie Kozyrkov、Greg Coquillo、Morgan Cheatham、Allie Miller 和 Tomasz Tunguz。敬请浏览我们最近的报道,包括更多值得关注的专家声音,了解关于 AI 的崛起对职场人的意义,以及 AI对关键行业已经带来的变革。领英的独特定位,让我们可以深入了解商业领袖和职场人士的所思所想,以及他们对于 AI 的运用方法。我们才刚刚开始理解 AI 在改变我们工作、学习以及与他人互动的方式上所具有的潜力。这是一个激动人心的变革时代,我们期待着未来发现和分享更多关于AI 对职场影响的洞察。28方法和致谢AI 技能指数1.AI 技能指数值衡量的是,与 2016 年 1 月的水平相比,职业档案中至少有 2 项 AI 技能的领英会员的比例增加了多少。例如,“3 倍”意味着具有 AI 技能的会员比例是 2016 年 1 月的 3 倍。该指标有助于我们了解会员获得 AI 技能的速度,或 AI 技能在特定国家、行业等的推广速度。2.我们对以下 25 个国家提供了全国层面的 AI 技能指数:阿根廷法国墨西哥瑞士澳大利亚德国荷兰土耳其比利时希腊波兰英国巴西印度葡萄牙美国加拿大爱尔兰新加坡丹麦以色列西班牙芬兰意大利瑞典3.为了确保数据质量以及保护领英会员的隐私,对行业层面可用的国家数据设有流动性约束。4.除非另有说明,整个分析过程中使用了 2023 年 6 月的最新数据。5.领英会员在领英档案中自我汇报自身技能。目前,领英已明确超过 38,000 种不同的标准化技能。领英的分类学家已将所有这些技能编码并分类为 249个技能组,即本数据集中的技能组。构成 AI 技能组的主要技能包括:机器学习、自然语言处理、数据结构、人工智能、计算机视觉、图像处理、深度学习、TensorFlow、Pandas(软件)和 OpenCV 等。30联系领英获取全球化人才解决方案我们追踪以下 121 个 AI 技能:3D 重建 Alexa算法分析算法开发人工智能(AI)人工神经网络关联规则音频合成 自动编码器自动聚类自动特征工程自动推理自回归模型 Caffe 分类认知计算Common Lisp计算几何计算智能 计算语言学计算机视觉概念漂移自适应条件图像生成卷积神经网络(CNN)数据结构深度学习 dSPACE进化算法专家系统面部识别特征提取特征选择模糊逻辑Gaussian 03生成对抗性模仿学习生成设计优化生成流程模型生成式建模生成式神经网络生成式优化生成式预训练生成查询网络(GQN)生成重放记忆生成合成手势识别图嵌入图网络图论超参数优化超参数调优 IBM Watson图像生成图像修复图像处理图像合成信息抽取信息检索智能代理JenaJulia(编程语言)Keras知识发现知识表示与推理关联数据Lisp机器学习元学习Microsoft Azure 机器学习模型压缩模型解释模型训练音乐生成自然语言生成自然语言处理(NLP)自然语言理解神经网络架构设计神经网络NLTK对象识别本体论 OpenCV Pandas(软件)并行算法解析模式识别Perl 自动化 概率生成模型概率编程提示工程PyTorch自动问答 RapidMiner推荐系统强化学习资源描述框架(RDF)Scikit-Learn语义技术语义网情感分析 Smalltalk语音识别统计推理风格迁移监督学习支持向量机(SVM)合成数据生成 TensorFlow文本分析文本分类文本生成文本挖掘文本到图像生成Thean时间序列预测无监督学习 变分自编码器变分自编码器(VAE)视频生成Web 挖掘 Weka WordNet3128领英职场人士信心指数的数据,来源于每两周通过电子邮件发送给会员的在线定量问卷调查。每一波调查约有 3,000 到 5,000 名美国会员响应。我们从中随机抽取样本,必须由这些会员决定是否参与研究。学生、全职家庭主妇/主夫和退休人员不在分析范围内,因此我们可以准确地反映出当前活跃在职场上的人员情况。我们对数据进行汇总分析,始终尊重会员隐私。数据按参与度水平加权,以确保能够公平地反映出平台上的各种活动水平。研究结果代表从领英会员的角度看到的世界;领英会员与市场总体人群之间的差异未考虑在内。领英高管信心指数是一项在线调查,每季度约有 5,000 名领英会员(副总裁或以上级别)参与。我们从中随机抽取样本,必须由这些会员决定是否参与研究。我们对数据进行汇总分析,始终尊重会员隐私。数据按职位级别和所属行业进行加权,以确保平台上高管的公平代表性。研究结果代表从领英会员的角度看到的世界;领英会员与市场总体人群之间的差异未考虑在内。领英决策者宏观经济脉搏调查,是在 2023 年 6 月 14 日至 6 月 30 日期间对 1,569 名销售决策者进行的一项非盲法调查。调查对象包括企业销售帐号客户和非客户。AI 主管职位:我们在会员的职位头衔中搜索关键词“AI”、“人工智能”或“机器学习”,再加上关键词“主管”,或者领英标准化职位级别“总监”、“副总裁”和“CXO”。2019 年至 2023 年的每一年,代表 7 月 1 日至次年 6 月 30 日的日期(为及时获得年中洞察)。我们以 2019 年的结果作为指数基准,以展示五年的增长。29致谢在此特别鸣谢本报告的共同作者、领英市场研究团队和数据科学家,以及更多团队的贡献。Karin Kimbrough,首席经济学家 Mar Carpanelli,高级数据科学家Sharat Raghavan,资深数据科学主管 Akash Kaura,高级数据科学家Murat Erer,数据科学家联系领英获取全球化人才解决方案
点击查看更多北京市科学技术委员会:北京市人工智能行业大模型创新应用白皮书(2023年)(70页).pdf精彩内容。
中文大模型基准测评报告,中文大模型基准测评报告,20232023 2023.11.28 ChatGPTChatGPT发布一周年,中文大模型进展评估发布一周年,中文大模型进展评估目 录目 录0101 国.
!#$!#$%&()*+,-%&()*+,-./0123./0123!#$!#$!#$%&()(*+,-弱品牌形式反白形式!#$%&()*+,-./0123/!#$%&()*+%&(,-./0!#$%.
大模型时代:智能设计的机遇与挑战大模型时代:智能设计的机遇与挑战报告2023.06.01设计范式的迁移大模型时代到来设计能力的跃升链接能力整合能力拓展能力设计实践的重塑职业技能设计品质行业机会2目录目录人工智能作为新一轮产业变革的核心驱动力,将进一步释放历次科技革命和产业变革积蓄的巨大能量。国务院,新一代人工智能发展规划设计范式的迁移设计范式的迁移大模型时代到来3设计范式的迁移设计范式的迁移 4经验观察手工技艺经典设计01注重实用性和美感注重实用性和美感以设计师自身感受为基础,发挥个体设计才华,结果受设计师的经验、审美等因素影响。在数千年经验的沉淀与工业革命的推动下,设计师开始为更广泛的消费者设计产品。设计原则理论方法设计思维02注重用户需求满足注重用户需求满足以用户需求为导向,强调以人为中心的设计,解决定义不清晰的复杂设计问题。在商业模式的发展和个体消费需求的增长趋势下,设计师从同理心出发解决设计问题。智能算法工具软件计算设计03注重个性化与批量化生成注重个性化与批量化生成以计算机为媒介,利用数字化和信息化技术提升效率,支持设计结果的重用与扩展。在摩尔定律和数据型科学范式的影响下,设计师用智能算法和工具软件解决设计问题。来源:John Maeda,Design In Tech Report 2017经验观察/手工技艺设计原则/理论方法智能算法/工具软件设计知识空间设计领域的理论和实践的总体,包括设计的规律、技法、原则、方法和工具等。人类知识空间设计范式的迁移 5人类世界的信息和智慧的总体,涵盖人类对宇宙、自然、社会与人类自身的全部认知。模型知识空间设计领域知识的子集,特指利用大模型封装的设计理论和实践经验等知识。个人知识空间个人在学习、生活、工作中所获取的知识,受个人经历等因素的影响。人类知识空间人类世界的信息和智慧的总体,涵盖人类对宇宙、自然、社会与人类自身的全部认知。设计知识空间设计领域的理论和实践的总体,包括设计的规律、技法、原则、方法和工具等。智能设计04在大模型的推动下,设计师使用模型调用设计理论和实践经验等知识,在人机协作中完成设计任务。设计范式的迁移 6设计范式的迁移 7设计范式的迁移经验观察手工技艺经典设计在数千年经验的沉淀与工业革命的推动下,设计师开始为更广泛的消费者设计产品。01设计原则理论方法设计思维在商业模式的发展和个体消费需求的增长趋势下,设计师从同理心出发解决设计问题。02智能算法工具软件计算设计在摩尔定律和数据型科学范式的影响下,设计师用智能算法和工具软件解决设计问题。03智能设计04在大模型的推动下,设计师使用模型调用设计理论和实践经验等知识,在人机协作中完成设计任务。模型知识来源:John Maeda,Design In Tech Report 2017设计能力的跃升 8设计能力的跃升设计能力的跃升链接能力/整合能力/拓展能力在21世纪,我们将见证的不仅仅是100年的发展,而更像是20,000年的进步。We wont experience 100 years of progress in the 21stcenturyit will be more like 20,000 years of progress.雷库兹韦尔:加速回报定律,2001Ray Kurzweil,The Law of Accelerating Returns,2001全人类知识空间设计知识空间链接设计师与模型知识大模型能为设计师提供更全面和准确的知识支持,帮助设计师使用理论和实践经验,加速设计流程,提高设计质量。链接设计师与非设计师大模型能将设计知识转换成图像等更形象的媒介,帮助跨职能人员之间的设计理解,促进团队的协作沟通。链接能力 9设计能力的跃升链接能力设计师需要学习大量抽象的设计知识,并不断在实践中转化为设计能力,进而运用在设计任务中。/设计师与模型知识/链接大模型将抽象的知识以文本、图像、视频等形象化方式呈现,支持设计师在设计任务中快速使用。链接能力 10来源:Codex Community;Kaedim3d设计博主 Codex Community 运用人工智能内容生成(AIGC)工具推进鞋类网页设计的创意迭代。该博主采用 ChatGPT 编写创意方案,并将该创意方案作为文字提示输入到 Midjourney 中,进而获得多样化的鞋类设计网页,快速完成创意设计。#行业实践加速创意迭代Kaedim 平台支持由图片引导的快速和高清化 3D 模型生成。该功能使设计师能够更加迅速地将创意转化为 3D 模型,从而进行实时的视觉评估与改进。这种工作流显著提升了设计的迭代速度,能帮助设计师更快地实现设计目标。加速工作流推进#解决方案/设计师与非设计师/链接由于设计师与非设计人员对设计概念、设计语言以及设计实践的理解不同,彼此间的沟通与协作非常困难。借助大模型形象化的生成能力,不同领域的抽象知识得以形象化呈现,实现设计师与非设计人员间的高效链接。链接能力 11麦肯锡的研究报告显示,协作性更强的跨职能团队将为公司带来更高的业绩提升,推动业务的可持续发展。通过积极拥抱 AIGC,原有设计团队可以充分利用智能设计工具和外部设计供应链,从单一的设计职能团队转变为综合能力更强的复合型团队,从而促进业务创新。#行业实践推动团队转型升级Dora AI 是一个无代码网站构建平台,借助 AI 生成技术,平台可以通过文本快速生成可编辑、可交互的网站,也可以方便地创建网页交互动画。这能够降低跨职能设计团队成员间的沟通成本,加快网页设计迭代和反馈的循环,提升设计师与前端开发人员间的协作效率。赋能跨职能团队协作#解决方案来源:Dora AI;McKinsey,Redesigning the design department,2022全人类知识空间设计知识空间整合跨学科设计知识大模型可以整合跨学科的设计知识,为设计师提供更全面和深入的支持,帮助他们在设计中更高效地运用跨领域知识。整合跨领域设计流程大模型能够根据设计师所提供的需求与约束,整合跨领域的设计流程,帮助设计师生成兼具创意和实用性的设计方案。整合能力 12设计能力的跃升整合能力/跨学科设计知识/整合不同学科的知识以各自独立的形式存在,难以作为统一的设计资产得到有机整合,难以被设计师灵活地使用。大模型具备了整合跨领域知识的能力,帮助设计师在各类设计任务中更高效、更全面地查询、使用跨学科知识。整合能力 13来源:Opus.ai;AndoAndo 是 Figma 中的一款插件,被誉为设计师的 AICopilot。该插件能够协助设计师整合现有的设计需求、参考图像与元素形状等设计资产,启发设计师关于界面设计的创意,支持设计师通过文本描述设计目标得到设计参考。Opus.ai 是一款通过自然语言构建 3D 可交互场景的工具。该工具可以整合创建 3D 场景所需的模型、纹理等资产,并以用户输入的文本需求为驱动,逐步完善 3D 游戏场景。在设计过程中,用户提供的设计资产越丰富,输入的文本描述越精准,最终得到的场景细节也越完善。大模型的出现为推动跨学科知识融合提供了新的机遇。例如在仿生设计中,大模型可以整合生物学、工程学与设计学的知识,得到融合了蝴蝶元素的机械式座椅。#解决方案整合跨模态设计资产#行业实践推动跨领域知识融合/跨领域设计流程/整合UI设计、产品设计、建筑设计等垂直领域的概念设计流程大相径庭。跨领域设计需要掌握不同的设计流程。在大模型时代下,跨领域设计流程逐渐整合为“想法表达-模型生成-手工微调-成品导出”的过程。整合能力 14来源:造物云;Meta AI ResearchImageBind 是由 Meta 的研究人员推出的一项技术,能够统筹多种模态的设计任务。该 技术整合了文本、图片、音频、深度图、热力图和 IMU 数据等六种不同的设计资源,以应对如“音乐 图像-视频”的跨模态设计任务。在该模型的支持下,面向不同形式任务的设计流程可实现共融共通。造物云在生成式大模型的助力下,将商品摄影、宣传视频、营销文案中的设计元素统一成了人、货、场三大类别,发布了 AIGC 3D 融合的设计辅助创作平台。该平台可以帮助品牌、电商、设计公司低成本、高质量地创作海量商品营销内容,实现从“内容即服务”到“模型即服务”的模式创新。统一跨应用设计元素#行业实践统筹跨模态设计任务#学术前沿全人类知识空间设计知识空间拓展大模型的知识界限大模型本身具备巨大的潜力,设计师可以通过特定领域的设计数据对大模型进行微调以拓展模型的知识界限。拓展设计师的能力边界大模型在设计师不擅长的领域为其提供知识支持,拓展其能力边界,在协作中帮助设计师创造更出色和复杂的设计作品。拓展能力 15设计能力的跃升拓展能力/大模型的知识界限/拓展模型的能力受限于所用的训练数据和方法,拓展模型适配于其他领域的数据标注和训练成本十分高昂。只需给予简单的提示,大模型就能迅速地理解并将已有预训练知识快速迁移到对应的领域中。拓展能力 16来源:Alibaba Design;网易严选创新设计中心网易严选的设计师利用 Midjourney 平台,以文本关键词的引导方式,将文生图模型运用到了多种下游设计任务中。网易严选在实际设计业务中的应用探索包括生成品牌调性图、商品氛围图、材质特写图、商用版权图、产品设计图以及服饰模特换装图等。天猫设计师基于 LoRA 模型,利用极少的舞台空间设计图对图像生成大模型进行微调,使其具备了设计舞台空间的能力。在拓展模型知识界限的基础上,通过输入不同需求的文本描述,设计师就能利用大模型对不同的舞台风格进行概念设计。针对特定对象的知识迁移#行业实践针对下游任务的模型适配#行业实践不同领域间存在知识壁垒,导致设计师难以利用不同领域的知识,解决不熟悉领域的设计问题。模型能够整合海量多领域的知识,拓展设计师的能力边界,支持跨领域复杂设计问题的解决。拓展能力 17/设计师的能力边界/拓展来源:Figma插件parallax;Adobe Firefly;腾讯CDC体验设计由 Denis 等人制作的 Figma 插件 parallax,能够利用 AI 技术以 3D 视角排列平面设计图中各个图层内的设计元素,让设计师轻松地得到视差动画效果,并进一步将其换为 HTML、SVG、GIF 和 WebM 等不同格式的设计产出。设计结果的多模态转换#解决方案Adobe 在多个软件中加入了 AIGC 工具,实现了在设计实践中对平面设计师的全面赋能。全新的能力包括一键内容删除和填充、一键更换场景、图像边界拓展、快速渲染 3D 白模、基于文本生成矢量花型图片等。设计实践的多维度赋能#解决方案腾讯 CDC 体验设计团队利用 ChatGPT,分析总结受众的需求关键词,并在 Stable Diffusion 等方法支持下生成运营效果图像。在大模型工具的赋能下,设计师能更高效高质地串联内容策略定制、文本描述生成、图文内容应用等设计流程。设计流程的多链路串联#行业实践我们总是高估未来两年的技术改变,但低估未来十年的技术影响。We always overestimate the change that will occur in the next twoyears but underestimate the next ten.比尔盖茨Bill Gates设计实践的重塑设计实践的重塑职业技能/设计品质/行业机会设计实践的重塑 18智能水平提升,机械劳动取代挑战:职业技能AI技术的发展,极大地提升了机器在重复性、基础性设计工作中的效率。这使得设计师与AI间传统的“工具关系”被打破,许多与底层技法相关的“机械劳动”将逐渐被机器取代。职业技能 19来源:知衣科技;Alibaba Design 西湖心辰和知衣科技联合推出了一款面向服装设计行业的 AI 大模型 Fashion Diffusion。只需用户选择款式、颜色、材质等选项,即可在10秒内生成服装在模特身上的实穿效果图。通过对服装行业专业数据的学习,Fashion Diffusion 大模型极大改变了传统的服装设计流程。ControlNet 等技术的出现,赋予了 AIGC 工具根据 N 种条件对1张图像进行细粒度受控变换的能力。以建筑外观设计为例,设计师能够利用ControlNet,通过线稿草图对建筑结构进行控制,并快速得到多种风格渲染变换后的外观效果图。这种大模型的可控生成能力极大优化了设计建模、渲染中的机械劳动过程。服装设计工作的优化建模渲染工作的取代#行业实践#学术前沿打鱼记是产品经理刘飞的漫画作品。他在不使用任何额外素材的条件下,仅利用 Midjourney 通过文字描述创作完成。Nyric 是一个独特的游戏设计平台,允许设计师通过简单的文本描述来创建和探索详细而逼真的3D 世界,提供了更高的创建和定制自由度。职业技能 20/createlost city of Atlantis人机关系升级,创作门槛降低机遇:职业技能设计师与AI的关系从“工具关系”升级为“同事关系”,伴随而来的“劝导式”的设计流程让设计师更专注于创造性内容的思考,从而在人机协作的过程中,借助大模型的计算和推理能力,创作的门槛被进一步降低。来源:SdPaint;打鱼记漫画创作;NyricSdPaint 是一款基于 Stable Diffusion 的实时绘画工具。设计师在绘画区域中每画一笔,SdPaint 就能基于预输入文本和已有的线稿内容,补全整张画作。随着设计师笔画的增加,画面的细节也将实时完善。通过与 AI 的协作,设计师最终完成整张画作的创作。人机协作的创作赋能创意实现的门槛降低#解决方案#解决方案#行业实践设计品质 21模型知识同化,设计风格受限挑战:设计品质大模型是一个“收音器”,将所学的设计知识整合到模型中供设计师使用;但受限于知识的有限性,模型无法做到无限制的创意赋能。随着海量设计师利用同一模型进行设计流程的迭代,产品的设计风格可能趋于同化。来源:MidlibraryAIGC 工具虽然做到了对视觉设计、时尚设计、室内设计等跨领域设计流程的整合,降低了设计师在多个领域间迁移的难度,但也导致了设计师对各领域传统设计技法的生疏。这会使得设计师逐渐转向 AIGC 工具的提示词工程师,进而约束设计领域的创新性、多样性和灵活性,限制设计产品的独特性,最终降低设计的品质。AIGC 工具的设计生成过程主要依赖于已知的数据,缺乏设计师天马行空的创造力和想象力。过度依赖模型所具有的能力将导致设计实践过程中的创意受到制约,使得作品缺乏新颖性与突破性的设计元素。例如,在利用 Midjourney 等 AI 绘画工具进行平面设计时,多样的艺术风格会被固化为一个个关键词,这些关键词难以突破模型训练时艺术风格数据的局限,作品的多样性进而降低。包豪斯风格超现实主义新古典主义现代主义构成主义奥菲斯主义设计技法趋同#解决方案设计创意受限设计品质 22设计风格复用,用户体验提升机遇:设计品质大模型是一个“扩音器”,扩大设计师在实践中所创造知识的影响力。通过设计风格提示词复用、用户体验关键词定制等形式,作品的“创意”将数字化为开源资产,在社区进一步的发展迭代中,推动整体设计品质的提升。来源:Civitai;KOZ设计研究所在 LoRA 等小样本微调技术的帮助下,设计师能将自己独特的风格抽象成1个或多个可复用的提示词,并通过这些提示词激发模型在特定设计任务上的生成能力。在 Civitai 等平台中,设计师们分享了大量优质的提示词与相应的 LoRA 模型。这种设计风格的“开源化”,能够给行业带来更多的创新活力,推动行业整体设计品质的提升。设计师能够基于不同特征的用户数据引导大模型做出定制化的设计决策,从而针对性地提升不同用户的产品体验。例如,Netflix 根据用户的观影行为、风格喜好等数据为不同特点的用户群体进行画像,并针对性地推送不同的电影剧照。为行业带来可复用的设计风格为大众带来定制化的用户体验#解决方案#行业实践行业机会 23技法壁垒消失,行业冲击加剧挑战:行业机会不断涌现的AIGC工具降低了设计的门槛,提供了自动化、智能化的设计能力,打破了设计行业传统的技法壁垒。这样的趋势将加剧行业内部的竞争,使得设计师需要不断提高自己的专业水平和创造力,从而保持职业竞争力。来源:Galileo AI;即时AI;PLUG AIPLUG 推出了智能包装设计服务Package Design AI。用户只需上传自己的图像素材,Package Design AI就能在一小时内自动完成不少于1000组的商品包装设计。这极大改变了包装设计的传统流程,影响了包装设计师的就业。Galileo AI 是一款基于文本生成 UI 界面的 AI 工具,可以根据用户对 App 界面元素、风格主题等的需求描述,自动生成符合要求且具有一定复杂性的页面。这改变了传统 App 页面设计的方式,极大地降低了 App 界面设计的技法门槛,影响了 UI 设计从业者。即时 AI 是即时设计推出的 AIGC 产品,通过用户的自然语言表述,最快只需 30 秒即能生成可编辑的 App 界面设计初稿,从而帮助设计师甚至非设计人员完成设计任务。UI设计的行业变革#解决方案包装设计的行业变革#行业实践行业机会 24智能物种爆发,行业机会涌现机遇:行业机会行业被冲击得越深,机会也将被创造得越多。大模型时代的智能化,将带来“智能物种”的大爆发,促使所有领域的产品迭代升级。因此,各行各业对设计的需求将随之增长,行业机会大量涌现。来源:Home Design AI;小绿裙AI设计;浙大设计在大模型的支持下,面向不同领域的产品将迎来全面进化,从而具备更加强大的学习和决策能力,能更加高效、准确、创造性地解决领域中的实际问题。未来,设计、教育、科研、编程、商业等所有行业将涌现大量设计需求,为传统工作流程带来全新的变革。Home Design AI 是一款集成了40余种风格的家装设计工具。用户能够轻松且快速地看到对已有的家装进行风格变换后的效果。对于用户的需求,模型只需文本和参考图像等简单的输入,就可以将其映射为令人满意的设计结果,使得人人都能成为自己的设计师。由 AIGC 生成的小绿裙设计作品近日在小红书走红,并迅速被商家进行打版和销售。这种由 AIGC 先出设计图,再由用户驱动推进制造的 C2M 模式正迅速重塑传统的电商规则。模型推动的设计大众化#行业实践模型赋能的智能物种爆发#解决方案#学术前沿25挑战智能设计智能设计行业冲击加剧技法壁垒消失设计风格受限模型知识同化机械劳动取代智能水平提升设计风格复用用户体验提升人机关系升级创作门槛降低链接能力整合能力拓展能力机遇智能物种爆发行业机会涌现在大模型的推动下,设计师使用模型调用设计理论和实践经验等知识,在人机协作中完成设计任务。大模型时代:智能设计的机遇与挑战报告未来10年的科技进步,将超过之前100年的总和。Well experience more technological progress in the coming decade than we did in the preceding 100 years put together.The top trends in tech麦肯锡,2021报告团队浙江大学:尤伟涛、程卓艺、陆胤瑜、陈实、孙凌云阿里巴巴:杨光、杨昌源、杨智渊浙江大学国际设计研究院阿里巴巴设计浙江大学-阿里巴巴前沿技术联合研究中心特别鸣谢中国人工智能学会-智能创意与数字艺术专委会
AIAI 视觉赋能智造白皮书视觉赋能智造白皮书工业互联网产业联盟(工业互联网产业联盟(AIIAII)20232023 年年 1111 月月声声明明本报告所载的材料和信息,包括但不限于文本、图片、数据、观点、建议,不构成法律建议,也不应替代律师意见。本报告所有材料或内容的知识产权归工业互联网产业联盟所有(注明是引自其他方的内容除外),并受法律保护。如需转载,需联系本联盟并获得授权许可。未经授权许可,任何人不得将报告的全部或部分内容以发布、转载、汇编、转让、出售等方式使用,不得将报告的全部或部分内容通过网络方式传播,不得在任何公开场合使用报告内相关描述及相关数据图表。违反上述声明者,本联盟将追究其相关法律责任。工业互联网产业联盟联系电话:010-62305887邮箱:aiicaict.ac.c前前言言当前,全球新一轮科技和产业革命蓬勃兴起,对制造业的生产方式、商业模式和产品形态带来深刻影响,以智能制造为核心的制造革命尤为突出。一方面带动众多新技术、新产品、新装备快速发展,催生出一大批新应用新模式,驱动新兴产业快速成长,另一方面,智能制造帮助传统产业实现生产制造与市场多样化需求之间的动态匹配,减少消耗、提高品质,大幅提高劳动生产率。依托智能制造推动传统产业转型升级,重塑制造业竞争新优势,已成全球普遍共识。以人工智能为代表的新一代使能技术创新和应用正进入空前密集活跃期,通过工业知识和数据科学的紧密结合,大幅提升对问题的洞察与预判能力,为设计、生产、管理、服务等环节的优化提供智能化决策支撑,不断拓展智能制造发展空间。可以说,AI 智能制造已经成为制造业乃至产业升级的主战场。白皮书以“视觉赋能,智引未来”为主线,分析了 AI 赋能智能制造的核心作用、典型模式与场景,以视觉类应用为切入点,系统梳理工业视觉的发展历程、核心技术路径与应用场景,分析产业实施的问题痛点,以深度学习技术路径中的实际案例指明 AI 视觉方案架构与落地可行的具体模式,并提出未来工业视觉及 AI 智造深入推广的建议,以期能与业内同仁共享成果,并对产业实践贡献微薄力量。牵头编写单位:中国信息通信研究院华为技术有限公司参与编写单位:百度在线网络技术(北京)有限公司中国科学院自动化研究所羚羊工业互联网股份有限公司深圳市信润富联数字科技有限公司河北工业大学中国电信研究院树根互联股份有限公司凌云光技术股份有限公司美云智数科技有限公司谷斗科技(上海)有限公司卡奥斯物联科技股份有限公司中移(上海)信息通信科技有限公司IBM(国际商业机器(中国)有限公司)腾讯科技(深圳)有限公司新华三技术有限公司中工互联(北京)科技集团有限公司工业互联网产业联盟公众号目目录录一、AI 赋能“智”造落地.1(一)新产业革命与数字化浪潮交汇,焕发智能制造新活力.1(二)AI 是智能制造的关键支撑.2(三)AI 智能制造的主要模式与场景.3二、工业视觉为智能制造打开“新世界”.8(一)工业视觉发展历程.8(二)工业视觉应用场景.13(三)典型行业应用案例.17三、AI 视觉解决方案与实施.26(一)以深度学习为核心路径的 AI 视觉解决方案部署实施需求.26(二)AI 视觉方案技术架构.30(三)AI 视觉方案部署.36(四)AI 视觉赋能产业转型升级典型案例.38四、挑战与建议.44(一)问题与挑战.44(二)推进建议.45 1 一、AI 赋能“智”造落地(一)(一)新产业革命与数字化浪潮交汇,焕发智能制造新活新产业革命与数字化浪潮交汇,焕发智能制造新活力力人工智能技术开始买入新阶段。世界科技发展处于快速进步之中,信息通信、先进制造、新材料和新能源等技术的创新加速和交叉融合爆发了新力量,人工智能是引领未来的新兴战略性技术,是驱动新一轮科技革命和产业变革的重要力量。自 1956 年诞生以来,相关理论和技术持续演进,直到近十年,得益于深度学习等算法的突破、算力的提升及数据积累,人工智能得以实现从实验室向产业实践的转变。尤其,通用人工智能是引领新一轮科技革命和产业变革的战略性技术,正以大模型为先导加速向经济社会全面渗透融合,与我国新型工业化进程历史性交汇,孕育制造业转型升级的新手段、经济高质量发展的新引擎、抢占全球竞争制高点的新机遇。智能制造加速融合创新,共性赋能技术体系逐步形成。智能制造赋能技术体系包括 OT 技术、ICT 技术和融合类技术。OT 技术聚焦智能升级,通过数字传感器技术与数字控制等传统技术在 ICT 赋能下逐渐迈向智能化;工业互联网平台等 ICT 技术正成为智能工厂建设的重要基础设施,部分工厂也已经开始探索构建 5G 网络等基建的落地应用;融合类技术重点围绕故障诊断、视觉识别等应用进行创新突破,聚焦典型制造场景的数据挖掘是当前智能制造示范工厂建设关注的重点技术领域。其中,大数据分析、视觉识别等人工智能技术已经成为智能制造赋能技术体系中 2 探索最活跃、最核心的领域。据中国信通院对近年智能制造示范工厂案例统计表明,AI 技术应用占比近 15%,成为赋能技术体系中最关键的技术族之一。(二)(二)AIAI 是智能制造的关键支撑是智能制造的关键支撑AI 与制造业加速融合,引发多方面变革。一是变革技术产品研发方式。人工智能有效利用产品研发过程中的历史数据,迅速开发出性能强悍的产品,还通过对各类物理、化学特性与生产指标的对应关系进行建模,优化加工流程与参数,实现工艺创新。二是提升企业生产全环节质量与效率。人工智能基于“数据 知识”跨越传统工艺机理依赖实现创新优化,通过智能分析确保生产核心要素处于最优状态,打通企业上下游数据,实现全流程的资源协同与系统性提升。三是加速变革企业资源组织模式。通过各类制造要素的全面数字化和联网化,实现产能、设计、技术、金融、物流及配套服务等资源的网络化集聚和基于 AI 的动态优化配置。四是构建新型服务与商业模式。通过对设备或产品运行数据开展智能分析,向用户提供增值服务,同时创造大量新需求和新盈利模式,带动产业智能化升级。此外,大模型成为深度学习、知识图谱、NLP 等技术融合底座,整合工业多模态数据,全面提升感知与决策能力。“AI 智能制造”推动产业创新升级。装备领域通过叠加人工智能技术,实现加工误差补偿、自动化编程等应用创新,并利用 AI 预测生产过程状态,自动调整装备参数,提高生产制造装备实施运行优化能力,实现产品形态变革与价值创新;自动化与工业控制系统聚焦边缘侧开展数据复杂分析,实现融合 AI 技术的工业边缘平台,能够提供对设备性能、运行时间的实时分析及异常操作排查等功能,不断拓展边缘系统/平台智 3 能化能力,实现过程监测优化与运维分析;平台与工业软件基于 AI 技术不断深化创成式设计、生产管控、流程智能自动化等细分领域的智能化水平,并逐步提升解决小数据、实时性等痛点问题的能力。未来随着大模型的逐步融入,与新型控制、网络、边缘计算等技术融合创新,有望推动制造业支撑产业体系逐步走向灵活开放、智能协同的新模式。(三)(三)AI 智能制造的主要模式与场景智能制造的主要模式与场景AI 概念诞生至今已有 60 余年历史,从最初的专家系统到当前主流的深度学习、大模型等技术,AI 智造的应用场景种类不断增多、覆盖范围不断扩大、智能化特征不断增强。目前,AI 已经在制造业研发、生产、管理、服务等全环节全领域均形成了典型应用场景,总体来看主要形成感知识别、建模优化和推理决策三类应用模式以及九大核心场景,近百个细分场景的应用体系。图 1-2:AI 智能制造主要应用模式与场景 4 1.感知识别应用:当前推进热点与焦点感知识别应用以 AI 视觉算法技术、语音识别等为核心,尤其 AI 视觉是当前应用成熟度最高、范围最广的模式,主要聚焦生产管理环节形成典型应用。一是以产品质量为核心的生产结果检测。主要面向在制品质量管理环节,包括表面缺陷检测、组装防错检查、零件错漏检测等细分场景。二是以生产作业为核心的生产过程监测。主要面向车间内部产线环节,包括零件抓取/分拣、生产组装、视觉焊接/装配、表计数据读取、产线运行情况检测等细分场景。三是以安全为核心的资源状态监测。主要面向人员、车间环境、厂区和设备等对象,实现安全生产与管理,包括员工安全帽识别、园区越界/闯入识别、车间明火/烟雾等安全情况识别、设备运行情况监测等细分场景。图 1-3:AI 智能制造视觉核心应用场景视觉应用能够成为工业领域的应用热点与焦点主要有几方面原因:一是视觉类应用的成效较为直观显著,投入产出率和投资回报周期相对清晰,具有较高的“性价比”;二是视觉类应用实施相对独立,由于原始视觉数据大,不便直接接入工厂管理系统,必须在视觉采集端完成实 5 时处理,只有表征最终结果的少量特征信息才有必要接入工厂管理系统;三是图像相关技术及行业通用性强,有专用的模型(如 CNN)。四是工业图像、视频等数据获得性相对较强,具备 AI 赋能的基础条件。据中国信通院统计,在所有工业 AI 应用场景中,视觉类应用规模占比近半,成为当前应用最为广泛成熟的模式。2.建模优化应用:场景最多,覆盖最广建模优化应用的技术核心是以数据驱动的建模优化,已覆盖工业全环节实现典型应用。一是智能驱动的研发创新。通过 AI 数据分析,全面变革传统依赖人工经验和重复试验的研发模式,加速创新周期、减少创新成本,甚至能够在此基础上建立超越传统认知边界的创新能力。二是生产管理重点环节的分析优化。通过全面感知和智能分析,进一步对现有工艺、物料、质量、能耗、安全等进行智能优化,是当前 AI 智能制造领域集中度最高的场景。三是设备产品的控制与运维。面向各类现场装备和产品,基于 AI 提升实现装备产品的智能分析、预测与优化功能,提供智能化运维服务。四是基于数据驱动的服务与商业模式变革。通过大数据分析,能够向用户提供个性化多元化增值服务模式,甚至实现现有商业模式的变革创新,全面拓展价值空间。6 图 1-4:AI 智能制造数据建模分析核心应用场景此类应用模式占据了大半 AI 智能制造的场景,且几乎覆盖了工业全环节全领域。随着工业数据规模不断增长,为数据建模寻优类应用提供了很好的基础条件;此外,深度学习、迁移学习等各类算法技术持续创新,数据挖掘分析能力也在不断提升,数据寻优类模式将发挥更大赋能作用。3.推理决策应用:起步最早,潜力最大推理决策应用以知识工程为核心技术,知识累积门槛和场景价值化成为应用推进的关键条件,已从形成两类典型推进路径。一是基于规则的诊断推理。通过“规则一切可以规则化的经验”,把领域专家、工人 7 的行业经验或者已有决策流程固化下来,是人工智能在工业应用最早的技术,通常解决设备、生产等车间内部简单的控制决策类问题。二是基于知识图谱的决策与检索。通过全面梳理汇总与任务相关的工业知识、常识、各类对象关系等,形成工业级知识图谱,目前已在工业设计、故障诊断与溯源领域、供应链管理等复杂管理决策类场景有部分应用。图 1-5:AI 智能制造经验知识决策核心应用场景虽然当前经验知识推理决策类应用匮乏,尤其工业知识图谱的构建成本高、应用场景尚不清晰,目前此类模式应用占比不足 10%。但随着工业机理知识的累积沉淀与认知推理相关理论的突破,知识图谱等技术与深度学习技术不断走向融合,未来必将成为工业真正实现智能化的有力工具。人工智能赋能智能制造的潜力和空间巨大,视觉领域 AI 智能制造增速较快,已处于爆发拐点。据埃森哲统计,到 2035 年,人工智能技术的应用将使制造业总增长值(GVA)增长近 4 万亿美元,年度增长率达到4.4%。此外,智能制造企业对 AI 表现出较高的认可度和关注度,根据 8 Capgemini 对 806 家企业的调研结果显示,全球超 60%的智能制造企业认为 AI、5G 等新技术将成为数字化转型的关键支撑因素,66%的企业意识到机器学习、高级数据分析等 AI 技术能够起到关键作用;IDC 和微软对亚太地区主要制造业进行调查后发现,76%的制造业企业领导者认为 AI将在未来三年内帮助企业提升竞争力。工业视觉作为 AI 智能制造的热点和焦点,其覆盖领域广泛,主要集中在 3C 电子、锂电池、纺织轻工业、汽车、半导体等行业,需求增速不断上涨;同时,工业视觉产业持续创新发展,预计近五年复合增速为 25%,国产化替代率均值已达 50%。基于此,白皮书将聚焦制造业的感知识别应用中的 AI 视觉做重点分析。二、工业视觉为智能制造打开“新视界”(一)(一)工业视觉发展历程工业视觉发展历程1.概述工业视觉(或机器视觉)是利用具有空间位置分辨能力的“光信号”进行的非接触测量与判断,并产生控制动作的系统。工业视觉概念始于20 世纪 50 年代,是人工智能正在快速发展的一个分支,涉及计算机科学、机械、图像处理、模式识别等诸多领域的综合技术,被誉为“工业之眼”。根据美国制造工程师协会(SME)机器视觉分会以及美国机器人工业协会(RIA)自动化视觉分会的定义,工业视觉是通过光学的装置和非接触的传感器,自动地接收和处理一个真实物体的图像,以获得所需信息或用于控制机器人运动的装置。一个典型的工业视觉应用系统通常 9 包括图像捕捉、光源系统、图像数字化模块、数字图像处理模块、智能判断决策模块和机械控制执行模块。工业视觉具有极大的发展潜力。在智能制造的浪潮下,生产线对工业设备提出了新要求,“智能工厂”已经成为一个愈加流行的术语。智能工厂对生产自动化、工作效率、安全生产、产品质量等均提出了更高的要求,而工业视觉作为智能工厂的“眼睛”,不仅能够模仿人类视觉能力,还能对所“见”物体展开精准测量与定位等高级操作,实现对质检、安防等工业核心环节的检测能力综合提升,最大限度降低人工成本,已广泛应用于产品质量检测、生产安全防护、零部件分拣、人机协作等关键工业场景,为智能工厂打开“新视域”。据中国信通院对 2021 年智能制造试点示范工厂典型应用场景统计表明,生产作业与质量管控成为占比最高的两个应用场景,占比超 35%。其中,在近 50 个细分应用领域中,基于工业视觉的智能在线检测位居榜首,占比近 8%。同时,工业视觉的市场规模也逐步扩大,据中国机器视觉产业联盟统计预测,到2026 年我国市场规模将突破 543 亿,正逐步成为世界工业视觉发展最活跃的地区之一。2.技术路径:由数字视觉到 AI 视觉随着工业数据规模提升、人工智能算法突破,工业视觉技术不断向更复杂的工业场景实现应用创新。同时,以深度学习为核心的前沿算法技术加速与机器视觉融合,推动工业视觉由数字视觉向 AI 视觉不断演进,当前共形成四个相对清晰的技术路径。一是基于传统模式识别的数字图像处理技术路径。该技术路径主要依赖数学理论与人工经验,通常包含图像特征提取和模板匹配等环节。10 图像特征提取通过基于颜色、纹理、形状等特征的识别得到图像的“特征信息”表示或描述,特征提取的精度对后续特征点匹配精度、模板匹配精度等方面均有影响;模板匹配是对某一特定对象物体的图案或轮廓位于图像的位置进行判断,通过与参考模板进行对比进而识别对象物体。基于模式识别的机器视觉技术可以完成 95%以上的产品表面缺陷检测和量测任务,算法简单可快速应用。但该方法同时具有一定的局限性,无法实现自动提取特征,且只适用于轮廓清晰、缺陷单一的产品,并不适用于背景复杂的产品。该技术适用于工业大批量生产的场景,这些场景中背景相对固定且简单,需要快速完成检测任务。二是基于传统机器学习的路径。机器学习能从一些样本数据中得出不能通过原理分析总结出的规律。通常采用支持向量机、决策树、浅层神经网络等分类能力较强的算法,常应用于印刷品、食品等缺陷检测场景。基于传统机器学习的方法首先需要人工分析图像特征,再通过图像算法对特性进行提取,最后通过机器学习中的分类器基于图像的数字化特征对其进行标签分类。在该过程中,只需少量典型类别的图像与各个类别间的临界图像即可完成分类任务,但人工特征分析仍在该过程中占主导地位。该技术路径在只有“好品”与“缺陷品”的二分类任务中表现良好,对于多类型缺陷的判断并不能发挥其性能。此外,该路径是基于人工分析所得到的显性特征进行缺陷类型判断的,需要专家知识作为支撑,且所考察的特征不够抽象深入,因此自适应性和泛化性较弱。但其鲁棒性较好、部署速度较快,适合于较为简单场景下的检测任务。11 三是基于深度学习的路径(AI 视觉)。深度学习是机器学习的重要技术分支,可以形成更抽象的高级属性类别或特征,通过采集大量图片后进行标注,再把图片放入网络训练并调节参数和网络结构,再次训练后得到最好的分析结果。基于深度学习的检测方法因具有检测效率高、学习能力强、自动化程度高等特点,广泛应用于生产过程中人员安全、多种产品缺陷检测等场景,因其能够很好的解决复杂特征刻画问题,使手工特征的研究大大减少。典型的深度学习网络有:卷积神经网络,可以从输入的数据中学习到抽象的本质的特征信息,对高维数据有较强学习能力,但计算复杂度随网络层数增加而急剧增加;深度置信网络,有较强的扩展性,适合对图像进行多分类、识别处理,但较为依赖专家经验;全卷积网络,可以接收任意尺寸的图像且可对其进行像素级分割,在此基础上获得高层语义先验知识矩阵,但对图像的细节信息不敏感且收敛较慢;Transformer结构,在训练效率、图像分类、分割等任务中取得优异效果,正在成为学习序列数据(包括文本、图像和时间序列数据)的通用框架。深度学习方法适用于复杂缺陷检测、更智能的图像识别场景,但除了需要结合专家知识选择更适合的算法模型与调整网络参数外,还需要大量训练数据才能更好地发挥其优势。四是前沿机器学习技术路径。基于图像处理、机器学习算法往往能够解决相对简单或具有较大数据量的视觉问题,而面对数据样本不足甚至缺乏、未知缺陷等各类复杂情况时,应用小样本学习、零样本学习、元学习、SAM 分割等新型机器学习技术能够在一定程度上解决稀疏样本条件下对零星缺陷、故障等识别问题。12 除了上述在指定任务空间内的样本稀缺问题解决方法外,许多学者将跨任务的迁移学习应用到机器视觉的深度学习训练中,进一步提升了检测系统的性能,使得面对同时缺乏数据和机理的情况时,也能较好地解决其冷启动问题。3.发展趋势一是强化小目标检测精度。在工业生产现场,基于视觉感知进行缺陷检测、人员识别、安全帽检测等应用场景,常面临因距离远、背景大、遮挡多等因素导致的微小目标挑战。通过在深度学习基础上叠加数据增强、多尺度学习等技术策略,能够提升工业视觉模型对小目标检测的精度。未来,工业复杂环境将对小目标检测精度提出更高的要求,不断驱动解决小目标问题的技术创新。二是提升对未知长尾目标的识别能力。基于工业视觉技术进行识别、检测、引导和测量等应用时,随着产线迁移、产品工艺升级等变化,往往会产生与预期检测目标不符的对象,如新缺陷识别、未知物件抓取等。通过零样本学习、无监督/半监督学习等方法,能够实现对未知目标的检测。当前,生成式 AI 以文生图,以图生图的 Diffusion 扩散模型,ControlNet 技术使得零样本学习、小样本学习问题变得容易,通过大量生成用户自定义的仿真图片,在项目开发的前期,可以快速评估项目最终能达到的效果,减少试错成本,提高整体投入产出比。针对工业制造少存图、高良率、新缺陷漏检等生成无穷多缺陷数据,可以快速(降低60%)部署实施。三是技术融合提升检测准确率。随着深度学习赋能工业视觉应用的程度与范围逐步拓展,与跨领域技术的融合脚步也在不断加快。针对行 13 业与工业场景差异化,通过叠加传统图像处理算法、传统机器学习算法等技术组合,能够提升目标检测的准确度。例如在 PCB 缺陷检测场景,通过“CNN 图像处理”的技术组合模式能够去除噪声干扰突出特征信息,检测准确率高达 95%。此外,随着 ChatGPT 的爆火,人工智能大模型成为技术热点,能以标准化模型手段应对分散的工业场景,提高模型泛化性和模型精度,当前在工业视觉领域开展了初步探索。(二)(二)工业视觉应用场景工业视觉应用场景通过对应用场景的复杂度高低和可获得有效样本量的大小进行分类,得到工业视觉技术的应用场景分布图,如图 2-1。图中,纵轴是场景复杂性,与具体任务的复杂性和其中涉及的工业机理复杂性直接相关;横轴是样本量,与企业实际生产过程中能获得的场景有效样本数量相关。据此,将以产品质量为核心的生产结果检测、以生产作业为核心的生产过程监测和以安全为核心的资源状态监测三大典型应用模式的主要细分场景进行映射,得到工业视觉技术与应用的总体视图:图 2-1:工业视觉应用场景 14 1.图像处理技术路径与场景常用于简单背景下的有无判断场景,该场景下的检测对象较为明确,可匹配的特征明显,对数据量没有特殊要求,适合发挥该技术效率高、准确率高的优势。以质量为核心的生产结果检测模式主要包含计数/遗漏检测、快速质量检测、有无检测等场景。计数/遗漏检测主要适用于背景固定的场景,如在某工作台上对完成的零件计数;快速质量检测主要是用于产物结果明确且缺陷明显的场景,如快速判断边缘光滑的产物是否有不规则毛刺;有无检测主要是用于明显缺漏的检测,如是否有零件少焊接的情况。以安全为核心的资源状态监测模式主要包含泄露检测等场景。泄露检测主要用于有明显光谱特征(物质成分)、形态特征变化、或者环境特征(温度、光照通透度)变化的场景,如有色的毒性气体外泄监测等,或是监测安置有害物质的容器外观是否产生明显破损。以作业为核心的生产过程监测模式主要包含视觉定位、尺寸测量等场景。视觉定位主要用于检测对象相比于背景较为明显的场景,如机床基板上零件位置的确定,或是工件的投放点定位;尺寸测量主要用于背景相对单一的场景,如基座上的零件长度测量。2.传统机器学习技术路径及场景常用于情况较明确的二分类场景,该场景下检测对象的特征较为显性,对象可能处于的状态较为明确,对数据量要求不高,适合发挥该技术成本低、节约人力的优势。以质量为核心的生产结果检测模式主要包含外观质量检测、组装防 15 错检查等场景。外观质量检测主要适用于多特征联合判定的场景,如从容器形变、内容物颜色偏差等多角度共同判定装罐质量水平;组装防错检查主要是用于较为复杂的产品局部零件组装质量检测。以安全为核心的资源状态监测模式主要包含泄露检测等场景。泄露检测主要用于借助其他设备的关联反映来判断的场景,如无色无味但有腐蚀性的气体泄漏,可采用气体的光谱特征或通过周边环境的变化来联合判断。以作业为核心的生产过程监测模式主要包含监控仪表读取、视觉定位等场景。监控仪表读取主要用于预警判断,如单一仪表示数过高或有该趋势,或者多仪表有较小同向偏差,能提前预警;视觉定位主要用于较为复杂的背景,如 PCB 板上的焊接点定位。3.深度学习技术路径及场景常用于多检测对象的复杂判断场景,该场景的复杂性较高,可参考的数据量较大,检测对象的特征高度抽象且较为隐性,对象质量标准界限较模糊,以人工判断为主的场景,适合发挥该技术适应性高、识别力强的优势。以质量为核心的生产结果检测模式主要包含复杂缺陷检测和 3D 缺陷检测场景。复杂缺陷检测主要用于组成零件多、缺陷复杂的场景,如高度集成的电子器件缺陷检测,或者样式复杂的纺织品花纹缺陷检测。3D视觉检测主要借助 3D 成像系统,利用三维信息更加稳定地完成检测。以安全为核心的资源状态监测模式主要包含车间安全监测、人员行为安全监测、设备巡检、厂房安全监控等场景。车间安全监测主要用于车间环境危险监测,如零星火灾、绝缘层脱落导致的电线裸露等;人员 16 行为安全监测用于判断人员的行为是否符合安全规范、人员所在区域是否符合级别规定等;设备巡检用于判断设备运作状态是否正常,也可用于预测设备寿命和故障预测。厂房安全监控用于判断是否有非授权人员在厂房内实施破坏窃取等行为,也可用于对厂房整体的作业环境安全进行监控判断。以作业为核心的生产过程监测模式主要包含零件姿态识别、物品智能分拣、焊缝跟踪、AGV 视觉导航等场景。零件姿态识别主要用于组装、加工、抓取前的零件姿态确定,以计算出更好的路径或抓取点;物品智能分拣主要用于传送带上的多种物品快速分拣,在重量、电磁属性类似但颜色或外观有差异的物品上尤为适用;生产进度跟踪主要用于复杂工艺中的加工进度检测,或者较长工艺生产线上的总进度确认;AGV 视觉导航主要用于配合激光、导轨类 AGV 的终点操作辅助,或是纯视觉导航的高机动性 AGV 场景。4.前沿机器学习技术路径与场景常用于少见缺陷、故障检测场景,该场景下检测对象的特征不明确,缺陷或故障次数相较于总体样本而言非常少,适合发挥该技术样本需求量少的优势。以质量为核心的生产结果检测模式主要包含新型缺陷检测、小样本缺陷检测等场景。新型缺陷检测主要用于新兴产业中前沿产品的外观缺陷检测,可借助传统产品或局部相关产品的经验进行预测;小样本缺陷检测主要用于不同生产商或不同批次的同类产品外观缺陷检测,虽然缺陷本身较为常见,但具体至生产商或批次后样本量较小,导致缺陷特征及其关联关系不明显,从而影响检测效果。17 以安全为核心的资源状态监测模式主要包含零星故障监测等场景。零星故障监测主要用于新建厂房、车间的故障监测,或是安全系数较高场所的极少数故障监测,或是未知故障监测。以作业为核心的生产过程监测模式主要包含柔性工艺处理等场景。柔性工艺处理指的是面向用户个性化需求的柔性组合产线,大部分的组合都是未曾出现或较少实施过的,需要将前沿机器学习应用到机器视觉中,根据所采集动态图像实时调整处理。不同技术路径都有差异化的适用场景与优势。随着人工智能技术的不断发展以及工业视觉应用领域的广泛化,对检测问题多样化、检测准确度和泛化能力都提出了更高的要求。深度学习技术能够对数据提取更加深层次的属性类别与特征,已经成为了工业视觉研究领域的重点与市场需求的热点。(三三)典型行业应用案例典型行业应用案例1.消费电子图 2-2:AI 视觉赋能消费电子行业应用 18 消费电子制造产业是我国的支柱性产业,是推动我国产业结构转型和优化升级的核心基础产业。以智能手机为代表的消费类电子产品具有生命周期短、更新换代快的特点,导致产线设备更新频繁,对其上游的机器视觉行业产生巨大需求。同时,消费电子元器件尺寸较小,产品不断精密化,对生产作业精度、产品质量管控能力等方面的要求逐步提升,利用工业视觉技术进行检测可以实现降本增效的作用。但当前消费电子制造企业长期面临着产品质量提升困难、市场响应不够敏捷等痛点,亟需机器视觉技术深入赋能消费电子行业应用。同时,消费电子产品不断走向高端化、精细化,将持续激发机器视觉技术实现创新突破。随着新一代信息技术和消费电子元器件制造行业深度融合,正推动该行业发生着深刻的变革,为行业打破当前发展困局提供了有效路径和可行方法。聚焦 AI 视觉领域,一方面,工业视觉赋能电子产品质量检验。面向 PCBA、封装、面板等主要电子元器件,围绕原材料复检、制程质量管控、外观等生产关键环节,实现 PCB 印刷电路检测、板元件位置和LOGO 印刷缺陷检测等应用,有效提升检测精度和检测效率,提高产品良品率和直通率,大幅度降低人力成本。另一方面,工业视觉辅助制程过程精准作业。面向 PCB 制造、SMT 贴片和 SMD 贴装等过程,应用工业视觉进行精确元件识别与定位放置、设备引导与校准等,实现 SMT 原件识别与放置、SMD 贴装定位和 LCD 玻璃定位等应用,提高作业效率与操作精度,进而提高生产效率和降低废品率。电子组装质量检测宝德计算机系统股份有限公司在进行电子产品组装过程中,常面临操作不规范、隐患多,工序过程防呆困难,人工质检效率低,19 用工成本高,质量检验数据未数字化管控等问题。通过采用华为 AI质检解决方案,通过对质检工位回传图像进行 AI 分析,并将这些数据在深度学习框架中予以训练,从而获得通用化特征参数与模型,实现敏捷、高性能的通用化缺陷检测能力。该解决方案能够完成器件安装、标签、划痕等多种质检工作,覆盖 PCB 主板放置、安装等多道工序,实现产品组装和包装制程质量检测的智能化与可追溯,检验准确率提高至 99% ,全面提升产品质量的同时也提高了生产效率。2.家电图 2-3:AI 视觉赋能家电行业应用我国是家电制造大国和出口大国,家电业生产规模居世界首位,自主创新能力已进入全球前列。随着国内消费市场升级,用户对家电产品质量要求越来越高。在家电生产制造过程中,各零部件的生产、组装、出厂等核心生产流程环环相扣,一旦其中某环节出现失误,将极大程度 20 影响产品整个制造过程。同时,在大型家电原件组装过程中,由于工件种类多、尺寸各异、检测环境不一等因素,对产品检测精度要求极高。此外,家电产品生产工艺参数和技术要求等因素间的不协同常导致产品缺陷具有类别多样、形态各异、背景复杂等特点,进一步加剧了检测难度。因此,质量问题已成为影响家电企业竞争力的主要问题之一,家电企业亟需利用 AI 工业视觉技术提高产品质量管控能力。随着 AI 工业视觉在产品质量检测的可靠性、鲁棒性和精度不断提升,为家电生产制造过程优化提供了有效手段,将 AI 工业视觉应用与家电产品质量检验是当前人工智能和家电行业融合应用的主要路径之一。一方面,将工业视觉应用于家电组装质量检测和产品外观缺陷检测。面向主流家电产品组装过程,对主要零部件的错装和漏装等装配缺陷进行在线监测,能够高效实现装配防错,提高装配质量;同时面向产品外观磕碰、划伤、破损等缺陷,印刷品印刷质量缺陷,LOGO 印刷缺陷等表面缺陷实现高效监测。另一方面,将工业视觉应用于定位、焊接、插装、紧固和抓取等生产过程,具体应用包括印刷品在线打印贴敷、门体高精度智能装配、零部件插装和智能防差错、智能打螺丝紧锢、智能高频焊接及焊点检漏、3D 抓取等环节,能够极大提升作业效率,同时提升生产线柔性化程度,满足个性化定制生产的需要。家电产品实现从质检到“智检”由于家电产品生产流程繁杂,在产品质量检测过程中常面临漏检、虚检、溯源难等痛点。海尔中德滚筒互联工厂充分将5G 技术与工业视觉技术互相配合,能够对产品进行 360全方位检测,实现对存在缺陷的产品进行及时处理。同时,还将 21 AI、AR 技术等进行结合,通过人机交互的方式实现在线指导、AI 智能判断等多种应用,不仅可以对产品进行多方面的质量检测,还能够将检测数据实时集成在云端,实现对产品质量问题的归因溯源。海尔顺德波轮洗衣机工厂打造的 AI 质检系统提升了产品安装过程的品质管理能力,对于滚筒吊杆、防撞棉、桶底螺钉等检测目标实现了 AI 视觉算法检测,准确率在 99%以上。3.新能源图 2-4:AI 视觉赋能新能源行业应用在“碳达峰”、“碳中和”的大背景下,传统能源行业转型升级,以锂电池、光伏太阳能产品为代表的新能源行业快速发展,不仅产能急速扩张,多产线良率的要求也越来越高。传统依赖人工对生产状态及新能源产品进行检测的准确度有待提升,劳动效率低,用人成本高。同时,新能源产品下游应用事关安全。当前,锂电池产业对缺陷率追求从 ppm(百万分之一)级别向 ppb(十亿分之一)提升,这对机器视觉的硬件 22 设备与软件模型均提出了极高的要求。因此,工业视觉在新能源领域的应用赋能将持续升温,从现有应用环节不断向更多领域拓展。工业视觉在光伏产业领域对提高组件生产过程中的质量控制至关重要。电致发光(EL)和外观(VI)检测是光伏组件电气性能和结构安全性能比较重要的检测形式,利用红外相机和可见光相机分别对组件的内部和外部缺陷进行检测。目前 99%靠人工肉眼检测图像,效果差、效率低,完全无法应对光伏工业 4.0 数字化和自动化的要求。传统机器视觉算法无法完成组件检测,而基于深度学习的 AI 检测恰逢其时,可实现机器换人和不断优化。光伏太阳能产品自动化检测为加速光伏行业奔向工业 4.0,实现行业传统设备的颠覆性升级,上海某工业 AI 公司聚焦光伏组件质检场景,基于昇腾AI 检测系统,为企业在智能化过程中引入 AI 技术与生产制造软件、自动化生产设备结合的方案,针对电致发光(EL,Electroluminescent)和可见光外观两大场景,可自动检测几十种缺陷,包括死片、混档、拼接、破片、炸点、隐裂、虚焊、断栅、划痕、异物、焊接不良、间距不良等。在江苏省苏州市和无锡市光伏组件工厂的应用实践中,该方案帮助光伏制造企业实现了电池串 AI 全自动检测和层前、终检的 AI 辅助检测,实现误报率低于 3%,并将质检人员的工作强度降低了 80%以上。在提升制造品质的前提下,产线的生产节拍还提升了10%。23 4.4.半导体图 2-5:AI 视觉赋能半导体行业应用中国作为制造业大国,对半导体产品的需求非常大。当前,国产的计算机、手机、汽车等产品品牌不断崛起,国货日益强大,这类电子产品、科技产品对半导体的需求非常旺盛,我国半导体产业具有广阔的发展空间。然而,由于半导体器件制造具有高集成度、高精细度、高技术密度等特点,方寸大小的芯片上密布着上千万条电路,因此半导体器件制造对于检测精度的要求极高,在这种背景下,人工检测能发挥的力量极其有限,整个产业链几乎完全要依赖机器视觉。从产业技术需求来看,半导体行业的诸如锡膏印刷机、贴片机、AOI 检测这类的设备都需要使用高性能机器视觉组件。从产业发展需求来看,工业大规模集成电路日益普及,行业内对产量的要求和质量的苛求更是日益剧增。因而,在不过多增加甚至减少成本的前提下,工业视觉技术扮演起了不可或缺的角色。24 算法 数据正向半导体器件制造的高价值场景加速渗透,采用 AI 模型来解决半导体器件制造中的难点已成为工业智能的应用方向。围绕半导体器件生产的前道、中道和后道工序,面向外观缺陷检测、关键参数测量、制造缺陷检测等内容,积极探索应用 AI 视觉检测提高检测效率和质量,提升芯片良率。一方面,应用于前、中道制造过程中晶圆处理与针测环节的表面缺陷检测,如晶圆表面冗余物、晶体缺陷和机械损伤等缺陷检测;另一方面,应用于后道领域芯片封测环节的缺陷检测与质量控制,如空洞、虚焊、夹渣等芯片内部封装缺陷,以及脏污、露铜、字符缺损等成品外观缺陷。色选机外观缺陷检测针对美亚光电公司在色选外观缺陷人工检测过程中面临的工作量大、问题多样、鉴别经验要求高、检测记录难以回溯等业务挑战,羚羊工业互联网以深度学习算法为主、传统机器视觉为辅的混合型方案,融合检测与定位、分类与识别算法,打造了一体化的 AI 机器视觉色选机外观检测方案,对划痕、磨损,磕碰、掉漆等缺陷进行全流程自动化检测识别和归档追溯,算法精度达99%以上,准确高效地实现了全产品的外观快速检测和分类,质检效率提升 80%,基于数据推动关键质量改进的综合效率提升 30%。25 5.汽车图 2-6:AI 视觉赋能汽车行业应用汽车行业是支撑国家经济发展的支柱行业,中国汽车行业的总产值约占全国 GDP 总量的 10%,是当之无愧的工业之王,尤其是汽车工业的“产业链牵引效应”直接带动着能源、钢铁、装备、自动化、人工智能等上下游行业的发展。汽车行业是工业视觉应用的主力行业,整车厂的喷漆,涂胶,焊接,总装等工艺过程中涉及到大量的自动化引导和质量控制环节,一旦其中某环节出现失误,将极大程度影响产品整个制造过程。同时,组装过程中,由于零部件种类多、尺寸各异、检测环境不一等因素,对产品检测精度要求极高。技术需求复杂,车型组件多变,对工业视觉工程的导入也带来诸多挑战。因此,亟需 AI 工业视觉技术提高质量以及效率。AI 工业视觉技术与汽车行业融合已成当前主要路径之一。一方一方面,面,将 AI 工业视觉应用于汽车行业组装质量检测和产品外观缺陷检测。在汽车组装过程中,对零部件进行质量检测,零部件外观的 26 的磕碰、损坏、污渍、印刷体模糊等进行检测,对于错装和漏装的装配进行检测以及细微零件组装进行检测。另一方面,另一方面,AI 工业视觉技术应用于汽车行业生产过程和柔性化生产方式。对制造过程中的焊接、涂胶、冲孔等工艺过程进行把控,最后对车身总成、出厂的整车质量进行把关。具体应用包括车门装配验证、零部件插装和智能防差错、智能高频焊以及焊点简陋、车门装配验证等环节,能够极高的提高生产效率,同时提升生产柔性化程度。汽车零部件工厂外观缺陷应用德国知名轴承制造商,每天数百万计的轴承部件,全部通过人工逐一进行外观质量检测,导致质检工人长期工作易疲劳,视力易损伤。且精准度不够。通过引入 IBM MVI 相关产品,结合数十万缺陷样本集(含衍生缺陷),进行多次迭代训练,结合产品内置图像处理算法,成功的解决了所有人工目检带来的弊端,提高了检测效率、增强了检测质量、降低了企业投入成本。通过 3 年来的 24 小时连续生产的验证,准确高效的提升了外观检测效率和生产效率,重大缺陷漏检率额为 0,所有缺陷漏检率额小于 0.05%;误检率99%;其图形界面操作支持小样本训练,仅 2 小时就能够完成模型的迭代更新;在成熟场景下仅需 5 人天即可完成 10 工位部署。对于制造业客户而言,充分降低了 AI 应用产线的初期部署、使用阶段,以及中后期的运维和换线等处理的复杂度,真正实现了把 AI 以极简的方式带入每一条产线。40 图 3-4:昇腾电子信息行业解决方案架构应用成效:实现高效精准、广覆盖的质检过程。基于华为昇腾智造解决方案,华为松山湖南方工厂上线了工业 AI 质检应用,支持工位级、线体级、车间级部署,通过 Atlas 等设备对质检工位回传图像进行 AI 分析,完成器件、标签、划痕、涂胶等多种器件的质检工作。一是质检效率提升。质检效率 3 倍以上提升,大幅降低质检人员工作量;二是质检准确率提高。检测准确率可达到 99.9%以上,传统工业视觉检测准确率仅能达到 80%;三是覆盖产品生产线广。已在华为松山湖南方工厂 200 产线上线应用,覆盖服务器、无线、终端等多种产品生产线。图 3-5:电子信息行业质检场景 41 2.华凌湘钢痛点与挑战:一是操作环境恶劣。一块钢板的诞生,需要历经冶炼、连铸、粗轧、精轧、热处理等数十道工序,粗轧作为其中重要环节,传统操作需要人工旋转钢坯的方向以获得契合的角度(即“转钢”),最终让钢坯在长度和宽度上符合生产要求。为确保生产正常,工人每天都需要在强光、高温、高噪音的现场工作环境中进行监控和手动转钢操作。二是技能要求较高。每一块钢板最终都必须实现 100%的转钢准确度,所以操作工人在轧钢车间的操作台中进行监控和手动转钢操作时,必须做到长时间精神高度集中才能确保生产正常。这对于工人的转钢经验过度依赖,工人要高度集中,身心俱疲,容易导致操作准确度下降。解决方案:人工智能粗轧钢坯转钢方案。在转钢现场,基于 Atlas800 推理服务器等 AI 基础硬件,采集安置在轧钢车间摄像头的图像信息后,通过北京宏视所提供的系列 AI 算法完成相应的图像分析工作,逐帧识别板坯图像并追踪其位置、角度等空间信息,然后根据这些姿态数据通过控制设备以特定的算法将钢板调整至目标角度。图 3-6:AI 粗轧钢坯转钢方案部署 42 应用成效:轧钢环节实现精准高效生产。华凌湘钢使用 AI 视觉分析算法对转钢角度进行实时监测和自动控制,实现了全流程 100%自动化、转钢环节 100%准确率,转钢工作量下降 50%,生产效率提升 8.3%并可与熟练工人相媲美,每年可增加产钢规模 3 万多吨。图 3-7 基于 AI 视觉实时监测转钢角度3.南方电网痛点与挑战。一是故障辨识困难。随着我国电力供电网络建设不断推进,当前电网跨度大、距离远,形成复杂网络,故障多变,传统人工巡检完全依赖于人工经验故障辨识,容易漏检。二是极为耗费人力物力。根据有关统计数据显示,传统的人工巡检,每 100 公里的输电线路巡检大致需要 160 个工时,这个意味着,如果一个工作日内完成 100 公里的线路巡检,需要巡检人员是至少 20 位,极为耗费人力物力。三是传统巡检方案存在局限。传统监拍电力巡检方案只能做到 0.5-1 小时监拍,实 43 时性较差,同时前端设备算力不足、算法精度低、算法模型不能远程统一部署等问题也导致传统方案难以规模推广和管理。解决方案:基于 AI 基础软硬件的智能输电线无人运检解决方案。一方面,在边缘侧摄像头中嵌入 AI 加速模块,全面赋能边缘侧计算能力提升,实现端侧的 AI 视觉的入侵检测、导线异物、烟火识别、山火自动识别,同时实时回传告警信息,能够有效提高巡检的效率,保证实时性要求,特别适用于施工外破易发区、偷盗多发区、地质灾害区、山火易发区等场景。另一方面,在控制端部署训练服务器,搭建巡线监控管理平台,实现云端线路故障识别、安全隐患识别等深度学习模型的在线开发、训练和调优,通过 5G 等网络将最新模型实时更新至端侧,通过远程升级确保边缘侧的监测能力。图 3-8:能源行业解决方案架构应用成效:全面提升巡检效率质量,降低巡检成本。南方电网深圳供电局采用智能输电巡检解决方案后实现了两方面成效。一是巡检效率大幅度提升。相比传统监拍式巡检方案,采用输电巡检解决方案后,巡检效率提升了 5 倍。二是系统成本大幅度降低。解决了信息回传难、流 44 量消耗大、设备运行功耗高、长期阴雨天气导致供电不足、设备掉线率高等问题,系统成本减低 30%。四、挑战与建议(一一)问题与挑战问题与挑战传统企业应用推进动力不足。AI 智能制造将为企业乃至行业带来巨大发展机遇,但当前仍然面临一系列推进难题。一是“不愿用”,传统行业企业领导由于缺乏对新一代信息通信技术的系统化了解,难以认识到 AI 视觉等新技术新手段对企业“提质、降本、增效”的赋能价值。二是“不会用”,部分企业存在业务痛点与 AI 视觉应用需求,但不清楚AI 视觉如何解决面临的实际问题。三是“不能用”,一些有 AI 视觉应用意愿的企业,由于基础设施落后,缺乏资金支持保障。知识积累与共享不足。AI 视觉检测技术正加速赋能千行百业,各行业间存在巨大的差异,许多行业工艺流程复杂、工艺解析难度大,生产操作尚处于“黑箱”阶段,知识积累相对较少。同时生产企业由于商业秘密等众多原因,不愿将自身积累的数据模型与行业同行分享,不同企业生产特点不尽相同,适合自身的数据模型也难以完全满足同行业其他企业的痛点需求。因此知识的积累与共享不足也为 AI 视觉解决方案的推广设置了重重障碍。复合型技术人才缺乏。当前基于工业视觉的产品质量及工况检测应用范围越来越广,在石化、冶金、电子信息等众多行业均有成功应用案例,一方面依靠新一代信息技术自身更强大的赋能作用,另一方面也依靠信息技术与行业知识的充分融合,二者缺一不可。但信息通信技术与 45 工业机理技术属于不同知识语言体系,这导致工业视觉解决方案部署时,供需双方交流沟通困难,解决方案落地难,既了解信息技术又对工业企业业务有深刻理解认识的复合型人才仍存在较大缺口。根据 2021 年某机构发布的研究报告,预计到 2025 年,全国制造业重点领域人才缺口将接近 3000 万人,复合型人才的缺乏成为限制机器视觉质检解决方案面向制造业推广的重要制约因素之一。新技术带来的新挑战。ChatGPT 火爆出圈,全球正掀起工业大模型应用探索热潮,也引发了工业领域应用的热烈讨论与憧憬。但总体来看,工业大模型融合探索刚刚起步,还面临应用场景不明确、工业数据及工业语料匮乏、工程化部署落地难等多方面挑战。聚焦工业视觉领域,大模型用在哪些视觉场景、对训练数据有哪些需求、落地部署的投入产出比等等问题,还需要各方进一步深化探索。(二二)推进建议推进建议一是推进技术攻关与标准化。研制高精度传感、小样本学习技术等AI 智能制造关键技术突破,不断推动 AI 视觉检测系统在精度、稳定性及复杂对象检测能力等方面关键技术突破。深入推进标准化工作,围绕AI 视觉标准化架构、接口、测试评估等方面加快标准制修订,加强现有标准的优化、协同与贯彻执行,支持企业依托标准开展智能车间/工厂建设,积极参与国际标准化工作。二是开展数据质量提升行动。针对工业 AI 视觉以及工业大模型数据要求,支持行业协会联合行业龙头企业制订行业数据标准,建设行业级数据库。支持龙头企业制订场景数据标准,建设场景数据库。最终形成一批高质量行业视觉数据集、语料库和指令集等。46 三是完善公共服务体系构建。建议地方主管部门建设面向区域产业的智能制造公共服务平台,依托平台联合优秀供应商及科研院所,积极开展区域集群及重点企业的转型诊断评估,根据评估结果进行转型实施,并定期开展智能制造标杆企业遴选,对 AI 制造应用示范成效良好的企业基于财税政策鼓励,同时摸清区域推进实施效果,形成“评估、实施、考核”的工作闭环。四是提高金融、人才保障。设立面向重点行业及中小企业的数字化转型资金,以及覆盖 AI 智能化改造的专项扶持资金。发挥国家产融合作平台作用,引导金融机构为企业智能化改造提供中长期贷款支持,开发特定金融产品。面向数字化转型及智能制造相关领域推进高校新工科建设,培育多学科复合人才。支持面向工业互联网数字化转型、智能制造领域开展高水平竞赛,通过大赛促进人才的快速成长。五是建设开放合作生态。依托联盟团体、行业协会等组织聚合行业生态,强化制造企业、解决方案供应商、科研院所等行业主体的深度合作以及国内外相关组织的对接合作,通过技术手段及合作机制创新,加强行业知识共享开放,加快工业数据积累流通、AI 视觉模型等各类工业模型孵化,实现数字化转型产业协同。