《中国信通院:人工智能生成内容(AIGC)白皮书(2022年)(62页).pdf》由会员分享,可在线阅读,更多相关《中国信通院:人工智能生成内容(AIGC)白皮书(2022年)(62页).pdf(62页珍藏版)》请在三个皮匠报告上搜索。
1、京东探素研究院CAICT中国信通院JDEXPLOREACADEM集智白皮书No.202212人工智能生成内容(AIGC)白皮书(2022年)中国信息通信研究院京东探索研究院2022年9月#page#前言习近平总书记曾指出,“数字技术正以新理念、新业态、新模式全面融入人类经济、政治、文化、社会、生态文明建设各领域和全过程”。在当前数字世界和物理世界加速融合的大背景下,人工智能生成内容(ArtificialIntelligenceGeneratedContent,简称AIGC)正在情然引导着一场深刻的变革,重塑甚至颠覆数字内容的生产方式和消费模式,将极大地丰富人们的数字生活,是未来全面迈向数字文明
2、新时代不可或缺的支撑力量。本白皮书重点从AIGC技术、应用和治理等维度进行了述。在技术层面,梳理提出了AIGC技术体系,既涵盖了对现实世界各种内容的数字化呈现和增强,也包括了基于人工智能的自主内容创作。在应用层面,重点分析了AIGC在传媒、电商、影视等行业和场景的应用情况,探讨了以虚拟数字人、写作机器人等为代表的新业态和新应用。在治理层面,从政策监管、技术能力、企业应用等视角,分析了AIGC所暴露出的版权纠纷、虚假信息传播等各种问题。最后,从政府、行业、企业、社会等层面,给出了AIGC发展和治理建议。由于人工智能仍处于飞速发展阶段,我们对AIGC的认识还有待进一步深化,白皮书中存在不足之处,敬
3、请大家批评指正。#page#目录、人工智能生成内容的发展历程与概念.(一)AIGC历史沿革.1(二)AIGC的概念与内涵.二、人工智能生成内容的技术体系及其演进方向.77(一)AIGC技术升级步入深化阶段.10(二)AIGC大模型架构潜力凸显.(三)AIGC技术演化出三大前沿能力.18三、人工智能生成内容的应用场景.26(一)AIGC+传媒:人机协同生产,推动媒体融合.27(二)AIGC+电商:推进虚实交融,营造沉浸体验.29.32(三)AIGC+影视:拓展创作空间,提升作品质量.(四)AIGC+娱乐:扩展辐射边界,获得发展动能.35(五)AIGC+其他:推进数实融合,加快产业升级.37四、人
4、工智能生成内容发展面临的问题.38五、发展建议与展望.(一)发展建议.(二)未来展望.#page#图目录图1AIGC发展历程.图2AIGC多模态大模型生成结果图.17图30penAIAIGC多模态大模型DALLE2生成结果图.18图4AIGC的三大前沿能力.19图5AIGC应用视图.27#page#人工智能生成内容(AIGC)白皮书一、人工智能生成内容的发展历程与概念1950年,艾伦图灵(AlanTuring)在其论文计算机器与智能(ComputingMachineryandIntelligence)中提出了著名的“图灵测试”,给出了判定机器是否具有“智能”的试验方法,即机器是否能够模仿人类的
5、思维方式来“生成”内容继而与人交互。某种程度上来说,人工智能从那时起就被寄予了用于内容创造的期许。经过半个多世纪的发展,随着数据快速积累、算力性能提升和算法效力增强,今天的人工智能不仅能够与人类进行互动,还可以进行写作、编曲、绘画、视频制作等创意工作。2018年,人工智能生成的画作在佳士得拍卖行以43.25万美元成交,成为世界上首个出售的人工智能艺术品,引发各界关注。随着人工智能越来越多地被应用于内容创作,人工智能生成内容(ArtificialIntelligenceGeneratedContent,简称AIGC)的概念情然兴起。(一)AIGC历史沿革结合人工智能的演进历程,AIGC的发展大致
6、可以分为三个阶段,即:早期萌芽阶段(20世纪50年代至90年代中期)、沉淀积累阶段(20世纪90年代中期至21世纪10年代中期),以及快速发展阶段(21世纪10年代中期至今)。早期萌芽阶段(1950s-1990s),受限于当时的科技水平,AIGC仅限于小范围实验。1957年,莱杰伦希勒(LejarenHilller)和伦纳#page#人工智能生成内容(AIGC)白皮书德艾萨克森(LeonardIsaacson)通过将计算机程序中的控制变量换成音符完成了历史上第一支由计算机创作的音乐作品弦乐四重奏依利亚克组曲(IliacSuite)。1966年,约瑟夫魏岑鲍姆(JosephWeizenbaum)
7、和肯尼斯科尔比(KennethColby)共同开发了世界第一款可人机对话的机器人“伊莉莎(Eliza)”,其通过关键字扫描和重组完成交互任务。80年代中期,IBM基于隐形马尔科夫链模型(HiddenMarkovModel,HMM)创造了语音控制打字机“坦戈拉(Tangora)”,能够处理约20000个单词。80年代末至90年代中,由于高昂的系统成本无法带来可观的商业变现,各国政府纷纷减少了在人工智能领域的投入,AIGC没有取得重大突破。沉淀积累阶段(1990s-2010s),AIGC从实验性向实用性逐渐转变。2006年,深度学习算法取得重大突破,同时期图形处理器(GraphicsProcess
8、ingUnitGPU)、张量处理器(TensorProcessingUnitTPU)等算力设备性能不断提升,互联网使数据规模快速膨胀并为各类人工智能算法提供了海量训练数据,使人工智能发展取得了显著的进步。但是AIGC依然受限于算法瓶颈,无法较好地完成创作任务,应用仍然有限,效果有待提升。2007年,纽约大学人工智能研究员罗斯古德温装配的人工智能系统通过对公路旅行中的一切所见所闻进行记录和感知,操写出小说1TheRoad。作为世界第一部完全由人工智能创作的小说,其象征意义远大于实际意义,整体可读性不强,拼写错误、辞藻空洞、缺乏逻辑等缺点明显。2012年,微软公开展示#page#人工智能生成内容(
9、AIGC)白皮书了一个全自动同声传译系统,基于深层神经网络(DeepNeuralNetworkDNN)可以自动将英文演讲者的内容通过语音识别、语言翻译、语音合成等技术生成中文语音。快速发展阶段(2010s-至今),自2014年起,随着以生成式对抗网络(GenerativeAdversarialNetwork,GAN)为代表的深度学习算法的提出和选代更新,AIGC迎来了新时代,生成内容百花齐放,效果逐渐逼真直至人类难以分辨。2017年,微软人工智能少女“小冰”推出了世界首部100%由人工智能创作的诗集阳光失了玻璃窗。2018年,英伟达发布的StyleGAN模型可以自动生成图片,目前已升级到第四代
10、模型StyleGAN-XL,其生成的高分辨率图片人眼难以分辨真假2019年,DeepMind发布了DVD-GAN模型用以生成连续视频,在草地、广场等明确场景下表现突出。2021年,OpenAI推出了DALL-E并于一年后推出了升级版本DALL-E-2.主要应用于文本与图像的交互生成内容,用户只需输入简短的描述性文字,DALL-E-2即可创作出相应极高质量的卡通、写实、抽象等风格的绘画作品。#page#人工智能生成内容(AIGC)白皮书IBMAIGC从实验性向实用性转AIGC人工智能生成内容百受限于科技水平,发展特点在,受限于算法瓶颈,无直接进行内容生成沉淀积累阶段快速发展阶段早期萌芽阶段(21
11、世纪10年代中期至今)(20世纪90年代中期至21(20世纪50年代至90年代中期世纪10年代中期)来源:中国信息通信研究院图1AIGC发展历程(二)AIGC的概念与内涵目前,对AIGC这一概念的界定,尚无统一规范的定义。国内产学研各界对于AIGC的理解是“继专业生成内容(ProfessionalGenerated ContentPGC)和用户生成内容(User Generated ContentUGC)之后,利用人工智能技术自动生成内容的新型生产方式”。在国际上对应的术语是“人工智能合成媒体(AI-generatedMedia或SyntheticMedia)”1,其定义是“通过人工智能算法对
12、数据或媒体进行生产、操控和修改的统称”。综上所述,我们认为AIGC既是从内容生产者视角进行分类的一类内容,又是一种内容生产方式,还是用于内容自动化生成的一类技术集合。本白皮书主要聚焦于AIGC含义1维基百科:“人工智能合成媒体(AlgeneratedMedia或SyntheticMedia)https:/en.wikipedia.org/wiki/Synthetic_medi#page#人工智能生成内容(AIGC)白皮书中的技术部分。为了帮助不同领域的受众群体更好的理解AIGC,我们从发展背景、技术能力、应用价值三个方面对其概念进行深入部析。从发展背景方面来看,AIGC的兴起源于深度学习技术的
13、快速突破和日益增长的数字内容供给需求。一方面,技术进步驱动AIGC可用性不断增强。在人工智能发展初期,虽然对AIGC进行了一些初步尝试,但受限各种因素,相关算法多基于预先定义的规则或者模板,还远远算不上是智能创作内容的程度。近年来,基于深度学习算法的AIGC技术快速送代,彻底打破了原先模板化、公式化、小范围的局限,可以快速、灵活地生成不同模态的数据内容。另一方面,海量需求牵引AIGC应用落地。随着数字经济与实体经济融合程度不断加深,以及Meta、微软、字节跳动等平台型巨头的数字化场景向元宇宙转型,人类对数字内容总量和丰富程度的整体需求不断提高。数字内容的生产取决于想象能力、制造能力和知识水平;
14、传统内容生产手段受限于人力有限的制造能力,逐渐无法满足消费者对于数字内容的消费需求,供给侧产能瓶颈日益凸显。基于以上原因,AIGC在各行业中得到越来越广泛的应用,市场潜力逐渐显现。从技术能力方面来看,AIGC根据面向对象、实现功能的不同可分为三个层次。一是智能数字内容李生,其主要目标是建立现实世界到数字世界的映射,将现实世界中的物理属性(如物体的大小、纹理、颜色等)和社会属性(如主体行为、主体关系等)高效、可感知地进#page#人工智能生成内容(AIGC)白皮书行数字化。二是智能数字内容编辑,其主要目的是建立数字世界与现实世界的双向交互。在数字内容李生的基础上,从现实世界实现对虚拟数字世界中内
15、容的控制和修改,同时利用数字世界高效率仿真和低成本试错的优势,为现实世界的应用提供快速送代能力。三是智能数字内容创作,其主要目标是让人工智能算法具备内容创作和自我演化的能力,形成的AIGC产品具备类似甚至超越人的创作能力。以上三个层面的能力共同构成AIGC的能力闭环从应用价值方面来看,AIGC将有望成为数字内容创新发展的新引擎,为数字经济发展注入全新动能。一方面,AIGC能够以优于人类的制造能力和知识水平承担信息挖掘、素材调用、复刻编辑等基础性机械劳动,从技术层面实现以低边际成本、高效率的方式满足海量个性化需求;同时能够创新内容生产的流程和范式,为更具想象力的内容、更加多样化的传播方式提供可能
16、性,推动内容生产向更有创造力的方向发展。另一方面,AIGC能够通过支持数字内容与其他产业的多维互动、融合渗透从而孕育新业态新模式,打造经济发展新增长点,为千行百业发展提供新动能。此外,2021年以来,“元宇宙”呈现出超出想象的发展爆发力;作为数实融合的“终极”数字载体,元宇宙将具备持续性、实时性、可创造性等特征,也将通过AIGC加速复刻物理世界、进行无限内容创作,从而实现自发有机生长。#page#人工智能生成内容(AIGC)白皮书二、人工智能生成内容的技术体系及其演进方向AIGC作为人工智能技术和产业应用的要素之一,随着技术能力的不断选代升级,正在降低内容创作门槛、释放创作能力,未来将推动数实
17、融合趋势下内容创作的范式转变。探讨其能力体系的构成,即赋能内容创作的技术路径,对制定领域内标准、建立行业生态、争取更加广泛的开发者和应用场景具有十分重要的意义。本部分从技术驱动的视角出发,对AIGC的能力体系进行归纳和推理,展示现有技术应用和其背后技术演化整体进程。第一节首先从技术趋势的角度,提出AIGC的技术创新已经完成由传统方法向深度学习过渡的应用创新阶段,并逐步深化到学习范式和网络结构方面的理论创新阶段。第二节则重点分析前沿理论多模态大模型方面的突破,让AIGC进行跨模态融合性创新成为可能,也给予了AIGC前所未有的产业空间与实践潜力。第三节进一步归纳总结在前沿技术驱动下,AIGC赋能内
18、容创作的三大能力,并对三大能力的技术演化路径进行展望。(一)AIGC技术升级步入深化阶段人工智能算法的不断送代是AIGC发展进步的源动力,从技术演进的角度出发,可将AIGC技术可大致划分为传统基于模板或规则的前深度学习阶段和深度神经网络快速发展的深度学习阶段早期的AIGC技术主要依据事先指定的模板或者规则,进行简单的内容制作与输出,与灵活且真实的内容生成有较大的差距。该时期#page#人工智能生成内容(AIGC)白皮书的人工智能算法并不具备强大的学习能力,而是大多依赖于预先定义的统计模型或专家系统执行特定的任务。通过巧妙地规则设计,早期AIGC技术可以完成简单线条、文本和旋律的生成。例如,通过
19、定义复杂的函数方程组,计算机所绘出的函数曲线具备某种美学图样;通过记录大量的问答文本,在面对新的问题时,计算机可以通过检索和匹配的方式生成简单的答案,甚至于改写故事。但是由于缺乏对客观世界的深入感知和对人类语言文字等知识的认知能力,早期的AIGC技术普遍面临所生成的内容空洞、刻板、文不对题等问题。参考人类的内容创作过程,研究人员们提出,理想的AIGC算法需要具备对数据内容的学习能力,在理解数据的基础上进行知识与分布的学习,最终实现高质量的内容创作。长群限子社系火限工影影网咪区素影网落些到了人工智能算法的学习能力,从而推动了AIGC技术的快速发展。不同于传统人工智能算法,深度学习中的损失函数和梯
20、度下降算法可以灵活快速的调整深度神经网络中的参数,从而实现从数据中进行学习功能。2012年,卷积神经网络AlexNetu凭借优秀的学习能力,在当年的ImageNet大规模视觉识别挑战赛中一举夺魁,比第二名传统机器学习算法的错误率提升10.8个百分点,开启了深度学习时代的序幕。就在紧随其后的2013年,深度变分自编码器D的提出让AIGC技术能力有了极大的进步。对于给定的神经网络,深度变分自编码器要:人工智能的学习范式是指人工智能模型型从数据中进行学习的方法。#page#人工智能生成内容(AIGC)白皮书求网络的输出是对于输入内容的重建,通过重参数化等技巧,网络在重建过程中学习训练数据的统计分布。
21、在测试阶段,变分自编码器通过在学习到的统计分布中进行采样,首次能比稳定的生成从未观测过的低分辨率图像。2014年,一种新的博奔学习范式伴随着生成对抗网络被提出。生成对抗网络由一个生成器和一个判别器组成,判别器致力于不断寻找生成数据和真实数据间的不同,生成器根据判别器的反馈不断完善自身,以求生成真假难辨的内容。得益于双方博奔的学习策略,生成内容的真实性和清晰度都得到了极大的提升,生成对抗网络也被应用于很多内容生成的具体应用。除了变分自编码器和生成对抗网络,强化学习、流模型1、扩散模型等学习范式均取得了喜人的进展,这些模型范式在不同场景中各有优势,让AIGC技术可以快速地应用到不同的场景和任务中。
22、深度神经网络的结构升级是推动AIGC快速发展的另一主要因素。一方面,实验证明,深度神经网络的学习能力和模型大小呈正柜关,伴随着模型参数量的增加,相对应深度神经网络的能力一般会取得大幅提升。但是,随意地增加神经网络规模是行不通的,越大规模神经网络往往意味着更大的训练难度,因此深度神经网络的结构设计显得无为关键。从早期的玻尔兹曼机,多层感知机,卷积神经网络,到深度残差网络和Transformer大模型,网络结构进化带来了深度学习模型参数量从几万到数千亿跃升,模型层数也从开始的个位数逐步发展到成百上千。深度学习习模型规模上的量变引起了AIGC技术能力#page#人工智能生成内容(AIGC)白皮书的质
23、变,在新型网络结构的加持下,上述的生成对抗网络等算法开始能生成超高清晰度的视频,高质量的文本段落和优美灵动的乐曲旋律另一方面,研究者们在深度神经网络结构的设计中引入包含语义的隐式表达和物理知识,以降低模型的训练难度、增强生成内容的丰富程度。例如,研究者发现通过在神经网络的每一层引入隐式表达,能够极大地提升内容生成算法的可控性和生成效果。另外,在三维数据的生成任务中,神经辐射场在网络结构设计时充分考虑了物理世界的固有约束,极大提升了三维宣染效率和效果AIGC要真正发挥对不同行业的驱动作用,需要与各行各业的特异性场景深度融合。在处理这些实际应用中,深度学习算法在感知、认知、模仿、生成等方向的基础能
24、力决定了AIGC技术所能创作的生产力。近些年中,这些算法技术齐头并进、百花齐放,并最终形成了AIGC应用于不同场景的底层支撑。通过人工智能支撑技术的不断升级,AIGC技术将持续赋能各类文化创意、生产生活、科学发现9.10等各种场景。(二)AIGC大模型架构潜力凸显超级深度学习近年来的快速发展带来了深度神经网络技术在大模型和多模态两个方向上的不断突破,并为AIGC技术能力的升级提供了强力的支撑和全新的可能性。当前AIGC技术已经从最初追求生成内容的真实性的基本要求,发展到满足生成内容多样性、可控性的进阶需求,并开始追求生成内容的组合性。数字内容的组合性一方面10#page#人工智能生成内容(AI
25、GC)白皮书关注复杂场景、长文本等内容中各个元素的组合,例如虚拟数字世界中人、物和环境间的交互并组合生成为整体场景;长篇文字内容用词语句、段落间的相互呼应和组合。另一方面,组合性追求概念、规见等抽象表达的组合,以此完成更加丰富和生动的数字内容生成,这些雅限承意工Y限深一有等水唯用接近年来,研究界在大规模深度网络、多模态人工智能方面的探索表明大模型具备易扩展性,能够实现跨模态的知识沉淀,以大模型为基础模型,通过大模型小型化技术使得人工智能在小数据集场景下也能具备优秀的理解、生成和泛化能力,具有超大规模、超多参数量的多模态大型神经网络将引领AIGC技术升级正在成为学界、产业界共识。1.视觉大模型提
26、升AIGC感知能力以图像、视频为代表的视觉数据是互联网时代信息的主要载体之,这些视觉信息时刻记录着物理世界的状态,并在不断传播和再创作的过程中,反映人的想法、观念和价值主张。赋以人工智能模型感知并理解这些海量的视觉数据的能力叫,是实现人工智能生成数字内容、数字李生的基础;感知能力的提升,是实现生成视觉内容语义明确、内涵丰富、效果逼真的前提。针对视觉信息的感知研究,在传统机器学习时代主要基于科研人员手动建模的特征和基于统计学习理论构建的朴素分类器,例如支持3百度文心大模型:htps:/ Classification with Deep ConvolutionalNeural Networks U
27、J Advances in Neural Information ProcessingSystems,2012.2Kingma D.et al.Auto-encoding variational bayes TC.In InternationalConference on Learning Representations,2014.3Goodfellow I.,etal.Generativeadversarial netslJl.Advances in NeuralInformation Processing Systems, 2014.14 Ganin et al. Synthesizing
28、 programs for images using rinforcedadversarial learning IC. In International Conference on MachineLearning, pages 1666-1675,2018.5 Rezende D.,et al. Variational Inference with Normalizing Flows ICIn International Conference on Machine Learning, pages 1530-1538,2015,6 Ho,J.etal. Denoising diffusion
29、probabilistic modelslAdvances inNeural Information Processing Systemspages 6840-685120207 Karras,T,et al. A style-based generator architecture for generativeadversarial networksIC. In Computer Vision and Pattern Recognitionpages4401-4410,2019.for view synthesisIC.In European conference on computer v
30、ision33#page#人工智能生成内容(AIGC)白皮书pages405-421,2020.T9JRepeckaD,etal Expanding functionalprotein sequence spaces usinggenerativeadversarialnetworksJlNatureMachine Itelligencepages324-333,2021.10 Lu H.et al. Machine learning-aided engineering of hydrolases for11 Zhang J.,et alEmpowering things wih intell
31、igence: a survey of theprogress, challenges, and opportunities in artificial intelligence ofthingstJ.IEEE Internet of Things Journal, 2020,8(10): 7789-7817.12 Dosovitskiy A.,et al. An image is worth 16x16 words: transformersfor image recognition at scalefc. In International Conference onLearning Rep
32、resentations. 2021.13XuY.etal.Vitae: vision transformer advancedby exploring intinsicinductive biastj.Advances in Neural Information Processing Systems2021.14 Zhang Q., et al. Vitaev2: vision transformer advanced by exploringinductive bias for image recognition and beyondjl. arxiv preprintarXiv:2202
33、.10108,2022.15 Xu Y, et al. ViTPose: Simple Vision Transformer Baselines forHuman Pose EstimationlJl.arXiv preprint arXiv:2204.12484,2022.16 Liu Z, et al. Swin transformer v2: scaling up capacity and56#page#人工智能生成内容(AIGC)白皮书resolutionlj. arXiv preprint arXiv:2111.09883,2021,17Wang D.,et al.An Empiri
34、cal Study ofRemote Sensing PretrainingJlIEEE Transactions on Geoscience and Remote Sensing, 202218 Devlin, J.,et al. BERT: Pre-training of Deep BidirectionalTransformers for Language Understanding IC In Proceedings of theConference of the North American Chapter of the Association forComputational Li
35、nguistics. 2019,19 Radford A., et al. Improving language understanding by generativepre-training J.OpenAITech Report 2018.20 BrownT,et al.Language models are few-shot learners.In AnnualConference on Neural Information Processing Systems U2020.21 Jewitt C K OHalloran multimodal discourse analysis: sy
36、stemicfunctional perspectives. continuum 2004U Applied LinguisticsPages335-337,2006.22Martin-Brualla R,et al Nerf in the wild: neural radiance fields forunconstrained photo collectionstCl. In Computer Vision and PatternRecognition pages 7210-7219,2021,23 Vinyals, Oriol, et al. Show and tell: A neural image captiongeneratorICl. In Computer Vision and Pattern Recognition pages3156-3164,2015、24 Wang C.,et al. Tag disentangled generative adversarial networks for37#page#page#