1、随着数据量的高速增长,数据特征高维、模态格式多样的趋势也逐渐明显,对数据的AI建模也相应地更加复杂,涉及到研究对象的多变量维度,如时间、空间维度,计算复杂度会随之呈指数增加,数据标注难度也会增加。同时,海量的数据将不可避免带来更大的数据噪声问题、数据偏见风险,为模型如何有效利用好数据、学习其中的知识带来更大挑战。数据是产业智能化发展中最宝贵的资源。海量的数据,为人工智能自监督学习带来巨大助力。利用好爆发增长的海量数据,将会是企业充分挖掘数据红利、构建数字经济下竞争壁垒的重要抓手。应用场景多元化和复杂化,增加了模型生产的难度随着AI技术的发展、产业应用的深入,应用场景变得更多元、更复杂。例如:工
2、业场景下,有工业质检、安全巡检等应用,质检中不同产线生产的零部件千差万别;智能办公场景下,文档的分类、文档OCR识别、文档知识抽取、文档审校也都是不同的任务类型。解决一个场景的问题,往往需要多个任务的深度融合,涉及多任务统一建模等问题,因而对算法提出了更高的挑战。按照现在主流的算法应用,这意味着技术厂商需要针对不同场景、不同任务生产大量的算法或模型。一方面这将会导致重复性工作量加大,另一方面也对开发人员的算法能力和业务理解有更高的要求。随着智能化转型的需求增加,AI开发门槛和研发效率问题凸显。应用复杂度攀升,算力承压持续增加算力是AI发展的基础设施,是通过对信息数据进行处理,实现目标结果输出的
3、计算能力。除了要求提升计算能力,技术的发展对于软硬件也提出了新的要求。目前整体市场发展还不及预期,具体来说,硬件方面需要针对不同的场景和高性能计算能力进行拓展融合,满足研发企业的多芯部署、分布式优化、高性能计算的需求。目前人工智能芯片主要有GPU、FPGA和ASIC等类型,从英伟达GPU的发展可以看出,算力、内存、网络传输等都在提升,计算能力逐步增强,但在产业落地应用中的成本还相对较高。随着分布式训练的发展,数据存储和网络传输问题成为大模型训练的瓶颈。目前InfiniBand,已经可以支持节点内以及节点之间高吞吐低延迟的数据互联,缓解网络传输的问题,但数据存储仍存在挑战,需要新技术的出现来解决
4、。在软件方面,厂商需要打造完整的开发软件栈,支持计算密集型算子和访存密集型算子协同编译优化,增强通用性编程能力,满足企业针对不同训练推理数据格式和量级进行底层编译以及融合调度和统一运营管理的需求。在整体软件栈中深度学习平台尤为重要,可以提供覆盖AI能力生产、运用、管理等全流程的工程化实践方法,推动产业链上下游协同创新,联动底层算力、数据和上层应用服务,打破企业在数字化转型升级中面临的多种瓶颈,解决数据成本高、模型开发难、算力分配不合理等问题。2.1.2中国人工智能的其他挑战与阻碍2022年是实现产业数字化的元年,人工智能加快赋能千行百业,与实体经济深度绑定,在医疗、城市、工业、能源、金融等领域
5、进一步落地应用,给企业带来了新的发展方向,除了底层数据、算法和算力对人工智能发展所带来的瓶颈以外,IDC认为人工智能领域还面临三大维度下的挑战。数据互通壁垒明显,共建生态存在阻碍。新一代信息技术与产业的深度融合扩大了网络空间的边界,数据作为一种新的生产要素,已成为推动企业智能化升级的重要资源。但同时,流转无序、区域性限制大、定价机制不完善、监管机制不完备等问题,导致数据不流通,数据对数字经济的放大和叠加作用没有得到充分发挥。数据的流通和共享是释放数字红利的前提,提高数据流通性可以推动社会资源配置的优化,节约社会成本。为此,需要明确数据的权责,完善政策,规范数据的使用,推动数据共享流通,支撑人工
6、智能技术的高速发展。技术门槛高,平台层挑战不断。AI算法的开发与模型训练、调优有着一定的技术门槛,需要进一步依托在算法框架上的产品与工具套件,降低AI开发门槛。因此,深度学习与大模型平台需要向下衔接硬件、向上承接应用。未来不管是训练还是推理,硬件的种类会变得非常繁杂,向平台层提出了更高的衔接要求;同时随着AI规模化落地的需求增强,平台面向实际应用需要持续降低模型开发的学习门槛、降低模型优化难度。当前,开发平台发展重点在于提供专业且丰富的技术组件,向下驱动算子和数据管理工具的高性能延展,向上带动产品线研发并推动门槛的降低。人才储备不足,技术发展受限。除了技术、战略部署、资金投入等问题以外,智能化