1、数据工程白皮书Data and AI数据工程白皮书前言随着企业数字化转型的不断开展,企业对数据越来越重视、对数据的诉求越来越丰富。本白皮书旨在讨论如何从工程化的角度加速数据到价值的转化过程、为企业带来更多的价值,帮助企业在数字化转型过程中应对来自业务、外部市场、内部数据能力提升等一系列问题。目前数字化转型对于市场来说并不是一个新鲜事物,从技术视角来看,人工智能与大数据相关技术仍处于创新阶段,各行业正在寻找和探索价值场景与新兴技术融合的平衡点,希望在新兴技术的加持下能够在激烈的竞争中占据有利位置。近几年企业在数字化以及数据工作上的投入是非常可观的,可是在数据层面上的收益并不尽人意,我们经常听到企
2、业提到:数据项目投资收益周期长,不确定性大,且没有获取对等的业务回报数据平台层产生价值的速度跟不上业务需求变化的脚步数据年年治理,年年治理不好人员培养困难,培养人才的时间和成本居高不下,无法规模化地支撑业务需求站在企业的视角,结合 Thoughtworks 近些年服务的客户以及对市场的持续观察,我们发现,超半数的企业认为大数据产业规模将逐步扩大,虽然在部分领域的增速会出现放缓的情况,但是在新兴领域内的大数据产业规模仍将保持可观的增速。另外,大部分企业认为大数据和人工智能领域在未来是值得投资并且能够帮助企业提升效率与客户体验的。对于企业中需要直接面对或完成数据工作的负责人来说,上述问题需要有一套
3、切实可行的方式方法来确保数据工作能够保质保量的顺利开展、保障企业在数据领域的投入能够有价值产出。这样一套行之有效的方式方法我们称为“数据工程”,而该体系的落地过程称为“数据工程化”。数据工程白皮书本白皮书将从实际问题出发,围绕数据工程的定义、实施步骤以及数据价值如何通过数据工程实现等问题展开讨论,并结合当前行业发展态势、数据领域最佳实践、国家数据政策描绘出企业数据工程发展路径,最终对未来数据工程发展趋势进行畅想,进而帮助企业认识自身数据发展现状,制定数据发展规划策略。最后从数据工程化评估的视角讲述如何评估企业目前数据工程化的能力以及如何度量数据工程的优劣,并通过数据工程体系为数据工作者带来启发
4、。内容简介本白皮书共分为 4 章,从逻辑上可以分为 3 部分:第 1 部分为第 1 2 章第 1 章介绍了数据作为新兴生产资料在企业中逐渐占据更重要的位置,第 2 章从企业视角描述了数据在企业中遇到的问题以及数据工程的概念 第 2 部分为第 3 章从落地实践的视角详细描述在企业中数据类项目落地过程中的实践,以及如何在落地过程中做好数据类项目 第 3 部分为第 4 章基于对数据、数据项目、数据技术未来的发展前景的视角,畅想了未来数字世界中的发展数据工程白皮书引言1什么是数据2数字化转型浪潮下的企业数据3企业数据流转链路分析4数据工程概述6什么是数据工程7数据工程价值8数据工程落地与能力建设10数
5、据工程落地10数据工程能力建设28数据工程展望33数据工程白皮书1引言数据是新一代技术革命下的生产要素,掌握了生产要素与生产要素的加工方式就是掌握了数字经济下的价值密码。新生产要素的崛起数据纵观历史,伴随着科学技术的发展以及社会形态的演变,在社会发展的不同阶段,生产要素的数量不断增加,并且每个历史发展阶段,不同生产要素的重要程度也一直在发生变化。在信息技术革命到来之前,社会经济学公认的四大生产要素分别为:土地、劳动、技术和资本,而随着信息技术革命的到来,数据的产生与应用已经渗透到各行各业的生产经营活动之中,数据已经成为继土地、劳动、资本、技术之后的第五大生产要素。数据之重要,已不单单局限于企业
6、内部的认知,更是成为全社会的共识。在 2021 年 11 月工信部发布的十四五大数据产业发展规划当中,更是把数据要素的价值转化提升到了国家层面,进一步突出了数据作为国家基础战略性资源的重要地位。图:生产要素在不同阶段的变化生产要素土地、劳动土地、劳动、技术、资本土地、劳动、技术、资本土地、劳动、技术、资本、数据复杂程度历史阶段信息技术革命第二次工业革命第一次工业革命农业社会数据工程白皮书2在当今数字经济时代,一方面企业在经营的过程中时刻都在产生大量数据,这些数据从业务过程中产生,并蕴含着大量知识;另一方面,面对如此重要的生产要素,很多企业无法将其好好利用。而数据又与土地等生产资料不同,其有比较