1、金融电子化厦门演讲,2016.11.24,大数据在金融行业价值挖掘中的应用,吕本富教授,目 录,引言一、数据与大数据二、数据分析的类型三、大数据催生新经济四、大数据塑造新模式五、发掘信用价值的对比,商鞅说:,“强国知十三数欲强国,不知国十三数,地虽利,民虽众,国愈弱至削”竟内仓、口之数,壮男、壮女之数,老、弱之 数,官、士之数,以言说取食者之数,利民之数,马、牛、刍藁之数。可见治国要做到心中有“数”。,劳氏说:,1987年,是印度传奇数学家拉曼努扬(SrinivasaRamanujan,1887-1920)的百年诞辰。当代著名统计学者,出生于印度的劳氏(C.Radhakrishna Rao,1
2、920),也应邀做了三场演讲。印度统计学研究所(IndianStatistical Institute)基于劳氏的演讲稿,于1989年,为他出版统计与真理(1997年发行第二版,http:/201508-70944.html),在第一版的序文中:我相信:在最终的分析中,所有知识皆为历史。在抽象的意义下,所有科学皆为数学。在理性的世界里,所有判断皆为统计。,一、数据和大数据,1024GB=1TB;1024TB=1PB;1024PB=1EB;1024 EB=1ZB;1024ZB=1YB。数据体量从TB级别跃升到PB级别。,纽约证券交易所每天会产生1TB的数据,国外SNS网站Twitter每天产生的
3、数据总量则为8TB大型强子对撞机将产生350万TB的数据。2013年每天全球产生25PB数据,相当于1500个国家图书馆信息量的总和。人类生产的所有印刷材料的数据量是200PB,而历史上全人类说过的所有的话的数据量大约是5EB。,管理学院,School of Management,UCAS,什么是数据?,数据(data)在拉丁文里是“已知”的意思,在英文中的一个解释是“一组事实的集合,从中可以分析出结论”。笼统地说,凡是用某种载体记录下来的、能反映自然界和人类社会某种信息的,就可称之为数据。古人“结绳记事”,“结”是数据,绳子是存储。步入现代社会,信息的种类和数量越来越丰富,载体也越来越多。数
4、字是数据,文字是数据,图像、音频、视频等都是数据。,管理学院,School of Management,UCAS,研究数据、发现价值,人类科学发展史上的不少进步都和数据采集分析直接相关,例如现代医学流行病学的开端。伦敦1854年发生了大规模的霍乱,很长时间没有办法控制。一位医师用标点地图的方法研究了当地水井分布和霍乱患者分布之间的关系,发现有一口水井周围,霍乱患病率明显较高,借此找到了霍乱暴发的原因:一口被污染的水井。关闭这口水井之后,霍乱的发病率明显下降。这种方法,充分展示了数据的力量。,数据比方法重要,1913年,理查森加入英国气象服务战,作为一名物理学家,很快掌握了流体运动方程,这就意味
5、着利用物理和数学知识,可以预测第二天的天气情况。但是需要6个星期的数据准备。直到一战结束,理查森的预报基本没有准确性。到二十世纪,过去五年对未来3天的天气预报的准确度已经达到95%。利用的方程还是理查森的方程。现在预报利用精密的雷达和卫星地图,不再需要理查森那样到处收集参差不齐的大气数据。在加上计算机对数据的快速处理,基本能实时反馈。,大数据产生的动力,社会交往UGC数据、分享数据、碎片化数据,自然记录实时数据、机器数据、非结构化数据,各种智能设备,各种社交平台,新摩尔定律:过去18个月产生的数据等于计算机有史 以来的总和。或者说 网络空间的数据90%都是近2年产生的,成为跨界和颠覆的基础。,
6、个人行为的大数据,大数据时代,每个人都会“自发地”提供数据。我们的各种行为,如点击网页、使用手机、刷卡消费、观看电视、坐地铁出行、驾驶汽车,都会生成数据并被记录下来,我们的性别、职业、喜好、消费能力等信息,都会被从中挖掘出来,以分析个人行为的规律。,2022/8/17,大数据区别于数据,从数据到大数据,不仅是量的积累,更是质的飞跃。海量的、不同来源、不同形式、包含不同信息的数据可以容易地被整合、分析,原本孤立的数据变得互相联通。这使得人们通过数据分析,能发现小数据时代很难发现的新知识,创造新的价值。,2022/8/17,基于大数据治理策略更有效,小数据时代,政府做决策更多依凭经验和局部数据,难