1、并行大数据处理:基于Python、PostgreSQL及其他 预计:2022年出版;前期视频课程2022年1月上线B站账号:山人一枚也站账号:山人一枚也目录C O N T E N T S01实证研究中的大数据化B i gD a t ai nE m p i r i c a lR e s e a r c h02为何选择Python&PostgreSQLW h yP y t h o n&P o s t g r e S Q L03服务器配置S e r v e rC o n f i g u r a t i o n04并行计算方案P a r a l l e lC o m p u t i n gS o l
2、u t i o n s05应用举例A p p l i c a t i o ne x a m p l e s4“经济学-金融学”-科学研究的普遍规律 科学研究的目标齐一性的解释:表象-意志简单-普遍 科学革命的结构:范式转换科学革命的结构 托马斯.库恩科学与假设庞加莱(Poincare;中译别名:彭家勒)方法,主题?56目标解释(理论),预测(实务,如量化投资)数据宏观-微观,低频-高频结构化-非结构化方法因果推断,结构方程,机器学习(实证)优化-动力系统-线性展开-校准(理论)结构各类“经济学-金融学”主题乃至“社会学-政治学-法学-心理学”主题“经济学-金融学”-“主题导向研究”的典型范式7
3、 领域的“可理论化程度”是否存在统一、完备结构?是长成一颗树?还是一片草?论文所在“节点”根部-主干-分枝-叶-叶上的灰“经济学-金融学”-“结构”分布8 顶端:“意志”,最具一般性(普适、持续)的抽象事实和结构 中部:蕴于数据中的重要、典型事实 底部数据之后,纷繁复杂到并非一猜就准的个体、组织真实行为(机制,及竞争性解释之源;需去了解、核实,跟实务人士畅聊)“经济学-金融学”实证研究的抽象阶梯9 论文工作节点:想法-数据-回归-文字-销售 单干:全程靠自己,一个人活得像一支队伍 师生师:想法,文字打磨,销售生:数据,回归,文字初稿 外部合作上游:数据中游:回归,文字初稿下游:文字打磨,销售“
4、经济学-金融学”实证研究的生态系统10 经济学Raj Chetty(美国Internal Revenue Service全量数据)金融学张晓燕(上交所账户级数据)James Simons(文艺复兴基金)国内量化私募机构:幻方、明汯“经济学-金融学”大数据实证研究的榜样11 早期数据宏观及个人微观:宏观数据,微观调查数据,人口普查与抽样调查数据企业微观:工业企业数据库,海关数据库,专利数据库经济史:CHGIS,CBDB,方志数据 新兴数据裁判文书数据:10000W+工商企业数据:10000W+招聘网站简历数据:3000W+“经济学”实证研究中的大数据化“金融学”实证研究中的大数据化 早期数据上市
5、公司财务数据股票交易日数据(国泰安、万德、同花顺)新兴数据网贷平台借贷数据(人人贷,已泛滥矣)分钟级、三秒级,乃至逐笔的股票成交、委托数据股票论坛帖子及评论数据(股吧、雪球)27000W+/70000W+1213“经济学”-“金融学”大数据的特点 规模庞大:动辄100G+,甚至Tb+结构复杂:变量(字段)多,有多张表 形式非规范:文本、空间地理、网页、JSON 多来源关联 所涉主题广泛为何要学“Python+PostgreSQL”?前提:拥抱超大规模数据,是个人成长之需要,也是范式转换之必然 艰难而耗时的任务:数据处理 专用工具不敷用:各种现有工具,多为数据分析而生,不适合数据处理(缝缝补补易
6、,改头换面难)目标:扩展研究主题的范围;提高数据处理效率1415 早期:机器码-汇编-Fortran 多种范式:面向过程、面向对象、函数式编程 走向高级语言:底层逻辑自动化,提高编码效率 多进程:自带多进程 新希望:Julia(2012),Kotlin(2011,2016),Rust(2015),Golang(2009)编程语言的发展简史16为何选Python(1994;Java,1996;JavaScript,1996)语言设计合理:面向对象、具有多态和动态特性 庞大社区资源:爬虫,requests,urllib,BeautifulSoup4数据分析,numpy,Pandas可视化,matp