《AI时代的数据处理技术_陈文光.pdf》由会员分享,可在线阅读,更多相关《AI时代的数据处理技术_陈文光.pdf(23页珍藏版)》请在三个皮匠报告上搜索。
1、AI 时代的数据处理技术陈文光清华大学/蚂蚁技术研究院大数据:数据量,数据生成的速度和多模态数据量(Volume)和数据生成速度(Velocity)图片,文档,图,时序,交易物联网、边缘设备和用户行为产生大量数据多模态数据(Variety)(in zettabytes)Volume of data/information created,captured,copied,and consumed worldwide from 2010 to 2025 Statista 2021 https:/ https:/ 5 GBGPT-22019年215亿40 GBGPT-32020年51750亿45 T
2、BGPT-3.5(ChatGPT)2022年11千亿级百 TB 级?GPT-42023年3万亿级(估)未披露大模型需要大数据如何获得更多数据?如何提升数据质量?如何高效处理海量数据?80%Data20%Model+=Better AI吴恩达(Andrew Ng.)吴恩达的“二八定律”:深度学习应当从 Model-centric 向 Data-centric 转变向量数据库是提升模型服务能力的核心技术搜索增强的内容生成:RAGVector databaseQuestion?PromptNearest neighborsAnswerUser大模型崛起引领大数据新趋势在线离线一体化向量数据库与关系数
3、据库一体化数据处理与 AI 计算一体化趋势一:在线离线一体化问 题在线模型(策略)表现与离线不一致AppsDatabase(MySQL)Queue(Kafka)RealTime ETL(Flink,SPARK)OLTP(Hbase,KV,ES)ETL(Flink,Spark+HUDI)DataLake(MPPDB,HDFS)OLAP(Presto,CK)Analysts实时链路离线链路Online Model Update(PyTorch,TF)Model Serving(PyTorch,TF)Batch Training/Test(PyTorch,TF)数据不一致 模型效果不一致2-in-1
4、 Architecture:TP&AP 一体化HTAP 引擎(TP+AP)SQL优化器并行执行存储过程用于事务和分析工作负载的一份数据副本双计算引擎原生多租户架构Oracle 兼容性MySQL 兼容性与多租户高度兼容,实现资源隔离兼容 MySQL 和 Oracle单机分布式一体化架构分布式存储分布式事务分布式调度可以独立部署,也可以分布式部署架构创新Zhifeng Yang,Quanqing Xu,Shanyan Gao,Chuanhui Yang,Guoping Wang,Yuzhong Zhao,Fanyu Kong,Hao Liu,Wanhong Wang,Jinliang Xiao.O
5、ceanBase Paetica:A Hybrid Shared-nothing/Shared-everything Database for Supporting Single Machine and Distributed Cluster.PVLDB,16(12):3728-3740,2023.OceanBase:分布式 HTAP 数据库实时数据分析和决策对于企业来说非常重要:OceanBase 采用分布式架构,具有优异的 TP 性能,同时支持分析和批处理(AP)自动计划不断演变复杂查询优化水平可扩展性(数百亿条数据记录)和低延迟(秒)线性化实时 OLAP 处理能力同时处理TP和AP查询T
6、P&AP同一套引擎优化资源分配和流量控制的灵活策略,集群级别的并发控制混合负载Traditional processingHTAP processingStep 2 OLAP requestsOceanBaseclusterOLTP+OLAP requests Step 1 OLTP requestsTP&AP 同一套引擎HTAP+DBaaS:成本优化和简化维护成本优化,维护方便HTAP 引擎OLTP workloadOLTP systemOLAP systemOLAP workload图风控方案中的在线离线一体化:问题 分布式图数据库,支持自定义图查询语言 GQueryTuGraph DB