AI时代的数据处理技术_陈文光.pdf

编号:166370 PDF 23页 2.54MB 下载积分:VIP专享
下载报告请您先登录!

AI时代的数据处理技术_陈文光.pdf

1、AI 时代的数据处理技术陈文光清华大学/蚂蚁技术研究院大数据:数据量,数据生成的速度和多模态数据量(Volume)和数据生成速度(Velocity)图片,文档,图,时序,交易物联网、边缘设备和用户行为产生大量数据多模态数据(Variety)(in zettabytes)Volume of data/information created,captured,copied,and consumed worldwide from 2010 to 2025 Statista 2021 https:/ https:/ 5 GBGPT-22019年215亿40 GBGPT-32020年51750亿45 T

2、BGPT-3.5(ChatGPT)2022年11千亿级百 TB 级?GPT-42023年3万亿级(估)未披露大模型需要大数据如何获得更多数据?如何提升数据质量?如何高效处理海量数据?80%Data20%Model+=Better AI吴恩达(Andrew Ng.)吴恩达的“二八定律”:深度学习应当从 Model-centric 向 Data-centric 转变向量数据库是提升模型服务能力的核心技术搜索增强的内容生成:RAGVector databaseQuestion?PromptNearest neighborsAnswerUser大模型崛起引领大数据新趋势在线离线一体化向量数据库与关系数

3、据库一体化数据处理与 AI 计算一体化趋势一:在线离线一体化问 题在线模型(策略)表现与离线不一致AppsDatabase(MySQL)Queue(Kafka)RealTime ETL(Flink,SPARK)OLTP(Hbase,KV,ES)ETL(Flink,Spark+HUDI)DataLake(MPPDB,HDFS)OLAP(Presto,CK)Analysts实时链路离线链路Online Model Update(PyTorch,TF)Model Serving(PyTorch,TF)Batch Training/Test(PyTorch,TF)数据不一致 模型效果不一致2-in-1

4、 Architecture:TP&AP 一体化HTAP 引擎(TP+AP)SQL优化器并行执行存储过程用于事务和分析工作负载的一份数据副本双计算引擎原生多租户架构Oracle 兼容性MySQL 兼容性与多租户高度兼容,实现资源隔离兼容 MySQL 和 Oracle单机分布式一体化架构分布式存储分布式事务分布式调度可以独立部署,也可以分布式部署架构创新Zhifeng Yang,Quanqing Xu,Shanyan Gao,Chuanhui Yang,Guoping Wang,Yuzhong Zhao,Fanyu Kong,Hao Liu,Wanhong Wang,Jinliang Xiao.O

5、ceanBase Paetica:A Hybrid Shared-nothing/Shared-everything Database for Supporting Single Machine and Distributed Cluster.PVLDB,16(12):3728-3740,2023.OceanBase:分布式 HTAP 数据库实时数据分析和决策对于企业来说非常重要:OceanBase 采用分布式架构,具有优异的 TP 性能,同时支持分析和批处理(AP)自动计划不断演变复杂查询优化水平可扩展性(数百亿条数据记录)和低延迟(秒)线性化实时 OLAP 处理能力同时处理TP和AP查询T

6、P&AP同一套引擎优化资源分配和流量控制的灵活策略,集群级别的并发控制混合负载Traditional processingHTAP processingStep 2 OLAP requestsOceanBaseclusterOLTP+OLAP requests Step 1 OLTP requestsTP&AP 同一套引擎HTAP+DBaaS:成本优化和简化维护成本优化,维护方便HTAP 引擎OLTP workloadOLTP systemOLAP systemOLAP workload图风控方案中的在线离线一体化:问题 分布式图数据库,支持自定义图查询语言 GQueryTuGraph DB

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(AI时代的数据处理技术_陈文光.pdf)为本站 (张5G) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠