当前位置:首页 > 报告详情

AI时代的数据处理技术_陈文光.pdf

上传人: 张** 编号:166370 2024-06-16 23页 2.54MB

1、AI 时代的数据处理技术陈文光清华大学/蚂蚁技术研究院大数据:数据量,数据生成的速度和多模态数据量(Volume)和数据生成速度(Velocity)图片,文档,图,时序,交易物联网、边缘设备和用户行为产生大量数据多模态数据(Variety)(in zettabytes)Volume of data/information created,captured,copied,and consumed worldwide from 2010 to 2025 Statista 2021 https:/ https:/ 5 GBGPT-22019年215亿40 GBGPT-32020年51750亿45 T

2、BGPT-3.5(ChatGPT)2022年11千亿级百 TB 级?GPT-42023年3万亿级(估)未披露大模型需要大数据如何获得更多数据?如何提升数据质量?如何高效处理海量数据?80%Data20%Model+=Better AI吴恩达(Andrew Ng.)吴恩达的“二八定律”:深度学习应当从 Model-centric 向 Data-centric 转变向量数据库是提升模型服务能力的核心技术搜索增强的内容生成:RAGVector databaseQuestion?PromptNearest neighborsAnswerUser大模型崛起引领大数据新趋势在线离线一体化向量数据库与关系数

3、据库一体化数据处理与 AI 计算一体化趋势一:在线离线一体化问 题在线模型(策略)表现与离线不一致AppsDatabase(MySQL)Queue(Kafka)RealTime ETL(Flink,SPARK)OLTP(Hbase,KV,ES)ETL(Flink,Spark+HUDI)DataLake(MPPDB,HDFS)OLAP(Presto,CK)Analysts实时链路离线链路Online Model Update(PyTorch,TF)Model Serving(PyTorch,TF)Batch Training/Test(PyTorch,TF)数据不一致 模型效果不一致2-in-1

4、 Architecture:TP&AP 一体化HTAP 引擎(TP+AP)SQL优化器并行执行存储过程用于事务和分析工作负载的一份数据副本双计算引擎原生多租户架构Oracle 兼容性MySQL 兼容性与多租户高度兼容,实现资源隔离兼容 MySQL 和 Oracle单机分布式一体化架构分布式存储分布式事务分布式调度可以独立部署,也可以分布式部署架构创新Zhifeng Yang,Quanqing Xu,Shanyan Gao,Chuanhui Yang,Guoping Wang,Yuzhong Zhao,Fanyu Kong,Hao Liu,Wanhong Wang,Jinliang Xiao.O

5、ceanBase Paetica:A Hybrid Shared-nothing/Shared-everything Database for Supporting Single Machine and Distributed Cluster.PVLDB,16(12):3728-3740,2023.OceanBase:分布式 HTAP 数据库实时数据分析和决策对于企业来说非常重要:OceanBase 采用分布式架构,具有优异的 TP 性能,同时支持分析和批处理(AP)自动计划不断演变复杂查询优化水平可扩展性(数百亿条数据记录)和低延迟(秒)线性化实时 OLAP 处理能力同时处理TP和AP查询T

6、P&AP同一套引擎优化资源分配和流量控制的灵活策略,集群级别的并发控制混合负载Traditional processingHTAP processingStep 2 OLAP requestsOceanBaseclusterOLTP+OLAP requests Step 1 OLTP requestsTP&AP 同一套引擎HTAP+DBaaS:成本优化和简化维护成本优化,维护方便HTAP 引擎OLTP workloadOLTP systemOLAP systemOLAP workload图风控方案中的在线离线一体化:问题 分布式图数据库,支持自定义图查询语言 GQueryTuGraph DB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要探讨了AI时代的数据处理技术,由陈文光教授和蚂蚁技术研究院发表。文章指出,随着数据量的激增和数据生成速度的加快,大数据的处理和分析变得尤为重要。数据处理的深度也在不断增加,这对数据质量和处理效率提出了更高的要求。文章提到了GPT系列模型的快速发展,强调了大数据对于训练高质量AI模型的重要性。同时,文章也提到了数据处理与AI计算的一体化趋势,包括在线离线一体化、向量数据库与关系数据库一体化以及数据处理与AI计算的硬件融合。最后,文章提出了建设加速器支持与弹性任务调度的数据处理生态,以适应AI成为主要计算形式的趋势。
"大数据时代的挑战与机遇" "如何实现数据处理与AI计算的一体化?" 引领大数据新趋势的秘密武器?"
客服
商务合作
小程序
服务号
折叠