《琚克俭-AICon深圳2025-Daft-面向AI的多模数据湖计算引擎.pdf》由会员分享,可在线阅读,更多相关《琚克俭-AICon深圳2025-Daft-面向AI的多模数据湖计算引擎.pdf(32页珍藏版)》请在三个皮匠报告上搜索。
1、演讲人:琚克俭010203040506AI带来的数据湖变革Daft多模计算定位Daft核心场景Daft+Lance数据湖新范式Daft大规模数据处理实践未来展望01AI带来的数据湖变革 Database-Dataset Table/View-Volume/Model/Function ChatBI/Agent/智驾/基模/具身/.大模型发展迅速,数据处理领域快速从纯文本场景扩展到了文本、图片以及音视频等联合的多模态场景,多模态数据管理相比原有的仅文本处理也有了新的技术挑战。02Daft多模计算定位多模与结构化统一CPU与GPU异构统一DaftFrame与SQL统一预处理+推理+训练统一单机与分
2、布式统一框架概览03Daft核心场景CPU+GPU异构基于Ray的流式计算少参数并发控制Iterator数据输出图文混排示例自定义binary文件文本+图片+音视频Embedding/TensorArrow扩展类型LLM推理无限扩展预处理集群,打破gpu训练机型的限制Daft作为内存缓冲器,预处理数据从S3/PFS上预加载到内存中Train Resume.练中断按照Daft保存的Step状态处恢复Rust减少GIL锁问题04Daft+Lance数据湖新范式大小列统一存储Zero-Cost Data Evolution透明编码高性能随机点查文件与结构化列统一存储Url延迟Download?图片/
3、视频是存S3文件还是存lance列多模对象的KV方式访问AI领域的湖计算和湖存储05Daft大规模数据处理实践TOS清洗后的数据sensor collabel col客户原先架构火山引擎新方案架构数据预处理+推理标注Argo 调度平台资源隔离Data 解包Data 清洗Data自动化标注持久化CPU 节点池GPU 推理节点池TOS清洗后的数据sensor.Imdblabel.Imdbindex.json车端数据采集TOS终端采集数据sensor.tarlabel.tar车机端数据车机端数据车机端数据数据挖掘&管理关键帧筛选文本提取标签增加数据集新建数据集合并数据集预热手工管理数据集处理血缘(C
4、SV)CPU 节点池CPU 节点池模型训练训练平台数据 Shuffle数据 Dataloader识别训练规控训练vePFS预热数据集sensor.mdblabel.Imdbindex.jsonGPU 训练节点池车端数据采集TOS终端采集数据sensor.tarlabel.tar车机端数据车机端数据车机端数据数据预处理+推理标注混合资源池Data 解包Data 清洗Data自动化标注Shared MemCPU 节点池GPU 推理节点池数据挖掘&管理关键帧筛选文本提取标签增加数据集新建数据集合并数据集预热AI 数据湖 LAS 平台AI 数据湖管理CPU 节点池CPU 节点池数据集入湖数据集管理数据
5、探查数据血缘数据分层模型训练训练平台Lance ShuffleDaft on Ray Remote Dataloader识别训练规控训练GPU 训练节点池vePFS预热数据集Lancesensor collabel col场景痛点升级收益升级收益客户原先架构火山引擎新方案架构数据预处理+推理标注Python解压图片打分再次打包webdataset互联网数据采集模型训练训练平台基模训练Finetune训练文生图训练强化学习训练图文混排数据集TARdoclabelimageIDC 存储GPU训练节点池文本图片音频视频PythonIDC 存储row_idImage图片数据集WebdatasetIDC
6、 存储LabelText文本数据集ParquetSpark解压md解析段落聚合去重IDC Python 节点IDC Spark 节点多模态混排关联处理WebdatasetShuffleJoinParquetdocid 1image(Binary)docid 1image(Binary)docid 1image(Binary)docid 2image(Binary)docid 1Text(str)docid 2Text(str)docid1docid 2Text(str)Text(str)image(Binary)i