琚克俭-AICon深圳2025-Daft-面向AI的多模数据湖计算引擎.pdf

编号:890156 PDF 32页 6.04MB 下载积分:VIP专享
下载报告请您先登录!

琚克俭-AICon深圳2025-Daft-面向AI的多模数据湖计算引擎.pdf

1、演讲人:琚克俭010203040506AI带来的数据湖变革Daft多模计算定位Daft核心场景Daft+Lance数据湖新范式Daft大规模数据处理实践未来展望01AI带来的数据湖变革 Database-Dataset Table/View-Volume/Model/Function ChatBI/Agent/智驾/基模/具身/.大模型发展迅速,数据处理领域快速从纯文本场景扩展到了文本、图片以及音视频等联合的多模态场景,多模态数据管理相比原有的仅文本处理也有了新的技术挑战。02Daft多模计算定位多模与结构化统一CPU与GPU异构统一DaftFrame与SQL统一预处理+推理+训练统一单机与分

2、布式统一框架概览03Daft核心场景CPU+GPU异构基于Ray的流式计算少参数并发控制Iterator数据输出图文混排示例自定义binary文件文本+图片+音视频Embedding/TensorArrow扩展类型LLM推理无限扩展预处理集群,打破gpu训练机型的限制Daft作为内存缓冲器,预处理数据从S3/PFS上预加载到内存中Train Resume.练中断按照Daft保存的Step状态处恢复Rust减少GIL锁问题04Daft+Lance数据湖新范式大小列统一存储Zero-Cost Data Evolution透明编码高性能随机点查文件与结构化列统一存储Url延迟Download?图片/

3、视频是存S3文件还是存lance列多模对象的KV方式访问AI领域的湖计算和湖存储05Daft大规模数据处理实践TOS清洗后的数据sensor collabel col客户原先架构火山引擎新方案架构数据预处理+推理标注Argo 调度平台资源隔离Data 解包Data 清洗Data自动化标注持久化CPU 节点池GPU 推理节点池TOS清洗后的数据sensor.Imdblabel.Imdbindex.json车端数据采集TOS终端采集数据sensor.tarlabel.tar车机端数据车机端数据车机端数据数据挖掘&管理关键帧筛选文本提取标签增加数据集新建数据集合并数据集预热手工管理数据集处理血缘(C

4、SV)CPU 节点池CPU 节点池模型训练训练平台数据 Shuffle数据 Dataloader识别训练规控训练vePFS预热数据集sensor.mdblabel.Imdbindex.jsonGPU 训练节点池车端数据采集TOS终端采集数据sensor.tarlabel.tar车机端数据车机端数据车机端数据数据预处理+推理标注混合资源池Data 解包Data 清洗Data自动化标注Shared MemCPU 节点池GPU 推理节点池数据挖掘&管理关键帧筛选文本提取标签增加数据集新建数据集合并数据集预热AI 数据湖 LAS 平台AI 数据湖管理CPU 节点池CPU 节点池数据集入湖数据集管理数据

5、探查数据血缘数据分层模型训练训练平台Lance ShuffleDaft on Ray Remote Dataloader识别训练规控训练GPU 训练节点池vePFS预热数据集Lancesensor collabel col场景痛点升级收益升级收益客户原先架构火山引擎新方案架构数据预处理+推理标注Python解压图片打分再次打包webdataset互联网数据采集模型训练训练平台基模训练Finetune训练文生图训练强化学习训练图文混排数据集TARdoclabelimageIDC 存储GPU训练节点池文本图片音频视频PythonIDC 存储row_idImage图片数据集WebdatasetIDC

6、 存储LabelText文本数据集ParquetSpark解压md解析段落聚合去重IDC Python 节点IDC Spark 节点多模态混排关联处理WebdatasetShuffleJoinParquetdocid 1image(Binary)docid 1image(Binary)docid 1image(Binary)docid 2image(Binary)docid 1Text(str)docid 2Text(str)docid1docid 2Text(str)Text(str)image(Binary)i

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(琚克俭-AICon深圳2025-Daft-面向AI的多模数据湖计算引擎.pdf)为本站 (brown) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠