《datafun2024-数据湖.pdf》由会员分享,可在线阅读,更多相关《datafun2024-数据湖.pdf(18页珍藏版)》请在三个皮匠报告上搜索。
1、DataFunDataFun#20242024OPPOOPPO数据湖加速大数据湖加速大模型训练模型训练分享人:陈哲嘉 OPPO-高级大数据平台工程师OPPOOPPO数据湖平台介绍数据湖平台介绍Glacier 自研湖仓引擎流批一体大模型任务加速大模型任务加速大模型任务接入数据平台Rust加速大模型任务技术规划技术规划目录目录 CONTENTCONTENTDataFunDataFun#202420240101OPPOOPPO数据湖平台介绍数据湖平台介绍OPPO大数据架构自研数据湖产品-Glacier 管理和优化开源数据湖表 秒级写入 索引增强 非结构化数据优化南天门DAM数据产品接入层LivyHi
2、veserverFlinkGateway计算引擎SparkHivePrestoFlink元数据HMS存储HDFSData FormaticebergCubeFSS3kafkaHudiPaimonGlacier数据入湖CDC入湖采集服务入湖高性能&可靠性客户端单表支持100+客户端同时提交数据秒级延迟 基于alluxio的流文件 低延迟的流式读取和数据分析 正确性保障元数据管理-GMS 元数据定时任务 生命周期管理 数据治理流批一体任务 SQL兼容 执行计划区分 流批一体维表DataFunDataFun#202420240202大模型任务加速大模型任务加速数据湖&大模型 平台化管理任务&数据 计
3、算提效,存储降本 Spark-ML库 资源调度 对接训练平台PySpark 7z数据入湖 内存优化(Pickler)并行度优化 长文本切分/压缩 Remote Shuffle在线建数据湖表并写入数据数据加速 分类数据索引 去重结果检索 缓存加速训练任务优化 MiniHash,Kmeans任务优化 全局精确去重实现 数据向量化(Rust改造)Tokenizer:Input:RDDOutput:RDDVector数据精确去重任务优化任务Rust化改造 提升效率 内存安全 环境简单 丰富的开源库Rust版本,内存效率更高Tokenizer开源Rust实现资源调度 跨集群任务调度 存储层打通 缓存加速训练DataFunDataFun#202420240303技术规划技术规划RoadMap1.自研缓存2.流批一体引擎3.机器学习/大模型场景扫码了解更多OPPO技术感谢观看感谢观看