datafun2024-数据湖.pdf

编号:157194 PDF 18页 2.95MB 下载积分:VIP专享
下载报告请您先登录!

datafun2024-数据湖.pdf

1、DataFunDataFun#20242024OPPOOPPO数据湖加速大数据湖加速大模型训练模型训练分享人:陈哲嘉 OPPO-高级大数据平台工程师OPPOOPPO数据湖平台介绍数据湖平台介绍Glacier 自研湖仓引擎流批一体大模型任务加速大模型任务加速大模型任务接入数据平台Rust加速大模型任务技术规划技术规划目录目录 CONTENTCONTENTDataFunDataFun#202420240101OPPOOPPO数据湖平台介绍数据湖平台介绍OPPO大数据架构自研数据湖产品-Glacier 管理和优化开源数据湖表 秒级写入 索引增强 非结构化数据优化南天门DAM数据产品接入层LivyHi

2、veserverFlinkGateway计算引擎SparkHivePrestoFlink元数据HMS存储HDFSData FormaticebergCubeFSS3kafkaHudiPaimonGlacier数据入湖CDC入湖采集服务入湖高性能&可靠性客户端单表支持100+客户端同时提交数据秒级延迟 基于alluxio的流文件 低延迟的流式读取和数据分析 正确性保障元数据管理-GMS 元数据定时任务 生命周期管理 数据治理流批一体任务 SQL兼容 执行计划区分 流批一体维表DataFunDataFun#202420240202大模型任务加速大模型任务加速数据湖&大模型 平台化管理任务&数据 计

3、算提效,存储降本 Spark-ML库 资源调度 对接训练平台PySpark 7z数据入湖 内存优化(Pickler)并行度优化 长文本切分/压缩 Remote Shuffle在线建数据湖表并写入数据数据加速 分类数据索引 去重结果检索 缓存加速训练任务优化 MiniHash,Kmeans任务优化 全局精确去重实现 数据向量化(Rust改造)Tokenizer:Input:RDDOutput:RDDVector数据精确去重任务优化任务Rust化改造 提升效率 内存安全 环境简单 丰富的开源库Rust版本,内存效率更高Tokenizer开源Rust实现资源调度 跨集群任务调度 存储层打通 缓存加速训练DataFunDataFun#202420240303技术规划技术规划RoadMap1.自研缓存2.流批一体引擎3.机器学习/大模型场景扫码了解更多OPPO技术感谢观看感谢观看

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(datafun2024-数据湖.pdf)为本站 (stock) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠