《EB级数据湖与智能推荐:抖音集团基于Apache Hudi的Sample Center架构与实践》.pdf

编号:624464 PDF 31页 9.20MB 下载积分:VIP专享
下载报告请您先登录!

《EB级数据湖与智能推荐:抖音集团基于Apache Hudi的Sample Center架构与实践》.pdf

1、抖集团基于Apache Hudi 的SampleCenter架构与实践2025.03.29 北京快元中耿筱喻|抖集团数据湖存储技术专家、Apache Hudi Committer 姚翔抖集团推荐架构程师EB级训练样本数据流批湖2.LLM序列特征调研能落地实践3.BackFill 特征回溯过程优化4.超数据规模流式湖解决案1.5.数据湖读写加速策略6.数据湖异步服务管理与运维EB级训练样本数据流批湖解决案EB级训练数据存储架构与成本优化于kafka的hdfs dump数据文件,无表格式控制及平台化管理,数据冗余存储很大;hdfs dump存储传统hdfs dump都是整体dump写,没有sche

2、ma及对各列的更新能,对于些周期回兑需要法持;update能列选及schema裁剪EB级训练样本数据流批湖解决案EB级训练数据存储架构与成本优化HDFSSPARKFLINKBMQ样本拼接样本湖样本调研普通特征序列特征批式湖流式湖样本分析模型训练元数据管理样本缘样本质量运维监控今头条包抖推荐抖直播直播电商抖商城活服务EB级训练样本数据流批湖解决案EB级训练数据存储架构与成本优化HiveAppSortpredictTbase分流FlinkLake冷启表Lake样本表Lake调研表AppLogUserLogBatch TrainingStreaming Trainingbackfill冷启任务粗排样

3、本BMQ精排样本BMQ归因样本BMQ粗排模型样本BMQ精排模型样本BMQ湖FlinkWindowManger样本归因期价值写归因label写展现label写Feature级联/增样本Joiner户为BMQEB级训练样本数据流批湖解决案流批吞吐写多场景案落地流批导周期回兑样本调研BulkinsertUpsertBackfillpre sortlocal sortBloom IndexHbase Index并写BMS并写BMSEB级训练样本数据流批湖解决案SampleCenter样本全命周期管理平台EB级训练样本数据流批湖解决案SampleCenter样本全命周期管理平台平台覆盖率湖在抖、直播、直

4、播电商、中化电商、头条、活服务等业务覆盖率达90+%;存储优化35%45%全元数据元数据服务提升建表稳定性99+%,Schema Evolution提升schema的致性和任务稳定性,告警量下降50+%;550PB+缘提供样本特征、label指标分析看板,查询侧全量样本打通TQS查询,提供UDF注册等功能,提样本质量及debug功能;质量分析SQL化LLM序列特征调研能落地实践序列特征在模型迭代效率的瓶颈突破致性缺失周边系统不数据来源混乱案冗余LLM序列特征调研能落地实践UID维度动态分桶算法演进(V1.0V2.0)Lake序列底表数据序列特征产框架全量序列特征Joiner BMQBMQ Du

5、mpInsert+Bucket IndexUpsert+Bucket IndexLong Seq Bucket TableExample Bucket Tableds=20241009/00000001-0_*20241010045551.parquetds=20241010/00000001-0_*20241011045551.parquetds=20241011/00000001-0_*20241012045551.parquetds=20241009/hour=00/00000001-0_*20241009045551.parquetds=20241009/hour=00/0000000

6、1-0_20241009045551.log.7_6-1-23393ScheduleIOTrainingCheck TagExampleBucket TableLong Seq BucketTableSort Merge JoinSequence DealCompactionparseversionLLM序列特征调研能落地实践UID维度动态分桶算法演进(V1.0V2.0)案1:简单hash mod案案2:逻辑桶slot+物理分桶(正式案)案3:社区致性哈希分桶LLM序列特征调研能落地实践UID维度动态分桶算法演进(V1.0V2.0)案列设计开发复杂度件数

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(《EB级数据湖与智能推荐:抖音集团基于Apache Hudi的Sample Center架构与实践》.pdf)为本站 (Flechazo) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠