《《EB级数据湖与智能推荐:抖音集团基于Apache Hudi的Sample Center架构与实践》.pdf》由会员分享,可在线阅读,更多相关《《EB级数据湖与智能推荐:抖音集团基于Apache Hudi的Sample Center架构与实践》.pdf(31页珍藏版)》请在三个皮匠报告上搜索。
1、抖集团基于Apache Hudi 的SampleCenter架构与实践2025.03.29 北京快元中耿筱喻|抖集团数据湖存储技术专家、Apache Hudi Committer 姚翔抖集团推荐架构程师EB级训练样本数据流批湖2.LLM序列特征调研能落地实践3.BackFill 特征回溯过程优化4.超数据规模流式湖解决案1.5.数据湖读写加速策略6.数据湖异步服务管理与运维EB级训练样本数据流批湖解决案EB级训练数据存储架构与成本优化于kafka的hdfs dump数据文件,无表格式控制及平台化管理,数据冗余存储很大;hdfs dump存储传统hdfs dump都是整体dump写,没有sche
2、ma及对各列的更新能,对于些周期回兑需要法持;update能列选及schema裁剪EB级训练样本数据流批湖解决案EB级训练数据存储架构与成本优化HDFSSPARKFLINKBMQ样本拼接样本湖样本调研普通特征序列特征批式湖流式湖样本分析模型训练元数据管理样本缘样本质量运维监控今头条包抖推荐抖直播直播电商抖商城活服务EB级训练样本数据流批湖解决案EB级训练数据存储架构与成本优化HiveAppSortpredictTbase分流FlinkLake冷启表Lake样本表Lake调研表AppLogUserLogBatch TrainingStreaming Trainingbackfill冷启任务粗排样
3、本BMQ精排样本BMQ归因样本BMQ粗排模型样本BMQ精排模型样本BMQ湖FlinkWindowManger样本归因期价值写归因label写展现label写Feature级联/增样本Joiner户为BMQEB级训练样本数据流批湖解决案流批吞吐写多场景案落地流批导周期回兑样本调研BulkinsertUpsertBackfillpre sortlocal sortBloom IndexHbase Index并写BMS并写BMSEB级训练样本数据流批湖解决案SampleCenter样本全命周期管理平台EB级训练样本数据流批湖解决案SampleCenter样本全命周期管理平台平台覆盖率湖在抖、直播、直
4、播电商、中化电商、头条、活服务等业务覆盖率达90+%;存储优化35%45%全元数据元数据服务提升建表稳定性99+%,Schema Evolution提升schema的致性和任务稳定性,告警量下降50+%;550PB+缘提供样本特征、label指标分析看板,查询侧全量样本打通TQS查询,提供UDF注册等功能,提样本质量及debug功能;质量分析SQL化LLM序列特征调研能落地实践序列特征在模型迭代效率的瓶颈突破致性缺失周边系统不数据来源混乱案冗余LLM序列特征调研能落地实践UID维度动态分桶算法演进(V1.0V2.0)Lake序列底表数据序列特征产框架全量序列特征Joiner BMQBMQ Du
5、mpInsert+Bucket IndexUpsert+Bucket IndexLong Seq Bucket TableExample Bucket Tableds=20241009/00000001-0_*20241010045551.parquetds=20241010/00000001-0_*20241011045551.parquetds=20241011/00000001-0_*20241012045551.parquetds=20241009/hour=00/00000001-0_*20241009045551.parquetds=20241009/hour=00/0000000
6、1-0_20241009045551.log.7_6-1-23393ScheduleIOTrainingCheck TagExampleBucket TableLong Seq BucketTableSort Merge JoinSequence DealCompactionparseversionLLM序列特征调研能落地实践UID维度动态分桶算法演进(V1.0V2.0)案1:简单hash mod案案2:逻辑桶slot+物理分桶(正式案)案3:社区致性哈希分桶LLM序列特征调研能落地实践UID维度动态分桶算法演进(V1.0V2.0)案列设计开发复杂度件数