当前位置:首页 > 报告详情

《EB级数据湖与智能推荐:抖音集团基于Apache Hudi的Sample Center架构与实践》.pdf

上传人: Fl****zo 编号:624464 2025-03-31 31页 9.20MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文介绍了抖音集团基于Apache Hudi的SampleCenter架构实践。主要内容包括:1)抖⾳集团推荐架构工程师姚翔分享抖⾳推荐、直播、直播电商、生活服务等业务在数据湖存储、样本全生命周期管理、流批式数据入湖等方面的实践;2)HDFS传统写入方式存在的问题,如数据冗余、无表格式控制等,以及Hudi Native读写加速策略的优势;3)BackFill特征回溯过程优化,包括流程设计、核心逻辑、实验结束后的上线方式等;4)LLM长序列特征调研能力落地实践,包括UID维度动态分桶算法演进、不同方案的比较和量化评估等。
"抖音集团如何利用Hudi优化数据湖存储?" "Hudi Native读写加速技术在抖音的应用场景有哪些?" "抖音集团如何实现数据湖的高效管理和运维?"
客服
商务合作
小程序
服务号
折叠