《数据湖技术IceBerg如何解决腾讯看点业务痛点v5.pdf》由会员分享,可在线阅读,更多相关《数据湖技术IceBerg如何解决腾讯看点业务痛点v5.pdf(24页珍藏版)》请在三个皮匠报告上搜索。
1、协办 直播持 腾 讯 数 据 技 术 系 列 沙 第 3 期 新一代数据湖技术新一代数据湖技术 演讲嘉宾 王展雄 数据湖技术Iceberg 如何解决腾讯看点业务痛点 数据湖技术概述 3 1 腾讯看点万亿数据下的业务痛点2 Iceberg在看点实践3 Iceberg读写和删除4 数据湖技术概述 4 1 5 数据湖技术概述 1 数据湖简介: 主要思想:对所有数据统一存储,通过计算能够生成符合要求的各种数据。 物理实现:数据存储平台。 实现方式:通常基于Hadoop生态,但不仅限于Hadoop。 粗暴理解:数据仓库Hive 6 数据湖技术概述 1 Hive on MR 数据湖技术的发展及问题: 计算
2、引擎发展: 存储格式发展: Spark、Presto、Impala Text、RCFileORCFile、Parquet 存在问题:数据读写没有ACID保证 数据没有版本控制 无法高效Update/Delete 分区管理不灵活 7 数据湖技术概述 1 新一代数据湖技术: 开源方案:Delta、Hudi、Iceberg Hive on MR、Spark、Presto、Impala Text、RCFile、ORCFile、Parquet Delta Lake、Hudi、Iceberg 计算引擎: 存储引擎: Table Format: 8 数据湖技术概述 1 腾讯新一代数据湖技术方案:Iceber
3、g Iceberg优势: 1、更开放的框架,既独立于上层计算引擎又独立于下层存储 2、接口抽象程度高,兼容性好,迁移成本低 3、对各种引擎提供针对性的优化 腾讯看点万亿数据下的业务痛点 9 2 10 2 腾讯看点万亿数据下的业务痛点 腾讯信息流内容服务-腾讯看点 QQ浏览器看点:集结热门资讯、本地新闻、免费小说海量资讯等,带来更轻更快阅读体验。 腾讯QQ看点:为年轻用户提供丰富的内容社交服务,实现聊天交友和新闻资讯无缝切换。 微信腾讯看点小程序:涵盖图文、短视频、栏目等多种形式。 看点直播:信息流直播小程序,除互动外还支持购物车、直播带货等一系列营销功能。 看点快报:网络全网热点资讯,第一时间尽览天下事。 看点视频:专注 1-3 分钟 PGC 横版短视频,特色栏目订阅模式 + 大数据精准推荐。 11 2 腾讯看点万亿数据下的业务痛点 信息流场景下数据仓库内容主要来源: 内容加工审核链路数据