DataFunSummit2023:数据湖架构峰会PPT合集(共24套打包)

DataFunSummit2023:数据湖架构峰会PPT合集(共24套打包)

更新时间:2023-04-12 报告数量:24份

报告合集目录

报告预览

  • 全部
    • DataFunSummit2023:数据湖架构峰会PPT合集
      • 基于Lakehouse架构实现湖内建仓实践经验.pdf
      • 湖仓存储系统设计剖析和性能优化(1).pdf
      • Iceberg 在湖仓建设的若干实践.pdf
      • Celeborn社区支持Flink最新进展.pdf
      • 字节基于HUDI的批流一体存储实践.pdf
      • 基于Hudi+Flink打造流式数据湖的落地实践.pdf
      • 高性能、云原生湖仓体存储架构探秘.pdf
      • Iceberg 高级特性与应用实践.pdf
      • B站基于Iceberg构建秒级响应湖仓一体平台的技术实践.pdf
      • 天穹SuperSQL如何应对数据湖场景中的复杂多维分析.pdf
      • 基于Apache Iceberg的湖原生数仓Arctic.pptx
      • 爱奇艺在 Iceberg 落地相关性能优化与实践(1).pdf
      • Hudi 数据湖在顺丰的应用实践.pdf
      • Blaze:SparkSQL Native算子优化在快手的设计与实践(1).pdf
      • 数据湖和湖仓一体产业观察(1).pdf
      • 华为云实时数据湖查询优化.pdf
      • 数据湖统一元数据和存储管理(1).pdf
      • Iceberg实时湖仓数据分析性能优化.pdf
      • 基于 Hudi Spark SQL 调度的近实时计算探索.pdf
      • Datafun-数据湖联邦分析特性揭秘 v.2.0 .pdf
      • StarRocks湖仓融合的四种范式.pdf
      • Delta Lake在BI+AI产品中的实践-final.pdf
      • Apache Celeborn和数据湖计算引擎云原生实践.pdf
      • Apache Hudi 核心技术新进展.pdf
请点击导航文件预览
资源包简介:

1、基于Lakehouse架构实现湖内建仓实践经验1背景与行业现状2基于Lakehouse湖内建仓参考架构目录3湖内建仓典型场景方案介绍4后续规划数据湖理解的几个误区Wikipeida的定义A data lake is a system or repository of data stored in its natural/raw format,usually object blobs or fil。

2、湖仓存储系统设计剖析和性能优化毕岩阿里云2023 湖仓系统核心设计性能优化湖仓系统阿里云EMR湖仓系统数据开发和治理数据湖存储数据湖计算计算层(弹性计算引擎)存储层(数据湖统一存储)开发层(数据开发与治理)数据开发数据治理数据集成任务调度Dataworks对象存储l标准型l低频型l归档型l深度归档文件存储E-MapReduceDatabricksDIMaxComputeHologresPAI开源。

3、Iceberg在湖仓使用中的若干探索李立伟 华为 资深工程师2023 整体概述应用探索整体概述使用传统的目录方案进行数据管理在传统方案,例如Hive中,表被定义为一个或多个目录的全部数据。组成表的数以目录级别进行跟踪,这些数据被存储在Hive元存储中完成。分区值通过目录路径定义:适用于几乎所有处理引擎,因为它是村里唯一的希望自从大数据被更广泛采用以来,一直是事实上的标准。存储格式无关分区级别原子。

4、Celeborn社区支持Flink最新进展熊佳树阿里云-数据湖构建与分析Outline架构及协议设计基本架构概念统一与设计01核心功能Shuffle生命周期管理网络/读写02性能与稳定性读写性能优化容错与流控设计03进展与未来展望开发进展未来规划0401-基本架构FlinkClientImplDriver ManagerReadClientHa MasterWorkerWorkerWorkerW。

5、字节跳动批流一体存储实践演讲人:耿筱喻火山引擎技术专家2023 背景与挑战设计方案落地场景未来规划背景与挑战传统数仓架构批流一体架构 批流一体 SQL 一套 SQL 同时流式执行用于实时构建及批式执行用于离线回溯 一套 SQL 同时支持数据构建与数据分析 批流一体存储 一份存储同时支持流式的增量读写以及批量读写 支持高效的 OLAP 查询 支持高效的维表 Join!#$%!#$%!#$%LAS(。

6、基于Hudi+Flink打造流式数据湖的落地实践演讲人:陈世治 bilibili 资深开发工程师 2023 背景与挑战典型场景案例基建与内核未来工作展望背景与挑战B站数仓当前架构与痛点痛点:批流双链路,不同的存储和计算组件,架构负担大,维护和资源成本高 实链路路可观测行差,离线链路时效不足,资源峰值效应明显 数据孤岛问题,在多组件间出入仓并流转,数据管理存在断层 查询效率低,不依赖OLAP组件服。

7、高性能、云原生湖仓一体存储架构探秘?Juicedata?2023目录湖仓一体存储架构的演进不同类型存储系统比较探索湖仓一体架构未来的存储选型湖仓一体架构在 JuiceFS 上的实践01湖仓一体存储架构的演进大数据存储系统的演进HDFS?云原、性能存储系统机房时代云计算时代HDFS 起源于 GFS(Google File System),2006 年正式发布 独元数据存储(NameNode),树形。

8、演讲题目演讲人:陈俊杰-腾讯-资深研发工程师Iceberg 最新高级特性介绍01Iceberg 高级特性解锁新场景0203高级特性在腾讯应用与实践04Q/A目录Iceberg 社区高级特性介绍Part 01Branch and TagNew Table APIcreateBranch(String name,long snapshotId);createTag(String name,long 。

9、B站基于Iceberg构建秒级响应湖仓一体平台的技术实践李锐哔哩哔哩资深开发工程师2023 背景查询加速智能优化现状背景Hive数仓的痛点 查询性能达不到交互式分析的要求 出仓链路复杂 数据冗余 时效性不好我们的目标互联互通查询高效使用便捷湖仓一体架构Iceberg onHDFSFlinkSparkSDKTrinoAlluxio实时ETL离线ETL实时ETL交互式分析Magnus数据优化Iceb。

10、天穹SuperSQL如何应对数据湖场景中的复杂多维分析演讲人:程广旭-腾讯TEG数据平台部2023 SuperSQL架构自适应计算引擎实时湖仓融合未来展望SuperSQL 技术架构介绍SuperSQL整体架构架构SuperSQL 目标目标l依托腾讯大数据生态,持续完善自适应计算能力,打造完整的大数据极速查询解决方案l实现三网合一的云原生化,减少大型复杂查询的等待痛点l持续探索技术先进性,构建高性。

11、,基于 Apache Iceberg 的湖原生数仓 Arctic,演讲人:周劲松网易平台开发专家,2023,什么是湖原生数仓,如何实现湖原生数仓,实践案例,总结与愿景,目录,什么是湖原生数仓,数据开发现状,传统数据湖架构,成本高昂数据冗余系统运维开销任务开发数据质量差数据延迟高口径不统一,湖原生数仓愿景,开源数据湖三剑客,Aimed for structured dataOperation tr。

12、爱奇艺在 Iceberg落地性能优化与实践演讲人:林豪-爱奇艺-助理研究员爱奇艺OLAP团队HDFS离线数据Pilot智能SQL引擎Kafka实时数据实时分析自助查询运营报表SparkSQL批处理/灵活查询分钟级延迟ClickHouse明细查询秒级延迟Iceberg近实时数据Trino灵活查询秒级延迟存储查询引擎应用为什么要数据湖01数据湖平台建设0203性能优化04业务落地目录为什么要数据湖数。

13、Hudi 数据湖在顺丰的应用实践演讲人:唐尚文-顺丰科技-数据湖技术负责人应用场景010203未来展望目录实践与优化数据湖在顺丰的应用Part 01顺丰集团业务概览快递物流快递快运同城即时配送国际冷链医药仓配一体增值服务供应链综合物流其他业务丰巢顺丰房托丰泰产业园顺丰数科更多.顺丰科技业务全景数据中台AI中台大数据平台顺丰云平台DevOps一站式研发平台智能运维平台信息安全运营平台数字化全流程管。

14、Blaze:SparkSQL Native算子优化在快手的设计与实践王磊|快手大数据SQL引擎负责人2023 What is Blaze Architecture and Implementation details Current Progress and Future WorkWhat is BlazeRoadmap of Engine Spark 1.0Volcano Model Spar。

15、数据湖和湖仓一体产业观察云计算与大数据研究所2023 数据湖和湖仓一体技术发展及现状介绍数据湖&湖仓一体产业观察信通院未来工作计划数据湖和湖仓一体技术发展及现状介绍我国大数据发展态势好动力足多年来,我国大数据高速发展,不断取得重要突破,发展态势良好。1.3万亿产业规模31%论文全球占比50%全球专利受理占比超18万家大数据市场主体超800亿元企业获投总金额近一年,我国在政策、人才、资金等。

16、华为云实时数据湖查询优化演讲人:孟涛华为高级工程师2023 华为云数据湖介绍Hudi 查询能力介绍华为云基于hudi的性能优化未来规划华为云数据湖介绍数据湖基础架构DGC流式计算FlinkSQL批处理SparkSQL批处理Spark交互式分析HetuEngine贴源层集市层汇总层postgresqlmysqloracle数据源CDMCDLHudihdfsobs数据入湖:历史存量数据通过CDM一次。

17、数据湖统一元数据和存储管理演讲人:范佚伦阿里云2023 云上数据湖架构数据湖统一元数据数据湖管理与存储优化数据湖格式管理与优化云上数据湖架构什么是数据湖A data lake is a system or repository of data stored in its natural/raw format,usually object blobs or files.A data lake is。

18、?|01?02?目录 CONTENT|03?04?01|?|?Merge On Read 简称,是一种行级更新技术,本质上是 out-of-place update,更新和删除不直接修改历史数据,而是单独记录数据变更,在读取的时候再合并历史数据和变更得到修改后的值。这种方式更新的时候代价较小,读取的时候代价较大?|?|?先把 Equality-delete 数据读入内存,按照equality-d。

19、基于 Hudi+Spark SQL+调度的近实时计算探索演讲人:苏承祥涂鸦智能数据平台开发2023 1.什么是近实时计算2.Spark SQL 如何对 Hudi 表进行增量读、快照读3.涂鸦智能在 Hudi+Spark SQL+调度 的近实时计算落地实践4.近实时计算中宽表建设5.未来展望什么是近实时计算涂鸦数据计算简介离线计算准实时计算实时计算报表展示即席查询数据服务模型训练腾讯云亚马逊微软云。

20、Apache Doris数据湖联邦分析特性揭秘陈明雨Apache Doris PMC Member2023 01 Apache Doris 数仓一体的思考02 Apache Doris 数据湖特性揭秘03 案例分享04 社区规划Apache Doris数仓一体的思考湖仓一体的思考数据库、数据仓库和数据湖 数据库:事务处理 数据仓库:数据分析、清洗后的高价值数据 数据湖:低成本海量数据存储、数据管。

21、StarRocks湖仓融合的四种范式演讲:赵恒StarRocksPMC 2023 CONTENTS录为什么需要湖仓融合湖仓融合的难点StarRocks湖仓融合的四种范式StarRocks 3.0 预览为什么需要湖仓融合01什么是数据湖什么是数据湖?云商:基于对象存储S3/OSS/COS构建的统存储互联公司:持Upsert,Time travel等级特性的存储(Iceberg/Hudi/Delta。

22、Delta Lake在BI+AI产品中的实践演讲人:李迪砺观远数据研发主管2023 观远数据分析产品简介Delta Lake的应用实践总结和展望观远数据分析产品简介公司介绍成立于2016年,总部位于杭州 愿景:让业务用起来 让决策更智能 客户:联合利华、LVMH、招商银行、安踏、华润集团、扬子江药业、元气森林、小红书、蜜雪冰城等500+行业领先客户,分布在零售、消费、金融、高科技、制造、互联网等。

23、Spark/Flink+Celeborn:更快,更稳,更弹性演讲人:一锤阿里云2023 背景性能稳定弹性背景传统Shuffle的问题传统Shuffle的缺陷 依赖大容量本地盘/云盘 IO放大 高网络连接 磁盘随机读 单副本限制 不够高效 不够稳定 不够弹性Apache Celeborn(Incubating)Celeborn:大数据引擎统一中间数据服务 引擎无关 Shuffle+Spilled 。

24、演讲人:玉兆/OneHouse 2023 Hudi101最新功能方向探索RoadMapHudi101基础介绍Hudi云原生数仓Hudi类DB事务层Hudi云原生架构Hudi新特性-Change Data Capture-Lockless Multi-writerDynamic TableFlink Terminology for Change StreamChangelog ModePersis。

展开阅读全文
客服
商务合作
小程序
服务号
折叠