1、StarRocks在360的应用实践秦梦娜 资深研发工程师|01背景背景02多场景应用探索多场景应用探索03主要应用场景主要应用场景04总结展望总结展望目录目录CONTENT|背景01|DruidHiveSparkMysql支持 PB 级数据、大数据量能够秒级查询,支持读写分离;真正做到数据摄入实时、查询结果实时;完善的SQL支持,极低的学习成本,自定义数据格式,极高的扩展性可轻松扩展到几千个节。
2、基于数据湖技术的近实时场景实践马汶园 抖音电商实时数仓 大数据工程师01数据湖技术特性02近实时技术架构03电商数仓实践04未来挑战与规划目录 CONTENT数据湖技术特性01Hudi 的基本特性Hudi不是 数据湖的一种存储,或Table Format。而是提供了Streaming 流式原语的、具备数据库、数据仓库核心功能(高效upsert/deletes、索引、压缩优化)的数据湖平台。Hud。
3、多维分析平台在37手游的技术演进闫 铁|0137手游业务背景手游业务背景0237手游多维分析手游多维分析实践实践0304多维分析平台服务保障多维分析平台服务保障目录目录CONTENT|多维分析技术产品化与多维分析技术产品化与业务化业务化37手游业务背景01|37手游简介|37手游数据分析场景特点|37手游多维分析实践02|OLAP在37手游的演进|2019202020212022ImpalaAD。
4、货拉拉基于DORIS的OLAP体系演进及建设方法杨秋吉 大数据引擎负责人张斌 大数据工程师|0101背景介绍背景介绍0303OLAP体系演进(下)体系演进(下)0202OLAP体系演进(上)体系演进(上)0404总结思考与后续规划总结思考与后续规划目录目录 CONTENT|背景介绍01|货拉拉介绍货拉拉介绍|352352国内城市5858万万月活司机760760万万月活用户3+3+IDC1000+。
5、SPARK读写ICEBERG在腾讯的实践和优化刘献杨 腾讯 高级工程师|01Apache Iceberg 介绍介绍02Spark读写读写Iceberg03Iceberg 生产实践生产实践04数据治理服务数据治理服务目录目录CONTENT|ApacheIceberg介绍01|Apache Iceberg 表格式(Table Format)|Iceberg table format that is 。
6、基于宽表建模的自助分析平台马皓百度资深研发工程师目录CONTENTS 01业务背景02面临的问题03宽表建设04自助可视化平台01 业务背景日志数仓分层ADST+1查询报表DWSDWDODS主要基于维度建模查询性能大部分报表和查询使用上层小表,提升查询性能传统数据业务:采用经典数仓架构,重点支持BI分析生产成本逐级生产数仓表,建模难度低,代码易于理解维护成本运维工具成熟,自助化运维主要面向数据研。
7、DataTalk-DataTalk-开放的通开放的通用用BIBI可视化平台可视化平台金家兴 腾讯大数据平台部应用开发负责人|个人介绍|金家兴,超过十年的开发经验,折腾过后端、现在主要在前端领域之前在百度进行LBS方向的toC的研发目前在腾讯主要负责大数据相关的应用开发和架构设计等工作0101DataTalk的诞生的诞生DataTalk平台的的背景介绍 0202架构设计架构设计产品核心能力和技术架。
8、探索构建商业地产多维分析王贤才01精细化运营精细化运营02多业态运营多业态运营03差异化运营差异化运营04数据运营整体架构数据运营整体架构目录目录 CONTENT商业地产精细化运营01分析模型数据域模型货值模型回款专题签约专题运营高效率专题成本模型运营活动专题xx专题项目(资产)产品合约账务营销活动客户合作伙伴组织渠道订单/交易公共xx专题指标体系-经营指标-运营指标X1板块指标数据应用(产品)。
9、KYLIGENCE CLOUD云上数据湖分析的竞争优势分析马洪宾 技术合伙人、首席布道师|技术撑竞争优势业务问题About KyligenceFounded in 2016 by creators of Apache KylinLeading Open Source OLAP for Big Data1500+Global Open-source AdoptionsSuccess Enterpr。
10、|多维分析怀谦在云音乐社交创新业务的应用资深数据开发工程师APPLICATION OF MULTIDIMENSIONAL ANALYSIS IN NETEASE CLOUDMUSIC SOCIAL INNOVATION BUSINESS2022/06/11|目录目录 CONTENT业务背景介绍业务背景介绍01自助多维分析意义自助多维分析意义03多维分析应用场景多维分析应用场景02多维分析的数据底。
11、!#$%&(!#$%&()*+,(-./)*+,(-./0123456701234567!Email:#$%&()*+,-./01234567258395:https:/ VIS Design Process0202/0123456/0123456Multi-dimensional Ranking and Projection0303789:%;789:%;Warehou。
12、B B站基于缓存优化站基于缓存优化PRESTOPRESTO集群查询性能集群查询性能杨洋 大数据开发工程师|个人简介|杨洋杨洋bilibili大数据开发工程师2021年6月份加入b站工作至今在团队中主要负责Presto与Alluxio的研发对分布式计算、存储与调度方面有浓厚兴趣0101集群架构集群架构0202Presto简介简介0404Presto on Alluxio0606后续工作后续工作目录。
13、网易ARCTIC基 于 A PA C H E I C E B E R G 构 建 的 实时 湖 仓 一 体 系 统张永翔网易数帆 资深大数据平台开发|01业务当前的挑战Lambda 架构下流与批割裂带来的问题02基于 iceberg 构建的湖仓一体系统03业务实践Arctic 在网易内外的实践04未来规划目录 CONTENT|网易Arctic业务当前的挑战Lambda 架构下流与批割裂带来的问题。
14、流批一体的实时多维分析流批一体的实时多维分析郑德来 百度资深研发工程师0101大数据架构演进大数据架构演进0202流批一体方案流批一体方案0303关键问题突破关键问题突破0404总结和规划总结和规划目录目录 CONTENT大数据架构演进01经典离线数仓架构介绍ODSDWDDWSADS操作数据层(Operational Data Store),存储基础数据,做简单数据清洗明细数据层(Data Wa。
15、字节基于DORIS的数据湖仓探索杜军令 字节跳动数据平台大数据工程师01当前的湖仓一体实践03基于基于Doris的解决方案的解决方案02存在的问题与挑战存在的问题与挑战04未来规划未来规划目录目录CONTENT字节当前的湖仓一体实践01当前的湖仓实践业务线较多,实践的数据模型也比较多纯数据仓库Lambda,Kappa架构湖上建仓当前的湖仓实践典型Lambda架构两套代码,两套架构当前的湖仓实践典。
16、百信银行用户标签建设与应用 王明军|01 百信银行介绍百信银行介绍 02 用户标签建设方案用户标签建设方案 目录目录 CONTENT|03 用户标签在百信应用用户标签在百信应用 百信银行介绍 01|百信银行 首家国有控股的互联网直销银行|百信银行,全称为“中信百信银行股份有限公司”,是由国务院特批,银保监会主导成立的全国首家独立法人直销银行,也是首家国有控股的互联网银行。依托智能科技,链接场景生。
17、ClickHouse向量化执行与Pipeline设计冯吕 ClickHouse社区贡献者About Me ClickHouse Top 50 Contributor,100+merged PRs https:/ MS student at Institute of Computing Technology,CAS Internship at Tencent WeChat Working on C。
18、腾讯灯塔融合分析引擎设计与实践冯国敬 后台开发工程师|!背景介绍腾讯灯塔、融合分析引擎!#挑战与融合分析引擎的解法!$实践总结!%未来演进方向目录 CONTENT|融合、内核优化、加速背景介绍腾讯灯塔、融合分析引擎!|帮助产品、研发、运营和数据科学团队30分钟内:做出更可信及时的决策,促进用户增长和留存。腾讯灯塔介绍|海量、实时、自定义三角难题三者兼顾需满足条件|腾讯灯塔-融合分析引擎介绍|!#。
19、王星 同程数科 大数据高级工程师|Apache DorisApache Doris在同程数科数仓建设中的实践在同程数科数仓建设中的实践0101目录目录CONTENT|业务场景业务场景架构演变架构演变收益现状收益现状未来展望未来展望030302020404 业务场景01|业务场景-企业介绍|同程数科同程数科 同程集团旗下的旅游产业金融科技服务平台。前身为同程金服,成立于2015年11月。愿景是,以。
20、SPARK ON K8S在阿里云上的实践范佚伦(子灼),阿里云 开源大数据部技术专家|01Spark on K8s介绍介绍02Spark on K8s在阿里云在阿里云EMR的优化和最佳实践的优化和最佳实践目录目录CONTENT|Spark on k8s介绍部署架构社区进展重点特性01|Spark的集群部署模式|Hadoop YARN生产环境里最常用的部署方式源于Hadoop,具有良好的社区生态S。
21、基于基于EMR OLAP的开源实时数仓解的开源实时数仓解决方案之决方案之ClickHouse事务实现事务实现吴雪扬高级开发工程师|01现状现状02整体方案整体方案03测试结果测试结果04Sharding Key优化优化目录目录CONTENT|05未来规划未来规划现状01|为什么需要 ClickHouse 写事务|许多用户通过 Flink+ClickHouse 构建“用户画像”、“实时 BI 报表。
22、Flink Table Store v0.2应用场景和核心功能李劲松 阿里巴巴 应应用用场场景景 核心功能 未来展望 项目信息目目录录DFS/Cloud Storage01010101010101Lake Store:Manifest-LSM FilesFlink Streaming InsertFlink Batch InsertLog System(Kafka)Flink Table Sto。
23、BI平台在的实践翁晓萍 级产品经理|01的BI平台发展演变03BI平台前的产品架构02BI平台建设的探索和实践04未来规划和演进向录 CONTENT|的BI平台发展演变01|的BI平台发展演变|集团内以各个业务的主题式BI建设为主 整合多维分析产品,打点统计、户为分析、BI可视化等 深度集成采集和集团数仓能 汇集集团量的看板可视化需求 强移动化,和IM强集成 重点打造管驾驶舱场景 重塑底层架构和。
24、基于 DORIS 的知乎DMP 系统的架构与实践侯容 知乎用户理解&数据赋能研发 Leader|01背景背景DMP 业务DMP 业务流程DMP 画像特征DMP 功能梳理02架构与实现架构与实现DMP 架构DMP 平台功能盘点 业务向DMP 平台功能盘点 基础向特征数据链路及存储人群定向流程03难点及解决方案难点及解决方案人群定向性能优化-第一阶段人群定向性能优化-第二阶段04未来展望未来。
25、字节数据湖平台在实时数仓中的实践张友军 字节跳动数据平台数据程师01实时数仓场景介绍02数据湖在实时数仓场景初探03数据湖在实时数仓典型场景实践04未来规划录 CONTENT实时数仓场景介绍01实时数仓场景介绍实时数仓场景介绍实时数仓场景初探02数据湖在实时数仓场景初探场景探索是否可以解决实际痛点问题?是否可以稳定持线上业务?数据湖优势相对离线数仓:时效性+效更新相对实时数仓:份存储批流两,效数。
26、翼支付大数据BI分析平台建设实践演讲人:吴晓兵、唐晔2翼支付在金融大数据分析的应用翼支付在金融大数据分析的应用翼支付大数据翼支付大数据 BI 分析平台架构分析平台架构一一二二OLAP引擎技术引擎技术实践实践三三未来规划未来规划四四3业务场景业务场景 业务场景 数据探查 数据可视化 实时数据快速查询 离线数据快速查询 存在问题:烟囱式架构 查询性能及稳定性差 自助式数据获取门槛过高 数据权限管控混。
27、StarRocks构建实时数仓的新探索2022-03-24 王天宜|StarRocks 实时数仓户案例录|01020304实时数仓经典架构与特点StarRocks 实时数仓产品定位StarRocks 实时数仓建模式实时数仓经典架构与特点|实时数仓 1.0-Storm 架构SpoutBoltBoltBoltSpouttuplestuplestuplestuples|实时数仓 2.0-Lambda&。
28、数据湖ICEBERG在小米的落地与实践小米-李培殿|目录目录CONTENT|01Iceberg 技术简介02Iceberg在小米的应用实践03基于 Iceberg 的流批一体的探索04未来规划Iceberg技术简介01|Iceberg 简介|Apache Iceberg is an open table format for huge analytic datasets.Iceberg adds。
29、|StarRocks的实时更新StarRocks的实时更新常冰琳|Outline Real-time update use cases Common approaches Updates in StarRocks Ongoing&future works|实时更新需求01|Why?Traditional OLAPT+1 batch ETL,high latencyIncremental 。
30、基于历史查询的IMPALA集群性能优化实践温正湖 网易数帆-数仓技术负责人|01高性能数仓建设高性能数仓建设介绍网易大数据及高性能数仓建设方案03HBO优化实践优化实践介绍HBO在网易云音乐等业务场景使用实践02HBO实现方案实现方案介绍管理服务器实现和基于历史查询的集群优化04未来发展计划未来发展计划介绍未来一段时间Impala和产品化的开发计划目录目录 CONTENT|关于网易数帆 网易数帆。
31、刘成彬 资深大数据开发|StarRocks在游族的多维分析场景01历史背景历史背景02StarRocks优势优势03应用场景应用场景04未来规划未来规划目录目录 CONTENT|历史背景01|历史背景|痛点1.维护多套组件,运维成本高2.各组件SQL语法存在差异,开发维护任务成本高3.同指标数据下,需要保证不同组件计算的结果与口径都一致的成本比较高4.结果数据比较大时,MySQL性能比较差诉求|。
32、多维分析在云产品计量计费场景中的应用李丛|01云产品计量计费介绍云产品计量计费介绍02多维分析应用多维分析应用03相关问题解决方案相关问题解决方案04后续系统迭代演进后续系统迭代演进目录目录CONTENT|云产品计费计量介绍01|计量计费模型-计费模型#1|打折用户采购数据询价支付发货云产品线上商城发货云产品代金券资源包(用量账户)其他使用权(直播/点播应用类产品)采购线上选购线下录入支付信用账。
33、T3出行湖仓一体架构下的统一指标平台郑平贺|040102CONTENTS目 录为什么需要统一指标湖仓一体下的统一指标平台架构未来展望03统一指标平台的实现|01为什么需要统一指标|什么是指标指标 用来量化事物的一个工具,用数字来帮助我们用来量化事物的一个工具,用数字来帮助我们描述一些抽象的事件描述一些抽象的事件 一组能反映某一业务在单位时间内的规模、程一组能反映某一业务在单位时间内的规模、程度、。
34、MatrixDB:数字汽和脑实践姚 延 栋创 始&C E O北 京 四 维 纵 横 数 据 技 术 有 限 公 司Confidential 2021 四维纵横姚延栋MatrixDB 创始Greenplum 北京研发中负责(2010-2020)Greenplum 中社区创始PostgreSQL 中社区常委清华学产教融合课程分布式数据系统基础及应产业负责著有Greenplum:从数据战略到实。
35、HOLOGRES:阿里建设高吞吐、多负载的实时数仓平台刘一鸣 阿里云 MaxCompute&Hologres产品组|01实时数仓需求解析实时数仓需求解析02Hologres技术原理技术原理03推荐架构场景推荐架构场景04典型案例实践参考典型案例实践参考目录目录CONTENT|实时数仓需求解析01|业务在线化、运营精细化驱动数据实时化|领导驾驶舱实时大屏洞察业务变化实时精细化运营数据分析民。
36、字节跳动数据湖索引演进耿筱喻 字节跳动数据平台大数据工程师01HUDI索引介绍索引介绍02问题与挑战问题与挑战03字节数据湖索引演进字节数据湖索引演进04未来规划未来规划目录目录CONTENTHUDI 索引介绍01传统数仓数据更新在传统 Hive 数仓的场景下,数据更新方式为:增量 Join 全量-覆盖历史分区读全部文件更新全部文件JoinHudi 索引作用更新数据可以快速被定位到对应的 Fil。
37、Next generation of Tencent OLAP EngineTencent TEG LongYueCONTENTS01Background02Storage:Various Columns and Indexes04Benchmark and Applications03Computation:Integrated with PrestoBackgroundMercsDBlDat。
38、DORIS在蔚来的应用唐怀东 数据团队负责人|01OLAP在蔚来的发展在蔚来的发展02Doris作为统一作为统一OLAP数仓数仓03Doris在运营平台上的实践在运营平台上的实践04经验总结经验总结目录目录CONTENT|OLAP在蔚来的发展在蔚来的发展01|OLAP在蔚来的发展|2017年引入Druid2019年引入TiDB2021年引入Doris为什么选择Doris|Doris作为统一作为统。