1、数据湖存储架构选型 阿里巴巴 郑锴 2020-11-1 CONTENT 数据湖是个潮流 01 02 湖存储/加速:挑战很 03 “完美” 选项之 checklist 04 阿云上的 JindoFS 录 02 数据湖是个潮流 什么是数据湖 统、集中地存储全部原始数据 结构化、半结构化、图/视频/频 使 BI + AI 来分析 不只是 SQL 为什么要数据湖 数据孤岛 计算 管理 弹性 数据湖架构 数据湖加速 (JindoFS, Alluxio) 数据湖存储 (OSS, S3, HDFS) 数据湖构建 数据湖管理 元数据服务 数据开发 数据湖集成 数据治理 数据大屏 机器学习 数据报表 数据挖掘 数据湖应用 数据湖计算 数据湖 02 。
2、打造数据增量计算新架构打造数据增量计算新架构 - 网易数据湖调研网易数据湖调研 I(1,2) INSERT (1,2) data file I(1,2) UPDATE (1,2) - (1,3) data file I(1,3) D(1,2) del file I(1,2) data file I(1,3) D(1,2) del file INSERT (3,5) I(3,5) I(1,2) data file I(1,3) D(1,2) del file DELETE (1,3) I(3,5) D(1,3) SELECT * FROM SAMPLE I(3,5) INSERT/UPDATE/DELETE实现 数据湖Iceberg核心原理 CREATE TABLE sample id INT NOT NULL, data INT NOT NULL ; I(1,2) INSERT (1,2) data file I(1,2) DELETE (1,2) data file D(1,2) del fil。
3、协办 直播持 腾 讯 数 据 技 术 系 列 沙 第 3 期 新一代数据湖技术新一代数据湖技术 演讲嘉宾 王展雄 数据湖技术Iceberg 如何解决腾讯看点业务痛点 数据湖技术概述 3 1 腾讯看点万亿数据下的业务痛点2 Iceberg在看点实践3 Iceberg读写和删除4 数据湖技术概述 4 1 5 数据湖技术概述 1 数据湖简介: 主要思想:对所有数据统一存储,通过计算能够生成符合要求的各种数据。 物理实现:数据存储平台。 实现方式:通常基于Hadoop生态,但不仅限于Hadoop。 粗暴理解:数据仓库Hive 6 数据湖技术概述 1 Hive on MR 数据湖技术的发展及问题: 计算。
4、蘑菇街中台转变之路 刘诗遥(英斗) 蘑菇街 技术专家 自我介绍自我介绍 自我介绍自我介绍 刘诗遥 英斗 蘑菇街技术专家 曾就职于京东和蚂蚁金服 蘑菇街电商中台改造方案核心设计者和推进者 目前负责蘑菇街直播中台的建设 目录目录 案例:蘑菇街电商建设业务中台 方法:业务中台构建三步法 案例:蘑菇街直播业务验证 扩展:额外的TIPS 说在最后 目录目录 案例:蘑菇街电商建设业务中台 方法:业务中台构建三步法 案例:蘑菇街直播业务验证 扩展:额外的TIPS 说在最后 构建中台的目的是什么? 我们要提前预判业务的方向,走到业务的前面去 蘑。
5、版权所有 2019 华为技术有限公司 大数据融合数仓场景化解决方案 第2页版权所有 2019 华为技术有限公司 前言 随着大数据和物联网技术的迅猛发展,数据进入爆炸式增长期,原有数据仓库处理 分析的低扩展性、高扩展成本、单一数据格式、高时延,成为了客户挖掘数据金矿 的阻力。如何构建一个全新的数据仓库分析平台,集高扩展性、低扩展成本、处理 多种数据格式文件、低时延等特性,成为当下急需解决的问题。 第3页版权所有 2019 华为技术有限公司 目标 学完本课程后,您将能够: 区分数据库、数据仓库、融合数仓的概念 熟悉华为融合数仓在行。
6、大数据平台的模型思维与用户增长实践 屈世超 2018.6.30 快看漫画 快看漫画 目录 快看漫画发展现状 模型思维与数据平台搭建 用数据驱动亿级用户的运营和增长 快看漫画是个漫画阅读社交平台 快看漫画 精品漫画阅读 + 社区交流 + 直播互动 快看漫画上线3年 总用户量超过1.3亿 月活近4000万 日活近1000万 在中国漫画App中排名第一 日数据量百亿条 数据来源 1、猎豹大数据:猎豹大数据2017中国app报告 2、IT桔子:2017年独角兽俱乐部 快看漫画 IT桔子 数据为业务发展赋能 快看漫画 人口红利期结束App成长到成熟期 业务管理的需求持续增长的需求。
7、爱奇艺推荐中台探索与实践 张时骏 爱奇艺高级经理 自我介绍自我介绍 自我介绍自我介绍 毕业于上海交通大学计算机系,现任爱奇艺高级技术经理一职,爱奇艺推荐中台的总架 构师。在爱奇艺从事推荐引擎架构和开发工作,近几年专注于分布式高并发线上引擎的 架构,搭建了热点信息流、小视频信息流等推荐引擎。目前正在致力于爱奇艺推荐中台 的建设,旨在帮助公司内各业务团队能够以低成本、高效率、高产出的方式获取一套完 整的推荐服务及其周边配套设施,快速实现业务目标。 目录目录 推荐中台背景 推荐中台架构 推荐中台实践 问题一:推荐形。
8、 ? Flink ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?F? ? StreamSQL ? Flink CEP ? ? ? ?F? StreamSQL? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? CREATE TABLE orderTable ( start_time $.start_time STRING, end_time$.data.end_time STRING, passenger$.data.passenger STRING, id INT ) WITH ( stype = kafka, topics = topic1, brokers = , encode = json ); ? ?/? ? ?/? ? ? ?/? ? ?D ? ? ? ? 。
9、Apache Flink ? Apache Flink Community China ? ? ? ? ? ? ? ? ? ? ? ? ? Apache Flink ? Apache Flink Community China ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? Apache Flink ? Apache Flink Community China ? ? Send Buffer Producer Receive Buffer Consumer network transfer 2MB/s1MB/s 5MB5MB bounded receive buffer?consumer? unbounded receive buffer?buffer?consumer? 5? 2MB/s Apache Flink ? Apache Flink Community China ? ? Send Buffer Producer Receive Buffer Consumer network transfer 2MB/s 1MB/s 5MB5MB ?consumer? co。
10、ClickHouse 在头条内部技术演化 陈星 自我介绍 自我介绍 - 10 year in database kernel(OLAP, warehouse) RD - Worked on DB2 LUW, DB2 BLU(dashDB), BigSQL(SQL on Hadoop) - 1+ years in Bytedance, and incubate ClickHouse development and deployment there 目录 1. ClickHouse 简介 2. Bytedance 如何使用ClickHouse 3. 问题与解决方案 4. Q&A 1. Developed by Yandex, and open source since 2016 2. 查询性能优越的分析型引擎 3. 主要特点(not new) - Column oriented + vector execution - Local attached storage (not Hadoop 。
11、0 设计 假设: 存在n维(A1,An)上的基本方体B 则: 需计算的立方体总数: Cn = 2n (其中n为计算维度的个数) 立方体物化结果集Size:Sn = 1 * A1的基数 * A2的基数 * . * An的基数 (维度的基数即为该维度下所有枚举值的总数) 优设计 假设视频埋点洪峰流量约 700,000 row/s,如果对其5个维度构建完全立方体, 那么map - reduce 端传输的数据量为:700,000 * 2 5 = 22,400,000 条数据! 冰山立方体:满足最小支持度的部分物化的方体。我们称这部分物化的方体为冰山立方体。 实现 统设计 查询引擎 1.多数据源适配 2.规则引擎 3.多级缓存 4.。
12、AI是智能计算,大数据领域是数据计算,二者是相辅相成不可或缺的关系 from贾扬清:人工智能是科学还是艺术? 分析报表 业务数据数据应用业务数仓 实时大屏 模型训练 数据产品 Holo 搜索业务数据 推荐业务数据 用户行为日志 交易数据 用户属性数据 商品属性数据 商家属性数据 运营配置数据 实时ETL 离线ETL JDBC查询 MaxCompute 业务特点 PB + RPSRPS6500W+ QPS 200+ 业务特点 PB 分析报表 业务数据数据应用实时数仓 实时大屏 MaxCompute Holo 用户行为日志 交易数据 用户属性数据 商品属性数据 商家属性数据 运营配置数据 实时ETL 离线ETL。
13、预训练的应用挑战与实践探索 小米AI实验室NLP团队 崔建伟 2020-07-25 预训练简介 预训练应用挑战 预训练实践探索 总结 分享大纲 预训练简介 词向量 静态 Word Embedding 上下文相关 Word Embedding CBOW/Skip-GramEmbedding Matrix 任务相关: 任务无关: 苹果公司最近发布新产品 喜欢吃苹果吗? 任务相关网络 序列建模方法 LSTMTransformer 远距离的词语间接交互SelfAttention: 任意词语间直接交互 Multihead Attention: 不同类型语义交互 预训练模型 BiLSTM + Language Model Feature based Pretraining Transformer + Language Model Tran。
14、Impala在网易大数据中使用和优化实践 温正湖 Impala定位及其优势 01 02 03 Impala增强和优化 Impala使用案例分析 Impala定位及其优势 Impala在数据处理中的角色 传统数据库/实时 分析型数仓 离线数仓 数 据 量 查询/处理引擎 百万-百亿:Impala/Presto/GP/ 百万以下:MySQL/PG/MongoDB/ 百亿以上:Hive/Spark/ 数据规模与数据处理引擎 数仓建模方式 宽表 DruidClickHouse 星型雪花型 ImpalaGPPresto 自助分析、BI报表等 典型使用场景 将Impala作为通用查询引擎 Impala在数据处理中的角色 Impala优势 去中心化的MPP并行架构 Impala架构 vs 。
15、智能金融在客服机器人中台的落 地实践 潘鹏举-ppj 平安银行|AI算法团队负责人 1 文本客服机器人演进 知识图谱问答 业务背景 2 业务背景 3 银行业务介绍 金融的 人货场 存贷 汇 资金端资产端 交易场所 口袋APP 4 金融科技布局ABCDF A AI I B Blockchailockchai n n C CloudloudBigBigD Dataata F Federaederatete d d LearningLearning SAS-供应链应收 账款服务-区块链 平台 运维机器上云 平安云 AI替换 AI赋能 离线:Hadoop平台 在线:Flink平台 横向联邦学习 5 场场 景景 算算 法法 数数 据据 算算 中中 台台 PaaSPaaS层层 CPUCPU 集群集。
16、 ? ? ? ? ?s ? ? ? ? 0? ? ?A ?/?e?8?8?1T?8?2?A? ?t? ? 2015.7 2018.11 ? ? ? ? ? ?8 ? ?8 ? ?1T?8 ?B ?A? ? ? ? ? ? ? ? ? ? ? ? A?/? ?/?I? ? ?A?I ?A? ? ? ? s?B?T? e?B?B? ?B? ?B? ?t ? ?()?)?)?= ? ? ? ? ?I? ? ? ?I? ?E? ? ?E?CB? ?E? ? ?D? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?D?S? ?D?D?K?D?D? ? 01 02 n?:?/?:.?-?5? ?k?cqo?ie?CQ?ms? ?Z?RgN?E?ms?x?LI?t?h?UV? 03?R?p?ie?f?pB?KT?f?S?w?D?f? ?v? ? ABTest? ? ? ? ? ? ? ? ? ?B?A? ?B?A? ?S cK?p? ?9958?5?:/1?1?66?4?8?44?.?7?5? 1 ?Ssm?rq?o?c?m?a? 2 x?m?D?e?Ddw?A?i。
17、万亿级消息队列Kafka在滴滴的实践 张亮 2020-11-01 建设背景 目录 建设实践 总结规划 建设背景 1 RDS Log File App Behave Log User Report 数据生产 Omega Server canalLog agent User Application 数据采集 DiDi-Kakfa-2.5-900 数据队列 数据消费 User Application Stream SQL Flink Native App 数据应用 离线数仓ODS 实时数仓ODS实时监控/报表 OLAP分析 线上业务 ? ?峰值生产 2 亿/S 集群流量 60GB/S 2W+ Topic 20+ Cluster? ? 单集群250 Broker 100W+Producer 最大采500MB/S 1.2W+Consumer 最大消费500MB/S 日增消息量2PB 应用现状 建。
18、腾 讯 云 ClickHouse 性 能 调 优 及 实 践 三、 腾讯云ClickHouse性能调优 、 常ClickHouse实时分析场景 、 腾讯云ClickHouse在QQ乐实践 录 四、 腾讯云ClickHouse现状与规划 ClickHouse简介 极地节约了IO带宽 压缩(持LZ4, ZSTD) 列式存储与数据压缩 2 DDL(数据定义语) DML(数据操作语) 权限控制 数据备份与恢复 分布式管理 完备的DBMS功能 1 分布式计算 多核并计算 向量化执与SIMD 动态代码成 向量化执引擎 3 管理数据存储,不依赖其他组件 主键索引/级索引 数据集分(sharding) 数据分区(partition) 数据容灾 TTL持 数据存储 5 对户友。
19、协办方直播支持 腾 讯 大 数 据 技 术 系 列 沙 龙 第 3 期 新一代数据湖技术 陈俊杰 腾讯TEG 数据湖研发组 高级工程师 数据湖分析之Upsert 功能详解 传统数仓入库痛点 新一代数据湖技术 下一步展望 目录 传统数仓数据入库痛点 典型场景:业务数据(SQL/NoSQL)全量入库 典型T+1方案,数据延迟大 全量扫瞄源库,给源库造成压力,同时浪费计算和存储资源。例如使用Sqoop 限制:源库信息变更不能同步到数仓,例如:Schema变换 传统数仓数据入库痛点 改进的场景:CDC导入到Kafka再导入到HBase, Kudu HBase, Kudu无法存储全量数据,需要再次导入。
20、www.an tfi n .c om * 仅限内部交流使用 如果需要公开,请联系文档作者 演讲人:杨军 蚂蚁金服-数据平台部 数据分析平台 平台演进及数据分析方法应用 www.an tfi n .c om * 仅限内部交流使用,如果需要公开,请联系文档作者 目录.CONTENTS 怎么来:数据分析平台演进历史 怎么做:数据分析平台3.0详解 PART / 03PART / 02 做什么:数据分析领域简介 PART / 01 我是谁:个人简介 我们是谁:数据平台部简介 能干什么:数据分析驱动数据分 析平台性能优化 PART / 04 www.an tfi n .c om * 仅限内部交流使用,如果需要公开,请联系文档作者 简。
21、版权所有 2019 华为技术有限公司 大数据实时流处理场景化解决方案 第2页版权所有 2019 华为技术有限公司 前言 随着互联网的进一步发展,信息浏览、搜索、电子商务、互联网产品等将生活中的 数据流通环节在线化,让我们处在一个数据爆发式增长的时代。而信息的交互和沟 通正在从点对点往信息链甚至信息网的方向发展,这样的背景下,企业想要尽快获 取数据的价值,进而对数据的实时处理有了更高的要求。 第3页版权所有 2019 华为技术有限公司 目录 1. 大数据实时流处理概述 2.实时处理技术框架介绍 Flume Kafka Flink Structured Streaming 。
22、快元数据平台化建设及应场景 薛-数据平台架构师 我介绍 薛 数据平台架构师 前负责元数据系统建设及应 加快3年,负责过数据同步、报表平台 录 01 02 03 04 应场景 建设过程及现状 未来规划 背景介绍 01 02 03 04 应场景 建设过程及现状 未来规划 背景介绍 对 的 问 题 什么是元数据 背景介绍:什么是元数据 元数据 元数据是关于数据的组织、数据域及其关系的信息,简之, 元数据就是关于数据的数据。 数据表Hive表、Clickhouse表、Druid数据源、Kafka Topic 产任务离线调度任务、数据同步任务、实时计算任务 关联关系Hive表与Hive库、指标。
23、于茜 微博机器学习研发中 微博基于Flink的机器学习实践 Agenda 1关于微博关于微博 微博机器学习平台(微博机器学习平台(WMLWML)总览)总览 FlinkFlink 在在 WMLWML 中的应中的应 2 3 使使 FlinkFlink 的下步计划的下步计划4 关于微博 2008年上线 中国最的、最流的社交媒体平台 提供们在线创作、分享和发现优质内容的服务 规模机器学习平台可持千亿参数,百万QPS 222M DAU 516M MAU 微博机器学习平台 (WML) 总览 W M L 离线计算集群集群性能计算集群在线计算集群 在线推理WeiServing (研)WeiPS (研) 计算平台 WeiLearn (研) Flink/StormH。
24、成本管理-快数据存储管理的落地实践 程伟-数据研发专家 我介绍 程伟快数据研发专家 关注数据模型、数据管理治理领域 主要负责快公共数据建设、数据管理治理 录 01 02 03 04 快存储管理实施法 快存储管理策略 未来规划 成本管理介绍 01 02 03 04 快存储管理实施法 快存储管理策略 未来规划 成本管理介绍 数据成本管理架构 什么是成本管理 成本管理介绍:什么是成本管理 成本管理 企业产经营过程中对于 成本进系列科学管理 为的总称 成本预测 成本决策 成本预算 成本分析成本控制 成本核算 成本考核 数据引擎存储引擎计算引擎数据服务引擎 。
25、面向用户增长的信息流分发机制 阿里文娱-人工智能部-信息流推荐 天师 目录 3. 核心增长机制 双边冷启动与流转机制 消偏与因果推断 面向增长的用户画像 效用理论应用 2. 内容信息流-推荐算法 推荐系统回顾 信息流推荐的增长目标 1. 内容信息流-用户增长 问题定义 问题分析 增长要素 内容信息流 用户增长 问题定义 本文的问题域 内容信息流app用户增长问题 内容信息流:图文信息流,短视频信息流、内容+电商信息流 旨在解决的问题 基于推荐算法视角的信息流产品用户增长问题 留存问题 幸存者偏差 本文受众 信息流产品的 推荐算法专家 数据科。
26、2020 SPLUNK INC. The Evolution of Data Infrastructure at Splunk Flink Forward SF/Virtual 2020 Eric Sammer - VP, Distinguished Engineer 2020 SPLUNK INC. What is Splunk? A platform for the collection, storage, query, and analysis of event and time series data. Logs, but other kinds of events too Tons of query-time processing features Core platform experience, increasingly domain-specific applications 2020 SPLUNK INC. Ad hoc query - Human and apps Scheduled query - Materialized view maintenance, ap。
27、神策标签产引擎架构 王琛 神策数据 录 01 02 03 04 户标签及其应场景 标签产平台的需求 批流体的标签产架构 总结 什么是户标签 10万元活动预算,应该集中花在哪里? 参加这次活动老用户有多少? 想要召回流失用户,他们都喜欢什么商品? 推送应该中午发,还是晚上发? 标签是对用户某个维度特征的描述 精细化运营 从粗放式到精细化,将用户群体切割成更细 的粒度,辅以短信、推送、邮件、活动等手 段,驱以关怀、挽回、激励等策略 增强数据分析 标签可以丰富数据分析的维度,数据查询平 台在打通标签数据后,能支持更加丰富的分 析及对比 。
28、Apache Flink Completing Clouderas End-to-End Streaming Platform Joseph Witt Vice President Engineering, Cloudera Data Flow Marton Balassi Engineering Lead, Streaming Analytics 2020 Cloudera, Inc. All rights reserved.2 Data-in-Motion Philosophy Apache, Apache NiFi, Kafka, and Flink and their logos are trademarks of the Apache Software Foundation in the United States and/or other countries. No endorsement by The Apache Software Foundation is implied by the use of these marks. 2020 Cloudera, Inc. A。