1、美团Spark Shuffle架构演进路项浩 技术专家|01美团美团Spark概况概况目录目录CONTENT02Spark基本原理基本原理03Spark 1.x 2.x Shuffle问题问题05美团美团RSS06Push-based Shuffle07方案对比方案对比04业内优化方案业内优化方案08后续计划后续计划|美团Spark概况01|美团Spark概况|美团Spark概况|60万+每天S。
2、APACHE IOTDB 0.13:支持更复杂的工业读写与分析负载黄向东清华大学Apache IoTDB PMC ChairApache Member|01复杂工业场景02技术选型探讨03Apache IoTDB v0.1304应用实践目录 CONTENT|适配复杂场景版本新特性IoTDB的一些技术细节从采集到查询复杂工业场景01|从采集到查询什么是物联网时序数据时间物理量(航速、载荷、电量)特。
3、兴业银行基于Alluxio的数据加速缓存应用场景兴业数金 大数据技术负责人 罗煜辉中国银保监会关于银行业保险业数字化转型指导意见到2025年对银行保险业的数字化转型提出了明确的要求,尤其对数据治理和数据资产管理提出了明确的细化。习近平总书记指出“没有信息化就没有现代化”,“十四五”规划和2035年远景目标纲要提出“坚持创新在现代化建设全局中的核心地位,把科技自立自强作为国家发展的战略支撑”。这些。
4、 2021,Amazon Web Services,Inc.or its affiliates.All rights reserved.2021,Amazon Web Services,Inc.or its affiliates.All rights reserved.无服务技术赋能大数据分析张镎高级产品经理,亚马逊云科技数据分析产品线Amazon EMR Serverless 在云端运行PBP。
5、通用分布式计算引擎RAY陈昊 蚂蚁集团|About me 2018年加蚂蚁,负责分布式计算引擎Ray项。Ray开源社区Committer。Outline Ray能解决什么问题。Ray在蚂蚁的应和优化。Ray开源社区及其未来发展。分布式系统变得越来越常 数据。机器学习。推荐系统。搜索引擎。AI and Computehps:/ 现有分布式系统:只解决某种特定计算模式的分布式。开发分布式系统的常见难。
6、Apache Iceberg在网易严选批流一体的实践祝佳俊网易严选2022-04-232目录/CONTENTS1234数据架构现状基于Iceberg的批流一体实践落地情况&未来规划Iceberg表治理Chapter01数据架构现状数据架构现状数据架构现状数据架构现状lambda架构,实时离线两套逻辑离线数据实效性低,依赖于快照制作同步链路组件多,可维护性差1.批流一体?2.存储支持Ups。
7、云原生大数据混合算力助力计算加速王华 腾讯高级工程师|01大数据资源使用现状02大数据混合算力部署方案03混合算力自动弹性能力04混合算力计算加速落地实践目录 CONTENT|企业大数据资源使用现状01|资源利用率问题|OS在线业务k8smaster在线业务其他业务k8s ClusterNodePodPodPodNodePodPodPodNodePodPodPodNodePodPodPodTez。
8、FLINK 流批一体的规划和在快手的进展张静快手基础技术部Apache Flink Commiter|01社区在流批一体社区在流批一体方向的演进方向的演进02快手在流批一体快手在流批一体方向的进展方向的进展03社区在流批一体社区在流批一体方向的规划方向的规划04快手在流批一体快手在流批一体方向的未来工作方向的未来工作目录目录CONTENT|社区在流批一体社区在流批一体方向的演进方向的演进01|为。
9、AutoDL:自动化与可解释深度学习熊昊一百度研究院大数据实验室 百度大数据实验室自动化与可解释深度学习领域的最新科研成果 AutoDL在PaddlePaddle与PaddleHub上的重要角色 AutoDL在工业应用方面的实例 关于AutoDL的未来目标与展望演讲内容梳理深度学习的广泛应用物体识别医学影像检测自动驾驶语音助手机器翻译广告营销深度学习的广泛应用!#$%&()*!#$%&a。
10、ClickHouse在自助分析场景中的探索及实践|王鹏哲 转转 大数据平台&实时计算架构师转转二手交易网2|CONTENTS转转自助分析场景下转转自助分析场景下OLAP选型选型01/高斯平台自助分析场景高斯平台自助分析场景02/ClickHouse优化实践优化实践03/ClickHouse未来在转转未来在转转的规划与展望的规划与展望04/让人们享受闲置交易的快乐,让世界因流转更可持续转转。
11、Spark SQL在平安产险的应用李伟轩 大数据开发工程师|01业务背景业务背景02部署方式的部署方式的选择选择03迁移流程迁移流程04典型问题和经验典型问题和经验目录目录 CONTENT|业务背景业务背景01|业务现状|离线集群在任务高峰期出现离线集群在任务高峰期出现cpu资源不足,而内存利用率资源不足,而内存利用率不高的情况不高的情况业务需求与特点|业务需求业务需求 节省集群资源,提高资源利。
12、 基于高速协议基于高速协议的的程一舰 中国人民大学硕士中国光大银行总行 openLooKeng项目负责人|openLooKengMppConnector数据库数据库实践实践0101背景介绍背景介绍openLooKeng介绍及金融场景痛点0202社区方案社区方案社区的方案0303优化方案优化方案我们的方案0404性能测试性能测试初步性能测试目录目录 CONTENT|背景介绍01|背景介绍openL。
13、字节跳动埋点数据流实践刘石伟 字节跳动-数据平台|01埋点数据流简介埋点数据流简介03埋点数据流治理实践埋点数据流治理实践02埋点数据流建设实践埋点数据流建设实践04未来规划未来规划目录目录CONTENT|埋点数据流简介01|字节跳动埋点数据流|埋点数据流规模|业务场景-UserAction ETL|需求1.延迟敏感,时效性要求高2.ETL规则动态更新业务场景-数据分流|需求1.SLA要求高,不。
14、Serverless?ETL:?向百亿市场规模的?实时数据集成产品演进之路Ernest?何世友?腾讯云?Serverless?产品中产品负责|01数据处理场景分析268 亿 VS 139 亿,数据集成处理市场淘03SERVERLESS ETL数据处理从重到轻,从批到流,规模和效能,理想的产品形态是什么02数据处理场景典型案数据处理对流转管道和计算形态的诉求是什么录?CONTENT|数据处理场景分。
15、Flink Table StoreFlink Table Store流批一体存储Jingsong LeeAgendaAgenda 业务需求 使用 Flink Table Store 理解 Flink Table Store Project and Roadmap A stream is the changelog of a dynamic table As change messages are。
16、基于FLINK的实时计算平台在新能源充电行业实践张海瑞 大数据开发工程师|01特来电特来电及行业及行业简介简介02特来电特来电实时计算平台简介实时计算平台简介03Flink在特来电的在特来电的应用场景应用场景04Flink在特来电的在特来电的未来展望未来展望目录目录 CONTENT|特来电及行业简介01|充电是关系国计民生的新基建|要加强新型基础设施建设(即新基建),发展新一代信息网络,拓展5G。
17、大数据计算架构峰会DataFunSummit2022.04.23(周六)09:0017:202021AkulakuAkulaku智能智能计算计算系统及系统及应用应用DataFunSummit黄泓 资深算法开发工程师2022|CONTENTS目录场景与需求Akulak业务和相关背景01难点智能计算系统实现的难点02案例与架构智能计算系统的实现细节03总结我们学到了什么04DataFunSummit。
18、|实时数仓赋能金融线上自动化经营的实践众 安 保 险|4.2 3|众 安 保 险 版 权 所 有2众安保险介绍01众安数据中台介绍02实时数仓建设与StarRocks的引入04众安集智平台介绍&案例介绍03众安科技与科技赋能解决方案介绍05|众 安 保 险 版 权 所 有31|众 安 保 险 版 权 所 有4工程师及技术人员在雇员中占比48%,2021年上半年科技研发投入占当期保费比例为。
19、董国平 阿里云-计算平台事业部大数据平台MaxCompute公有云多租户设计CONTENT大数据平台多租户形态强多租的优势与挑战MaxCompute多租实现why&后续演进目录多租户形态database独立实例级别,支持RBACcontrol管控面统一,独立计算资源shareeverything从管控到计算和存储可扩展性、系统复杂度和安全要求优势挑战单租计算+开放存储AWS EMR和Da。
20、使用BAETYL构建边云融合的智能应用李乐丁 百度智能云物联网主任架构师|01关于边缘计算关于边缘计算需求理念方法02技术和创新技术和创新云原生人工智能03合作与应用合作与应用社区商业04未来发展未来发展规划参与目录目录CONTENT|关于边缘计算你好01|计算无处不在从中心到边缘|Cloud IDCCDNCDN5G/MEC5G/MEC5G/MEC5G/MEC5G/MEC110ms10100ms。
21、开源机器学习数据库 OpenMLDB:线上线下一致的生产级特征计算平台第四范式(北京)技术有限公司Copyright 2021 4Paradigm All Rights Reserved.2022 年 4 月卢冕OpenMLDB 研发负责人,第四范式系统架构师About Me2!-!#$OpenMLDB%&()-*+,-./0123456789:;78()-?ABCDEFGHI=J.目录。
22、腾讯 Alluxio 加速下一代大数据业务落地汇报人:陈曦email:ALLUXIO SHARINGFROM:腾讯 TEG Alluxio 简介01目录CONTENTSAlluxio Local Cache02Alluxio 自适应 URI03Alluxio 授权04Alluxio 简介01PART Alluxio 简介一个典型的 Alluxio 集群由 Masters、Workers 以及 j。
23、KYUUBI 在小米大数据平台的应用实践张耀东 小米研发工程师|01Kyuubi 在小米的落地过程02打造易用和高可用的Kyuubi服务03基于Kyuubi的改进04Kyuubi 新特性的应用目录 CONTENT|Kyuubi在小米的落地过程01|背景介绍历史遗留|现象 多个数据平台,没有统一入口和互通,存在数据孤岛现象 多种账号和权限体系,用户管理和理解成本高,没有形成统一资源管理的系统视角构。
24、阿里巴巴万卡GPU PAI 集群的资源效率优化 数据剖析和工程实践AprilApril 20222022余英豪余英豪AIAI基础设施研发基础设施研发翁祈桢翁祈桢ResearchResearch InternInternOutline2 集群概览 GPU资源效率 数据分析和洞察 工程实践 挑战和展望集群概览 AI驱动核心业务 淘宝、搜推广、达摩院、高德、自动驾驶、菜鸟 训练,在线/离线推理 CV,。
25、Apache Doris(Incubating)极速 1.0 版本解析与未来规划陈明Apache Doris PPMC 成员Apache Doris PPMC 成员|分享纲01Apache Doris 特性一览03Apache Doris 未来规划02Apache Doris 1.0 版本解析04Apache Doris 开源社区|分享纲01Apache Doris 特性一览03Apache D。
26、Apache KyuubiApache Kyuubiv1.5.0 v1.5.0 特性解读特性解读潘成网易数帆 软件工程师Apache Kyuubi(Incubating)PPMC|0101架构设计0202引擎扩展0303功能增强0404未来可期目录目录 CONTENTCONTENT|架构设计01|计算引擎服务化演进胖客户端=瘦客户端|胖客户端案例hivespark-sqlspark-shellS。
27、网 易 基 于 Ky u u b i+S p a r k内 核 优 化 以 及 实 践尤夕多 ulysses-you|01Spark Adaptive Query Execution02目录目录CONTENT|Kyuubi+Spark 数仓类任务优化实践Apache SparkAdaptive Query Execution01|Adaptive Query Execution History|。
28、网易严选网易严选DMPDMP标签标签系统建设系统建设实践实践刘晓东-资深服务端开发工程师CONTENTSCONTENTS目目录录平台平台总览总览01标签标签生产生产02标签标签存储存储03高性能高性能查询查询04未来未来规划规划05平台平台总览总览01DMP标签系统营销选品智能触达数据驱动赋能业务自营平台集团共建三方数据用户洞察标签体系人群圈选画像分析数据融合资产沉淀产品功能数据服务构建以数据为。
29、FLINK 作业的稳定性优化实践邱从贤 腾讯高级开发工程师/Apache Flink Committer|01Flink在腾讯的应用在腾讯的应用02Flink的稳定性介绍的稳定性介绍03稳定性的优化实践稳定性的优化实践04总结总结&展望展望目录目录CONTENT|Flink 在腾讯的应用01|实时计算的应用|Oceanus 平台概况JarSQLCanvasConfigurationTex。
30、工业和边缘计算张铭君 阿里云-高级技术专家|01实践案例实践案例02OT数据的特点数据的特点03IT和和OT数据融合数据融合04边缘计算架构边缘计算架构目录目录CONTENT|实践案例01|实践案例 汽车制造|某汽车制造基地,占地75万平方米,年产约20万辆汽车5大车间:冲压-焊接-涂装-电池-总装?实践案例 汽车制造|视频推荐视频推荐走进工厂-汽车制造:https:/ 80w点位自动化的车间构。
31、风险特征管理解决方案姓名 唐庚阳|01踩过的雷踩过的雷在过往风险特征的加工和使用过程中遇到过的问题02解决方案解决方案1.0为了快速解决业务的痛点问题,简单搭建了一套管理方案03解决方案解决方案2.0系统化、体系化管理风险特征全生命周期04能否更好?能否更好?如何更高、更快、更强?目录目录 CONTENT|踩过的雷请在过往风险特征的加工和使用过程中遇到过的问题01|初识风控特征的整体环境|上线慢。
32、OD预测在机票推荐中的应用飞猪行业智能算法平台黄锦-风楚2022.04.23ICDE2022 ODNET:A Novel Personalized Origin-Destination Ranking Network for Flight Recommendation目录contents01背景介绍020304OD预测存在的挑战研究现状:Where to gonext解决方案:ODNET05实验。
33、喜拉雅数据混合云案陈涛 数据技术专家|我介绍|陈涛喜拉雅数据集群架构组负责前专注集群优化和稳定性提升曾负责喜拉雅计算平台组0-1构建博客:https:/ CONTENT|集群现状、问题与优化存储治理计算弹性计算加速01 集群现状、问题与优化|集群现状|主存储集群单机房 750+hadoop机器,主要机型存算体 存储 hadoop3.2.1 71PB总容量 使率68%净增量超过200TB 主计算集。
34、The exploration of complex Large-scale databased scenario automatic speech recognitionComplex scenario ASR in ZOOMHaoyu(Charlie)TangApril 24,2022Zoom AI/ML EngineeringContent1.Introduction to automat。
35、阿里云EMR STARROCKS介绍周康 阿里云智能技术专家|01开源开源OLAP综述综述02开源数仓解决开源数仓解决方案方案03StarRocks介绍介绍04StarRocks最佳实践最佳实践目录目录CONTENT|开源OLAP综述常见开源OLAP技术介绍01|开源产品-百花齐放|技术分类|计算与存储一体OLAP数据仓库StarRocks(DorisDB)ClickHouseApache Do。
36、阿里一站式实时数仓的建设姜伟华(果贝)阿里巴巴资深技术专家,阿里一站式实时数仓Hologres负责人Agenda 实时数仓的演进:一站式实时数仓 阿里一站式实时数仓Hologres简介 阿里CCO基于Hologres的一站式实时数仓建设过程与经验大数据计算正从规模化走向实时化春晚直播实时大屏双 11 GMV 实时大屏城市大脑实时交通监测银行实时风控监测淘宝实时个性化推荐实时大数据的线上与线下实时。
37、 2021,Amazon Web Services,Inc.or its Affiliates.李建伟 大数据技术专家电商零售大数据分析云上实战 2021,Amazon Web Services,Inc.or its Affiliates.议程电商行业现状数据驱动的电商业务场景非结构化数据搜索架构解析亚马逊电商案例 2021,Amazon Web Services,Inc.or its Affi。
38、HADOOP YARN HADOOP YARN 在小米的实践在小米的实践涂瑜 计算平台-高级软件开发工程师|工作经历小米 计算平台-高级软件开发工程师 主要负责大数据离线资源调度的开发与维护知乎 计算平台-高级软件开发工程师 曾负责知乎高并发网关建设,大数据存储与离线资源调度服务的开发与维护|个人简介个人对大数据计算存储,网络,高并发编程相关领域感兴趣0101调度优化实践调度优化实践0303Ya。
39、李广涛思数据联合创始人、商业化总裁TDengine 时序数据库在工业大数据中的应用目录01.涛思数据介绍02.工业物联网大数据处理的挑战03.TDengine 关键技术设计04.TDengine 在工业大数据中的典型应用01涛思数据介绍.涛思数据概况涛思数据成立于2017年,专注时序空间大数据的存储、查询、分析和计算,自主开发了全球领先的高性能、可伸缩、高可靠、零管理的物联网大数据平台TDeng。
40、图计算在信贷反欺诈的探索和实践于晓路 蚂蚁集团 高级技术专家|01信贷反欺诈信贷反欺诈背景介绍背景介绍02信贷反欺诈事前信贷反欺诈事前事中事后的图应用事中事后的图应用03风险大数据风险大数据图体系介绍图体系介绍04信贷图计算信贷图计算性能优化性能优化目录目录CONTENT|背景介绍01|信贷反欺诈背景介绍,以及其中的图应用|量化策略模型算法申请/支用拦截风险感知认知资金用途监控套现识别团伙挖掘风。
41、GeaFlow:蚂蚁集团流式图计算引擎及其应用周强 技术专家|01GeaFlow简介简介应用实践应用实践02GeaFlow技术架构技术架构总结和展望总结和展望目录目录CONTENT|0304GeaFlow简介01|什么是图|数据结构之图图是由顶点V集和边E集构成,因此图可以表示成G=(V,E)线、树、环、网等一切实体和关系构成现实之图哥尼斯堡-七桥问题从一起点出发走,可否一次性走过七座桥欧拉回路。
42、新一代超融合数据库的技术挑战金 海|Speaker|挑战|挑战|数据库发展史|超融合数据库|OLTP和OLAP的矛盾|HTAP Tradeoff|HTAP 路线一|HTAP 路线二|HTAP 路线三|HTAP 路线四|HTAP的N种做法|行存与列存|三种存储布局的对比|为什么列存可已用于OLTP|LSM Tree 是否适合OLAP|MatrixOne Storage Layout|为什么需要存算。
43、Accelerate Cloud Training with AlluxioData FunLu Qiu AlluxioLu QiuMachine Learning Engineer AlluxioAlluxio PMC maintainerMaster Data Science GWUResponsible for integrating Alluxio with deep learning 。
44、S P A R K +V O L C A N O:S P A R K +V O L C A N O:为为 S p a r k o n K u b e r n e t e sS p a r k o n K u b e r n e t e s 提 供提 供更 完 善 的 调 度 能 力!更 完 善 的 调 度 能 力!姜逸坤 华为计算开源团队|从一个简单而又悲伤的数学题说起:已知:已知:-用于Spa。
45、徐榜江(雪尽)Apache Flink Committer&Flink CDCMaintainer|Flink CDC 如何加速海量数据的实时集成01Flink CDC技术技术02海量数据集成的痛点海量数据集成的痛点03Flink CDC如何加速海量数据集成如何加速海量数据集成04开源社区发展开源社区发展目录目录|Flink CDC技术技术01|CDC 技术|广义的概念上,能够捕获数据变。