MaxCompute下一步（14页）.pdf

上传人：云闲

编号：91184

2021-01-01

PDF 14页 2.19MB

《MaxCompute下一步（14页）.pdf》由会员分享，可在线阅读，更多相关《MaxCompute下一步（14页）.pdf（14页珍藏版）》请在三个皮匠报告上搜索。

1、MaxCompute2.0MaxCompute Next 林伟阿里云大数据计算平台资深架构师MaxCompute2.0兼容，开放，统一的计算平台（建立生态）盘古（分布式存储系统）伏羲（分布式调度系统）YARN/HDFS interfaceSparkHIVEElasticsearchMaxCompute Engine流计算图计算Batch内存计算迭代计算MaxCompute LanguageSpark APIBeam APIHive API应用生态多租户，共享性，安全性，高性能，低成本，服务化开放性，包容性，生态MaxCompute2.0MaxCompute进化：更强，更快，更易用MaxComp

2、uteMaxCompute 2.0NextMaxCompute2.0MaxCompute的研发思路高性能，低成本，大规模稳定性，服务化易用性，服务于数据开发者多功能MaxComputeMaxCompute2.0MaxCompute下一代更智能更加理解数据更加理解运算更加理解用户MaxCompute2.0理解数据数据格式数据索引（Index）异构数据类型（结构化，半结构，非结构）Power-law属性的数据，百万稀疏列的表格,丰富的数据分片方式Range/Hash/Direct Hash/Column storage/Column groupingHierarchy Partition完善的数据

3、统计信息和运行时的数据HistogramDistinct valueData VolumeMaxCompute2.0理解运算用户自定义函数Sorted Properties/Partition Properties/资源消耗上的特点运行时优化Data Volume-ParallelismData Location-Network Topology OptimizationCross Pod/Cluster Optimization实时性，规模性，性能，成本，可靠性之间的trade-offNetwork Shuffling/Memory Computation/Streaming/Iterati

4、onMaxCompute2.0理解用户多租户，用户对规模，性能，延时，成本不同需求资源隔离和资源使用的可预测性（CPU，内存，磁盘，网络）多种不同需求间的平衡，从而发挥资源最大效能生态，服务开发者多语言，多生态的对接：hive/spark/JDBC/dataframe/强大的IDE，完整的开发体验，design/program/debug/profiling/多种运算方式统一平台流计算/离线计算/准实时计算/图计算/机器学习计算之间有机整合和平滑转换MaxCompute2.0更智能，更高效（实例）Range Partition on T1，T2对于每个分区内建立对于column a的i

5、ndex了解t1,t2的分区时的边界理解数据foo()是一个线性函数：如果a1a2,则foo(a1)foo(a2)考虑t1,t2的各自大小和在集群中的分布决定join的方式(SIGMOD12)理解运算用户仅仅需要关注于要算什么，系统帮助用户来高效运行用户可以在IDE中一键对于foo进行repro和debug，哪怕这个foo自带状态理解用户MaxCompute2.0更智能，更高效（实例）(min,19)19,29)29,39)999,max)】J0J1Jn(min,99)99,199)999,max)】foofoofoo(20,29)(20,29)29,39)29,39)order by bMa

6、xCompute2.0新硬件，新的需求，新的运算方式 RDMA SSD GPU集群 MaxCompute2.0统一计算平台带来的好处应用往往不是单一的比如机器学习：数据前期处理往往是Batch的方式处理，中间需要快速迭代的内存（或GPU）计算方式开发的不同阶段对于资源，性能的要求不同比如流计算开发，往往是从离线变为在线统一开发者体验能大大提供数据工程师的生产力MaxCompute2.0为什么我们需要自己做MaxCompute多租户众多的开源的大数据框架需要依赖虚拟机

MaxCompute下一步（14页）.pdf

相关报告