《MaxCompute下一步(14页).pdf》由会员分享,可在线阅读,更多相关《MaxCompute下一步(14页).pdf(14页珍藏版)》请在三个皮匠报告上搜索。
1、MaxCompute2.0MaxCompute Next 林伟阿里云大数据计算平台资深架构师MaxCompute2.0兼容,开放,统一的计算平台(建立生态)盘古(分布式存储系统)伏羲(分布式调度系统)YARN/HDFS interfaceSparkHIVEElasticsearchMaxCompute Engine流计算图计算Batch内存计算迭代计算MaxCompute LanguageSpark APIBeam APIHive API应用生态多租户,共享性,安全性,高性能,低成本,服务化开放性,包容性,生态MaxCompute2.0MaxCompute进化:更强,更快,更易用MaxComp
2、uteMaxCompute 2.0NextMaxCompute2.0MaxCompute的研发思路高性能,低成本,大规模稳定性,服务化易用性,服务于数据开发者多功能MaxComputeMaxCompute2.0MaxCompute下一代更智能更加理解数据更加理解运算更加理解用户MaxCompute2.0理解数据数据格式数据索引(Index)异构数据类型(结构化,半结构,非结构)Power-law属性的数据,百万稀疏列的表格,丰富的数据分片方式Range/Hash/Direct Hash/Column storage/Column groupingHierarchy Partition完善的数据
3、统计信息和运行时的数据HistogramDistinct valueData VolumeMaxCompute2.0理解运算用户自定义函数Sorted Properties/Partition Properties/资源消耗上的特点运行时优化Data Volume-ParallelismData Location-Network Topology OptimizationCross Pod/Cluster Optimization实时性,规模性,性能,成本,可靠性之间的trade-offNetwork Shuffling/Memory Computation/Streaming/Iterati
4、onMaxCompute2.0理解用户多租户,用户对规模,性能,延时,成本不同需求 资源隔离和资源使用的可预测性(CPU,内存,磁盘,网络)多种不同需求间的平衡,从而发挥资源最大效能生态,服务开发者 多语言,多生态的对接:hive/spark/JDBC/dataframe/强大的IDE,完整的开发体验,design/program/debug/profiling/多种运算方式统一平台 流计算/离线计算/准实时计算/图计算/机器学习 计算之间有机整合和平滑转换MaxCompute2.0更智能,更高效(实例)Range Partition on T1,T2对于每个分区内建立对于column a的i
5、ndex了解t1,t2的分区时的边界理解数据foo()是一个线性函数:如果a1a2,则foo(a1)foo(a2)考虑t1,t2的各自大小和在集群中的分布决定join的方式(SIGMOD12)理解运算用户仅仅需要关注于要算什么,系统帮助用户来高效运行用户可以在IDE中一键对于foo进行repro和debug,哪怕这个foo自带状态理解用户MaxCompute2.0更智能,更高效(实例)(min,19)19,29)29,39)999,max)】J0J1Jn(min,99)99,199)999,max)】foofoofoo(20,29)(20,29)29,39)29,39)order by bMa
6、xCompute2.0新硬件,新的需求,新的运算方式 RDMA SSD GPU集群 MaxCompute2.0统一计算平台带来的好处 应用往往不是单一的 比如机器学习:数据前期处理往往是Batch的方式处理,中间需要快速迭代的内存(或GPU)计算方式 开发的不同阶段对于资源,性能的要求不同 比如流计算开发,往往是从离线变为在线 统一开发者体验能大大提供数据工程师的生产力MaxCompute2.0为什么我们需要自己做MaxCompute多租户众多的开源的大数据框架需要依赖虚拟机