《开源大数据产品年度发布.pdf》由会员分享,可在线阅读,更多相关《开源大数据产品年度发布.pdf(17页珍藏版)》请在三个皮匠报告上搜索。
1、开源大数据产品年度发布陈守元阿里云开源大数据产品总监Cloud Native完全基于云原生 Infra 构建的大数据基础设施Serverless下一代的 Cloud Data&AI PaaS 平台Data+AI融合 Data&AI 的 Platform云原生大数据的最新趋势EMR:大数据上云第一站01EMR 通用版云前时代的大数据系统平迁上云EMR 容器版云原生时代的大数据计算容器化EMR Serverless版帮助云原生时代的大数据走向终态PaaSEMR on ECSEMR on ACKServerless Spark&StarRocks产品矩阵升级:迈向下一代的湖仓基础架构多样化的IaaS
2、、多样化的EMR形态EMR Serverless 版全面满足云原生的大数据客户开启云化大数据业务的第一步Serverless SparkServerless StarRocksServerless HDFSEMR StudioEMR 计算新IaaS 类型:适配倚天,20%+的性价比优化新PaaS引擎:SparkNativeEngine,TPC-DSQuery性能提升100%;Celeborn 实现存算彻底分离,计算节点完全去状态EMR 运维平台弹性升级:100 节点扩容时间 2分钟 指标检测周期 30秒EMR-Doctor:升级实时分析、提前预警EMR 存储OSS-HDFS(JindoData
3、):性能优化 Open提升100%、目录 du 提升 10 倍;安全加强:支持 Kerberos鉴权,支持审计;数据保护:支持目录包含、细粒度回收站EMR 开发EMR ServerlessWorkflow&Notebook,构建完全兼容开源平迁的大数据开发体验EMR围绕湖仓场景的产品更新EMR DataScience基于EMR容器版构建AI开发套件:TF、PytorchEMR Doctor大数据运维的 AIops化EMR+DataWorks大数据开发的code pilot化EMR for AIUnified Data&AI PlatformFlink:Streaming Lakehouse02
4、Realtime整体链路的实时化从数据入湖到数据价值压缩到分钟级LakehousePaimon+分布式存储 提供湖仓存储方案兼具Warehouse的严谨+DataLake的灵活UnifiedStreaming Lakehouse:实时化的湖仓方案为 Data+AI 提供 实时化、流式化、Serverless 化的湖仓方案Streaming&Batch多模态计算能力实时湖仓的一站式解决方案平台710企业级Flink内核 相比于开源性能优化追求实时场景的性价比2x综合性价比PaaS优化50%Elasticsearch:Search for Data&AI03真正的按量付费打破传统按固定规格付费模式
5、以CU为计算资源计费,按实际用量每小时出账简单免运维屏蔽集群、节点概念,不感知物理资源,1min快速创建无须人力干预资源水位及变配,提升运维效率秒级弹性扩缩无固定节点规格,无须容量规划,根据负载自动匹配资源秒级完成资源扩缩,业务无影响开放兼容支持ES通用场景200+API、提供Kibana、兼容各类开源组件保留原有使用习惯,实现无缝迁移,助力业务快速上云Elasticsearch Serverless 版正式发布国内支持通用场景的Elasticsearch Serverless云服务Elasticsearch8.9:AI 搜索能力增强全新的面向非结构化数据搜索能力ESRE 发布RRF:倒数排序
6、融合,提高召回准确率Learned Sparse Encoder:开箱即用型语义搜索向量检索能力:创建、存储、搜索均支持嵌入搜索增强生成:与通义千问等大模型集成阿里云内置增强方案达摩院AI方案:领域专属NLP问答方案PAI-EAS方案:LLM+向量检索+文本搜索的混合搜索能力ElasticKibanaAI助手:可观测、SIEM领域内的智能专家构建下一代面向 Data+AI 的搜索系统场景升级从日志场景向通用场景 升级技术升级通用读写分离、时序存算分离 升级体验升级端到端的售卖