当前位置:首页 > 报告详情

Mars on Flink 实时数据流上的Pandas.pdf

上传人: 云闲 编号:101797 2021-09-01 37页 3.22MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了付典在阿里巴巴担任高级技术专家期间,针对大数据处理的需求,开发了结合Apache Flink和Pandas的实时数据流处理框架Mars。Mars能在分布式环境下执行Pandas数据处理任务,解决了Pandas单机限制的问题,并可与Flink生态和Python生态无缝集成。文章详细阐述了Mars的设计理念、原理、优势以及使用示例和未来规划。Mars通过Flink的Table API和SQL实现Pandas UDF的分布式化,优化了数据处理流程,同时支持流和批的处理模式。它还解决了如窗口切分、数据收发、Pandas作业调度和状态监控等问题。未来,Mars计划开源,支持与Flink的互转,并扩展支持更多的分布式Pandas引擎和数据源。
如何实现实时数据流上的Pandas运算?" 分布式Pandas计算的未来规划有哪些?" 谁更适合实现分布式Pandas运算?"
客服
商务合作
小程序
服务号
折叠