当前位置:首页 > 报告详情

8-3 Flink 作业的稳定性优化实践.pdf

上传人: 云闲 编号:102425 2021-01-01 27页 1.75MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要探讨了Apache Flink在腾讯的应用及稳定性优化实践。腾讯的实时计算平台Oceanus基于Flink构建,用于营销分析、运营监控和产品改进等。文章首先介绍了Flink在腾讯的应用场景,包括Oceanus平台概况和典型应用。然后,阐述了Flink的稳定性介绍,分析了稳定性优化的必要性,并提出了稳定性优化的实践方法。 核心数据包括:作业稳定性优化实践后,故障恢复时间从201秒减少到48秒,网络连接的重置问题得到有效解决,保证了作业在出现故障时能够快速恢复,提高了系统的稳定性。 关键点包括: 1. Flink基于Buffer进行网络传输,优化了网络连接的重置问题,避免了数据序列化/反序列化异常。 2. 引入了反压机制,避免了Task由于反压导致无法响应网络重置请求。 3. 优化了分布式协议,减少了Master主线程处理Task启动阶段的RPC请求,合并了Jar包,减少了Container启动所需的文件数目。 4. 引入了自动诊断系统,实现了快速的故障感知和处理,提高了系统的稳定性。 展望未来,文章提出了进一步优化稳定性的方向,包括无损单点重启、大状态快速恢复等。
Flink如何优化稳定性实践? Flink在腾讯应用的案例分享 如何提高Flink作业的稳定性?
客服
商务合作
小程序
服务号
折叠