《demo-陈迪豪-基于LLVM的高性能Flink Native执行引擎应用实践-LYS.pdf》由会员分享,可在线阅读,更多相关《demo-陈迪豪-基于LLVM的高性能Flink Native执行引擎应用实践-LYS.pdf(35页珍藏版)》请在三个皮匠报告上搜索。
1、基于LLVM的高性能Flink Native执行引擎应用实践 陈迪豪 第四范式先知平台架构师 Bring high-performance LLVM-based native execution engine for Flink 关于我们 第四范式成立于2014年底,是国际领先的人工智能平台与技术服务提供商 首创AIOS系统降低AI落地门槛,自研大规模调度系统资源利用率提升50% 基于LLVM加速的Spark/Flink发行版,性能相比开源版本可提升6倍至67倍 About Us 4PD Flink拓展优化 #2 4PD Flink应用场景 #1 Flink Native执行引擎 #3 Fli
2、nk未来发展方向 #4 4PD Flink Extensions4PD Flink ApplicationsFlink Native Engine Flink In Future 4PD Flink应用场景 #1 4PD Flink Application Streaming-first 流式功能丰富,应用开发接口简单 ,能支持毫秒级流式数据处理 Fault-tolerance 支持主从高可用,无单点故障,与 Yarn / Kubernetes等框架集成度 高 Extensibility 可拓展性强,Source / Sink拓展接 口丰富,支持多语言的UDAF实现 Flink流式框架特性 #
3、2#1#3 Features Of Flink 4PD机器学习自学习系统 行动:用户搜索、曝光等行为信息 反馈:用户对于曝光物料的反馈 反思:基于用户行为、反馈数据,更新模型 理论:学习产生的新模型更新到系统中 反馈 feedback 反思 thinking 理论 theory 行动 action 引用:David Kolb体验学习:体验学习发展的源泉 4PD Self-learning System 4PD机器学习自学习系统 1. 用户基本行为数据接入 2. 数据分发到在线预估和消息队列 3. 实时部分 基于特征和模型的推理预估 4. 流式部分 用户行动数据接入 流式特征数据拼接 离线模型训练和更新 4PD Self-learning System 4PD数据引入管理系统 流式数据引入 Kafka 批数据引入 HDFS / FTP / DBMS / File 定期数据引入 数据格式 CS