1、APACHE SPARK APACHE SPARK 在在观远自助分析系统的应观远自助分析系统的应用实践用实践c che Sparkhe Spark 在观远在观远自助分析系统的应用实践自助分析系统的应用实践与优化与优化周翔 观远数据研发工程师|0101观远自助分析产品观远自助分析产品简介简介0202观远自助分析系统的观远自助分析系统的挑战挑战0303相关解决相关解决方案方案0404总结与未来总结与未来展望展望目录目录 CONTENTCONTENT|0101观远自助分析产品简介观远自助分析产品简介|观远数据成立于2016年,以“让业务用起来 让决策更智能”为使命,致力于为零售、消费、金融、高科技、
2、制造、互联网等行业的领先企业提供一站式数据分析与智能决策产品及解决方案。观远数据已深入服务联合利华、LVMH、招商银行、安踏、华润集团、扬子江药业、元气森林、小红书、蜜雪冰城等400+行业领先客户。2022年2月观远数据完成2.8亿元C轮融资,由老虎环球基金领投,红杉中国、线性资本、襄禾资本和独秀资本跟投。观远自助分析产品简介观远自助分析产品简介|观远自助分析产品简介观远自助分析产品简介交互式查询多种图表灵活拖拽秒级响应|观远自助分析产品简介观远自助分析产品简介数据处理(smart etl)零门槛多数据源融合复杂任务处理|观远自助分析产品简介观远自助分析产品简介|观远自助分析产品简介观远自助分
3、析产品简介|0202观远自助分析系统的观远自助分析系统的挑战挑战|观远自助分析系统的挑战观远自助分析系统的挑战灵活的部署方式与系统架构SaaS-私有化-云平台-容器化、组件化单机-多节点-大规模集群|观远自助分析系统的挑战观远自助分析系统的挑战稳定高效的计算服务|大规模集群复杂的离线任务活跃的社区良好的适配性秒级响应稳定的服务高并发观远自助分析系统的挑战观远自助分析系统的挑战灵活的资源调度与隔离部门部门A A部门部门B B部门部门C C统一任务分配统一任务分配层层查询引擎查询引擎A A离线引擎离线引擎A A查询引擎查询引擎B B离线引擎离线引擎B B查询引擎查询引擎C C离线引擎离线引擎C C
4、|观远自助分析系统的挑战观远自助分析系统的挑战优秀的查询体验复杂查询高并发多种架构|观远自助分析系统的挑战观远自助分析系统的挑战强大的数据处理能力稳定性系统吞吐量|0303相关解决相关解决方案方案|相关解决方案相关解决方案灵活的部署方式基于docker、kubernetes容器化部署方案基于Apache Spark,无缝接入CDH等大数据平台存算分离,支持nas、s3、HDFS、Azure ADLS等多种存储|相关解决方案相关解决方案灵活的资源调度与隔离Job Control TowerJob Control TowerYarn/Spark StandaloneYarn/Spark Stand
5、aloneSpark Engine1Spark Engine3Spark Engine2ClientClientRESTful APIsubmitfetchQueue1Queue2Queue3使用JSON格式定义分配规则|相关解决方案相关解决方案稳定高效的计算服务提高常驻spark application稳定性Rule Based Optimizer -修改代码、优化sqlBroadcast Hash Join -限制广播内存使用|相关解决方案相关解决方案稳定高效的计算服务多application、异常任务监控、engine探活及重启机制 Join Key设置不正确运行前检查及提醒、运行中检测
6、并取消 shuffle数据量过大单task资源限制、shuffle文件清理机制 取消任务资源不释放自动检测并释放资源|相关解决方案相关解决方案优秀的查询体验任务分离引擎的水平扩展|相关解决方案相关解决方案优秀的查询体验基于spark metric动态判断任务执行资源消耗查询查询请求请求任务任务中心中心执行引擎执行引擎A A执行引擎执行引擎B B执行引擎执行引擎C C慢慢引擎引擎 提升整体查询体验 针对性优化复杂任务|相关解决方案相关解决方案强大的数据处理能力管控机制:节点数、