1、DataFunSummit2023阿里云EMR STARROCKS 产品化实践演讲人:李咸海-阿里云-研发工程师 EMR StarRocks 简介 可观测性 增量计算 总结EMR整体架构硬件资源ECS(Intel,AMD,倚天)/神龙/ECI调度资源EMR on ECSEMR on ACKEMR Serverless存储资源OSS-HDFS(Powered by JindoData)分析场景新版数据湖Datalake数据分析OLAP实时数据流Dataflow数据服务DataServing数据科学DataScienceSpark/Hive/Yarn/Presto/HudiDelta/RSS/Ky
2、uubiStarrocks/Doris/Clickhouse/Flink/KafkaHbase/PhoenixTensorflow/Pytorch开发工具开源解决方案 EMR Studio(Notebook,Workflow)企业级开发平台 DataWorks on EMR管控平台弹性调度故障补偿组件管理监控告警集群诊断权限&安全DLF元数据&湖管理EMR StarRocks功能功能半托管半托管全托管全托管系统指标监控一键急速集群部署监控告警版本自动升级SLA保证SR Manager数据管理X产品形态半托管服务 全托管服务 SR ON ECS SR ON ACK EMR StarRocks 简
3、介 可观测性 增量计算 总结可观测性大数据的可观测性:大数据的可观测性:定义:通过指标采集,元数据采集等技术获取到系统的洞察数据,而不是简单的指标罗列。价值:价值:资源分析:更合理的资源利用和更健康的集群使用 分析、根因分析,快速定位问题 问题提示和异常提醒,减轻开发与运维人员的工作量,提高效率采集系统入仓系统分析系统展示系统指标监控原因诊断方案推荐异常预警可观测性内存CPUQPSDisk系统指标CompactionQueryLoadStarRocks Metrics日志采集HeartBeatOpenTelemetryThread PoolEMR Doctor探针调优定位NetworkSLS日
4、志服务可观测性:内存管理process_mem_trackerupdate_mem_trackerupdate_state_cacheIndex_cachedel_vecmetadata_mem_tracker.load_mem_tracker 常见问题:内存配置原因 物理内存限制 Be CrashMem usage has exceed the limit of single query.Mem usage has exceed the limit of BE.可观测性:导入管理导入方式:Stream Load Routine Load Broker Load Insert Into Spa
5、rk Load通过 HTTP 协议导入本地文件、或通过程序导入数据流。.从 Apache Kafka 实时地导入数据流。.从 HDFS 或外部云存储系统导入数据。Flink-conectorCTAS&CDAS查看Kafka分区的lagTask执行情况利用JindoFs加速访问Stream LoadRoutine loadInsert IntoBroker Load内核管控批量导入导入记录转存Profile 可视化导入详情导入失败:Error提示,Core dump性能调优:Profile稳定性 :Safe Mode可观测性:Compaction 管理旧compaction框架 每个tablet
6、 线程一定范围的tablet 遍历所有tablet 对score最高的tablet 做compact新compaction框架 Event Based:导入 schema change,clone 优先级队列 调度compact导入频率过快是否做CompactionToo Many VersionCompaction失败饥饿可观测性:集群画像 集群资源:磁盘,CPU,内存 集群进程:查询:Tablet管理:库,表,分区 FE,BE进程端口探测 查询记录 慢查询分析可观测性:集群画像planoperatorAoperatorBoperatorCschedu