1、AI 大模型加持运维建设周琦(简志)阿里云资深专家提纲 背景:数字化对生产力的要求 阶段一:垂直工具驱动 阶段二:数据和算法驱动 阶段三:垂直模型助力 阶段四:领域知识+AGI 展望数字化对生产力要求研发Debug研发测试联调开发迭代监控运维开发迭代运维运营安全研发中集成中上线后上线中Scope变大:服务全球关注面增多:系统,软件,用户多能:承担测试、部分运维与运营工作需要快速响应大量实时、碎片化、关键的数据分析工作观察+分析部署+上线创新创新观察+分析创新云计算+云原生数字化时代一套套垂直系统阶段一:垂直工具驱动软件Box:黑盒PerfCounterGlobalFlag模块水平集成RPC 带
2、来的需求:Trace控制:流量调度计算:Agg、Max、Group、Filter模块水平集成计算:时空对齐,全局调度,根因分析控制:迁移更多Metric外部系统引入:可观测数据融合 Log:可能在说什么 Metric(QPS/Latency):大致行为 APM/Profling技术:切开来看看?MetricLogSQLTraceSQLSearchSearchDSLSearch数据关联,存储分析Traces Metrics Logs统一的协议:OpenTelemetryOpenTracing,OpenCensus 合并为 OpenTelemetry可观测数据的三大支柱:Logging、Metri
3、cs、Tracing多家厂商支持 OpenTelemetry,如 AWS,Azure,GCP,Alibaba Cloud,Datadog,Elastic,Dynatrace,New Relic,Splunk Logging:离散的日志信息 Metrics:聚合的指标 Tracing:请求级别的链路追踪统一存储统一分析数据关联可视化编排Logging/Metrics/Tracing,可观测多模态数据新视角一套套垂直系统可观测数据统一存储统一存储、分析平台阶段二:多模态数据统一存储+分析1.1.独立系统独立系统2.2.数据孤岛数据孤岛3.3.增加系统增加系统-人力负担人力负担统一采集、存储、分析1
4、.1.接口统一接口统一2.2.数据互联互通数据互联互通3.3.增加数据增加数据-丰富场景丰富场景算力+算法 提升效率平台型工具趋势平台型工具趋势ITOMSIEMDevOps统一存储带来好处数据上游阿里云SLS 开放兼容的数据生态 兼容多源数据 统一采集(iLogtailiLogtail 已开源已开源)全栈能力 开放选择:兼容开源及自有的实时计算生态 更高性价比更高性价比,免费计算资源,Serverless 兼容兼容 ElasticsearchElasticsearch、KafkaKafka、PrometheusPrometheus、CKCK,99%99%情况下无缝迁移情况下无缝迁移SLS 统一
5、可观测存储SLS 内置 Serverless 分析能力-查询分析:查询检索(百亿记录秒级检索);SQL 统计分析;日志聚类、内置算子;可观测数据关联分析-可视化:仪表盘,30+类型图表;页面嵌入自有系统兼容开源引擎与工具-实时计算:流式计算 Spark Streaming,开源 Flink,Storm;云产品函数计算,实时计算 Blink-可视化:Grafana,Tableau,KibanaLogLogKafkaFlumeBeats和 logstashSyslogWeb TrackingMetricMetricPrometheus 监控数据Telegraf 数据OpenTelemetryOpe
6、n-Falcon数据TraceTraceSkywalkingJaegerZipkinOpenCensusEventsEventsZabbix/Prometheus alerts 三方告警源云产品数据(日志云产品数据(日志/监控监控/审计审计/账单账单)ECS/OSS 等 50+云产品日志,云监控,Actiontrail,费用中心加工投递加工投递OSS(数据湖入湖)maxcomputeADB第三方第三方 SIEMSIEMSplunkQradar告警通知渠道告警通知渠道钉钉/电话/邮件/短信/Slack/飞书/企业微信/webhook 离线数仓 数据湖入湖的最佳方案 安全护(日志审计 投递)数据下