《A2--张海立--无人驾驶云平台的工程质量治理实践.pdf》由会员分享,可在线阅读,更多相关《A2--张海立--无人驾驶云平台的工程质量治理实践.pdf(30页珍藏版)》请在三个皮匠报告上搜索。
1、无人驾驶云平台的工程质量治理实践张海立驭势科技 云平台研发总监张海立驭势科技 云平台研发总监毕业于复旦大学,获硕士学位。驭势科技云平台研发总监,中国信息通信研究院“汽车云”工作组首批专家,目前专注的领域是无人驾驶运营运维平台的标准化和智能化研究。同时作为开源 爱 好 者 和 布 道 师,长 期 关 注 和 致 力 于 云 原 生 和 前 沿 互 联 网 技 术 的 推 广,现 担 任 LangChain Ambassador 和 KubeSphere 用户委员会上海站站长。曾就职于英特尔亚太研发有限公司,担任高级研发经理和架构师。目录C O N T E N T S1.前置:质量治理的目标设定2
2、.实践:全面质量治理框架3.展望:AI Agent 走进质量治理目标设定01质量治理的目标设定明确目标是质量治理的关键 质量治理需要明确的方向和期望结果 目标引导团队聚焦于最重要的质量问题 清晰的目标有助于资源分配和优先级判断目标应该具体、可衡量、与业务相关 具体:明确定义预期的质量水平和改进范围 可衡量:设定量化指标,便于跟踪和评估进展 相关性:目标应直接关联到业务场景的核心需求例如:将调度系统故障平均恢复时间(MTTR)降低 50%到 3 分钟以内目标驱动的方法可以推动工程实践和架构优化 引导团队持续改进开发流程和工具 促进架构设计考虑质量属性(如可靠性、可扩展性)激励创新,寻找新的技术和
3、方法来提升质量无人驾驶云平台的质量治理目标“智能的”调度系统一个机场货运调度的故事好平台=可“故障预警”能“快速响应”的系统治理框架02软件技术架构的长期治理 为什么需要 ADR有 HLD、LLD 还不够吗?可观测性能力的构建全栈监控系统实施 基础设施监控:服务器、网络、存储等 应用性能监控:服务响应时间、吞吐量等 日志管理:集中式日志收集、分析和检索 分布式追踪:跨服务调用链路分析告警和异常检测 建立多层次告警机制 实现智能告警聚合和降噪 利用 AI 能力进行异常模式识别可视化和报告 开发自定义仪表板,展示关键指标 实现自动化报告生成 提供实时状态大屏全栈监控系统实施业务可观测性的布局定义业
4、务关键指标(KBI)识别核心业务流程和关键节点 建立业务指标与技术指标的映射关系例:无人驾驶决策延迟、路径规划准确率等业务流程监控 实现端到端业务流程追踪 监控业务规则执行情况 分析业务异常和瓶颈用户体验监控 收集和分析用户行为数据 监测应用响应时间和错误率 实施客户满意度调查和反馈机制“消失的”操作按钮另一个机场货运调度的故事业务可运维性的落地定义业务关键指标(KBI)识别核心业务流程和关键节点 建立业务指标与技术指标的映射关系例:无人驾驶决策延迟、路径规划准确率等业务流程监控 实现端到端业务流程追踪 监控业务规则执行情况 分析业务异常和瓶颈用户体验监控 收集和分析用户行为数据 监测应用响应
5、时间和错误率 实施客户满意度调查和反馈机制 怎样做好可视化可视化就是堆数据图表吗?AI 智能体03LLM Agent 的能力边界浅谈自然语言理解和生成 解析复杂的运维指令和查询 生成人类可读的故障报告和解决方案知识整合和推理 综合多源信息进行故障诊断 提供基于上下文的优化建议自主决策和执行 在预定义的安全范围内执行自动化操作 动态调整系统参数以优化性能持续学习和适应 从历史数据中学习模式和最佳实践 适应新的系统架构和技术变革当前实践中的挑战和机遇挑战 数据安全和隐私保护 AI 决策的可解释性和可审核性 与现有运维工具和流程的集成 处理高度动态和复杂的系统状态机遇 显著提高运维效率和响应速度 实现更精确的预测性维护 减少人为错误,提高系统可靠性 促进知识传承和经验积累未来发展方向 构建专门针对无人驾驶场景的 AI 运维助手 开发混合人机协作的智能运维平台 探索 AI 在复杂决策和风险评估中的应用 破局“人”力管理如何组织好硅基人和碳基人 感谢聆听关注公众号