1、1演讲人:刘向阳23智能家居提供最佳体验的全屋智能家居及服务新能源及工业技术在绿色能源与工业核心部件领域,为全球泛工业客户提供绿色、高效、智慧的产品和技术解决方案智能建筑科技为楼宇建筑提供整体解决方案和服务智能制造的基石基于机器人的自动化解决方案机器人与自动化健康医疗打造国际一流医疗设备供应商和服务商智慧物流端到端、数智化供应链解决方案提供商自主业务456中立云公有云1公有云2公有云3客户A数据中心1客户A数据中心2客户A数据中心37中立云数字化底座跨云物理资源数字化业务应用研发云服务器生产供应链营销售后大数据业务金融实机例中立云基础底座通用计算操作系统实机例中立云大数据平台大数据研发平台实机
2、例中立云运维平台自动化运维平台全栈监控平台大数据引擎平台实机例中立云数据库平台数据库管理平台数据库引擎平台实机例中立云安全平台机密管理平台攻击模拟平台终端安全平台自有IDC 1自有IDC 2研发效能平台应用管理平台API网关服务治理流量防护任务调度容器平台配置中心敏捷项目管理平台研发管理平台自动化测试平台度量平台基于AI全流程研发效能平台对象存储存储块存储私有网络VPC网络(虚拟)负载均衡LBGPU虚池化AI算力平台云下云上统一调度零信任DLP准入桌管统一认证平台账号认证授权审计VMwareRedHatSAN存储F5DataBricksSplunkCloudera CDPDynatraceFo
3、rtinet VPNForescoutMcAfee DLP联软桌管自有IDC n公有云1公有云2公有云n8910白天 GPU190晚上 GPU10GPU1111硬件基础设施(本地多个IDC)AI算力平台基础设施虚拟化引擎厂商1 GPU虚拟化计算(异构CPU/异构GPU)存储网络多集群统一API公有云研发生产供应链销售售后金融场景算力池化算力调度层级队列节点均衡弹性调度GPU指定优先级调度资源预留算力切分显存切分资源混部异构支持虚拟显存动态调整AI加速镜像加速数据加速数据编排计算加速白屏化运维运营能力统一资源管理队列管理多租体系集群管理资源管理模型与数据计量计费故障发现故障管理故障恢复AI中间件
4、能力调度增强掉卡重训拓扑感知负载感知设备均衡节点均衡成本分析费率优化用量推荐AI网关modelmesh调用链追踪零信任安全插件管理OpenAPI资源可视化厂商2 GPU虚拟化公有云1公有云2公有云n12GPU虚拟化vGPUvgpuvgpu vgpuvgpuvgpu vgpuvgpuvgpu vgpuvgpu vgpuvGPU1vGPU2vGPU3算力:50%显存:24G算力:25%显存:24G算力:25%显存:24GvGPUvGPU vGPU13快速发现:5分钟内发现并报警故障事件多重视角:全面展示指标/故障根因分析:全链路的故障根因分析14151按部门/系统查询资源用量2查询统计报表3GPU
5、资源大盘4业务GPU大盘5算力纳管大盘161718192021 外部系统对账:支持与资产采购等外部系统对账 异常IP(CMDB无记录)通过SNMP、NMAP自动发现 异常IP(CMDB无记录)可视化22全栈监控平台MonitorSpace23242526前后端调用拓扑自动发现272829大数据开发平台DataMax30313233数据开发技术栈作业类型离线作业Impala-SQLSpark-SQLSpark-Jar实时作业Flink-SQLFlink-Jar离线作业开发ShellPythonHive-SQL数据开发模块:支持丰富的大数据开发技术栈离线作业支持6种粒度的调度(分钟、小时、天、周、
6、月、年)支持自定义函数开发,便于实现特殊的数据处理逻辑支持分支节点、虚拟节点、赋值节点,便于开发复杂的作业链路支持事件开发,便于在作业执行前后,做特殊处理支持作业模版,便于代码复用实时作业开发实时作业支持 Flink-SQL&Flink-Jar 两种开发模式支持 Flink 多版本支持 Flink-SQL 虚拟表的元数据复用,避免重复开发支持 6 种 Flink-SQL 的 Connector 实时Flink-SQL作业实时Flink-Jar作业离线SQL作业离线SQL作业调度配置脚本作业343536373839404142直连数据库,没有白屏化在线查询和变更工具会带来以下3类问题434445