《龙明盛-人工智能工程化软件研发.pdf》由会员分享,可在线阅读,更多相关《龙明盛-人工智能工程化软件研发.pdf(31页珍藏版)》请在三个皮匠报告上搜索。
1、人工智能工程化软件研发龙明盛 清华大学演讲嘉宾龙明盛清华大学软件学院长聘副教授清华大学长聘副教授、软件学院机器学习研究组负责人,国家优秀青年科学基金获得者,入选北京市科技新星和清华大学良师益友。主要研究领域为机器学习理论、算法与模型,专注于迁移学习、深度学习、科学学习及其在自然科学和软件工程中的应用。以第一或通讯作者发表Nature正刊/子刊和JMLR、TPAMI、ICML、NIPS、ICLR论文40余篇,谷歌引用2.6万次,三篇论文入选ICML和NIPS最具影响力论文。担任ICML、NIPS、ICLR、ICCV和CVPR(资深)领域主席,TPAMI和AIJ编委。获教育部技术发明一等奖、北京市
2、科技进步一等奖、IJCAI-FTL时间检验奖,入选机器学习全球高影响力学者、爱思唯尔中国高被引学者、全球前2%科学家。演讲嘉宾目 录CONTENTS1.引言:人工智能工程化方法论2.人工智能大模型研发案例3.人工智能大模型研发挑战4.清华数为Anylearn系统介绍5.Anylearn对大模型研发的支撑6.总结与展望:工业大模型底座团队介绍PART 01团队介绍工 业 数 据 软 件DWF数据管理机器学习数据处理应用开发“清华数为”大数据系统软件团队是专注工业大数据系统软件的科研与工程团队。团队先后研制了工业物联网时序数据库IoTDB、低代码开发工具DWF等产品,覆盖工业数据采集、管理、处理、
3、分析与应用全生命周期。团队带头人:王建民教授引言:人工智能工程化方法论PART 01人工智能工程化方法论CRISP-DMMLOpsML workflow 9 stages在数据、模型和服务层面上的持续迭代是智能软件研发的关键词。而人工智能工程化的核心在于标准化的研发流程和管理方法,通过体系化、规模化的分工协作和资产综合治理,提高研发质量和应用落地效率,推动人工智能技术为产业持续赋能。154人工智能大模型研发案例PART 02人工智能气象领域大模型研发成果NowcastNet短临极端降水预测大模型Nature正刊&专题报道通过全国62位一线预报员评测,性能大幅超过DeepMind中国气象局业务系
4、统(SWAN3.0)上线11人工智能气象领域大模型研发成果Corrformer短期气象预报大模型首个全球自动站协同预报大模型完成全球数万台自动气象站预报仅需1秒入选Nature子刊(NMI)封面未来24小时真实观测Corrformer预报结果欧洲数值模式预报结果8人工智能气象领域大模型研发成果“北京冬奥会是展现国家形象、促进国家发展、振奋民族精神的重要契机。”习近平为2022北京冬季奥运会提供场馆风速、温度预报,助力赛程规划、运动员备战,为北京冬奥会顺利开展发挥重要支撑作用。实现基于实时气象观测的10分钟级风速、温度预报。在2022北京冬奥会场馆平均风速预报中,比主流数值预报误差下降23%,补
5、齐了气象实时预报方面的短板。Autoformer短期时序预测大模型唯一分钟级预报产品并在26站实时运行误差比数值模式降低23%获国家气象中心科技进步一等奖7人工智能大模型研发挑战PART 03大模型时代人工智能工程化挑战研发过程中的产物必然形成大量资产如何管理与追溯?如何复用?大模型的研发资产近百TB处理后的数据集近千个模型参数文件缺乏集约式的存储和管理数据集、预训练模型等资产碎片化资产间难以形成有机关联人员难以形成资产意识、重复造轮子2大模型时代人工智能工程化挑战前人工作复现和新方案研发必然涉及大量迭代实验如何记录与对比?如何分析与改进?大模型的研发迭代近万次大大小小的实验数千次算法代码变更
6、几千份case study结果研发过程缺乏顶层设计实验记录难以保证全面、客观经验和知识难以沉淀10大模型时代人工智能工程化挑战研发工作必然由多人团队协作开展如何组织与分工?如何沟通与汇报?大模型的研发团队项目管理、方案设计、前人工作复现数据收集、清洗、转换缺乏组织和共享机制依赖“人传人”难以形成有效的沟通进度管理难以透明化3清华数为Anylearn系统介绍PART 04清华数为Anylearn清华数为Anylearn是一款大数据机器学习研发管理系统。支持数据集、算法族、模型库等资产管理,支持机器学习研发过程管理、知识沉淀、模型迁移,满足资源统筹利用、团队高效协作等人工智能工程化需求。Anyle