《全方位评测神经网络模型的基础能力.pdf》由会员分享,可在线阅读,更多相关《全方位评测神经网络模型的基础能力.pdf(58页珍藏版)》请在三个皮匠报告上搜索。
1、全方位评测神经网络全方位评测神经网络模型的基础能力模型的基础能力演讲人:张铭 二级教授北京大学计算机学院 博士生导师mzhang_mzhang_张铭简介张铭简介研究方向为机器学习、图神经网络、知识图谱、推荐系统、AI for Science等发表论文300多篇,Google学术上的论文被引19200余次,H 因子 48LINE模型WWW2015 被引6300余次,图表征学习基准模型获ICML2014 惟一最佳论文,WWW 2016最佳论文提名,ICDM 2022最佳论文提名张铭主持的在研项目2023.11 2026.12,多层次教育知识图谱构建、检索与推理,国家重点研发计划课题国家重点研发计划
2、课题2023.1 2026.12,预训练图表示学习辅助的药物发现研究,国家自然科学基金国家自然科学基金2023.10-2026.10,北大-安克具身智能联合实验室,安克创新2023.8 2024.8,低信噪比时序数据的可扩展式计算表征学习(二期),正仁量化2023.11 2025.10,指导北京市自然科学基金本科生“启研”计划教育部计算机教指委委员,获2021年CCF杰出教育奖主持北京大学数据结构与算法,获国家级精品课程、首批国家一流本科课程北京大学科技创新与创业校友讲座课程主持人CONTENTS目 录01背景与动机02多模态STEM能力评测03语言与社会规范评测04总结与展望背景与动机当前的
3、评测指标缺少了什么?背景与动机:多模态背景与动机:多模态 STEMSTEM 数据集的缺乏数据集的缺乏STEMSTEM 能力是解决能力是解决真实世界真实世界中许多中许多重要问题的基础重要问题的基础模型是否模型是否理解多模态理解多模态 STEMSTEM 科目科目的能力至关重要的能力至关重要制造一艘火箭,需要具备哪些能力?科学(Science)技术(Technology)工程(Engineering)数学(Math)背景与动机:多模态背景与动机:多模态 STEMSTEM 数据集的缺乏数据集的缺乏过去的评测数据集常常只关注过去的评测数据集常常只关注专家级别的能力专家级别的能力,涵盖的,涵盖的技能过于分
4、散技能过于分散缺少针对缺少针对 STEMSTEM 科目的多模态数据集科目的多模态数据集背景与动机:社会规范基础能力评测的缺乏背景与动机:社会规范基础能力评测的缺乏可信可靠的可信可靠的 AIAI 系统应当遵循一定的系统应当遵循一定的社会规范与习俗社会规范与习俗(SocialSocial NormsNorms)我可以把瓶子扔到草地上吗?这么做或许并不违反法律这么做不符合社会规范社会规范背景与动机:社会规范基础能力评测的缺乏背景与动机:社会规范基础能力评测的缺乏大语言模型大语言模型对人类基础的对人类基础的社会规范社会规范的理解能力在它们与的理解能力在它们与人类合作人类合作过程中至关重要过程中至关重要
5、Social NormsHistoryLanguageGeographyPhilosophyCivics背景与动机:社会规范基础能力评测的缺乏背景与动机:社会规范基础能力评测的缺乏过去的评测数据集常常只关注于过去的评测数据集常常只关注于高阶的人类价值观高阶的人类价值观缺少数据集用来评测模型对于缺少数据集用来评测模型对于社会规范形成过程中的基础能力社会规范形成过程中的基础能力的掌握的掌握解决方案解决方案STEMSTEM 数据集:评估模型的基础数据集:评估模型的基础 STEMSTEM 科目的能力科目的能力发表于机器学习国际顶会发表于机器学习国际顶会 ICLRICLR 20242024 会议会议Da
6、taset:https:/huggingface.co/datasets/stemdataset/STEMDataset:https:/huggingface.co/datasets/stemdataset/STEMCode:https:/ 数据集:评估模型对于基础社会规范的掌握数据集:评估模型对于基础社会规范的掌握发表于自然语言处理国际顶会发表于自然语言处理国际顶会 NAACLNAACL 20242024 会议会议Dataset:https:/huggingface.co/datasets/socialnormdataset/socialDataset:https:/huggingface.