《西藏大学:2025新一代人工智能技术发展及其应用报告(111页).pdf》由会员分享,可在线阅读,更多相关《西藏大学:2025新一代人工智能技术发展及其应用报告(111页).pdf(111页珍藏版)》请在三个皮匠报告上搜索。
1、20252025年年4 4月月9 9日日主讲人:尼玛扎西主讲人:尼玛扎西 中国工程院院士中国工程院院士 西藏大学信息科学技术学院教授西藏大学信息科学技术学院教授新一代人工智能技术发展及其应用信息科学技术学院藏语智能全国重点实验室尼玛扎西目 录人工智能新一代人工智能第一部分第二部分人工智能+第三部分 人工智能的定义人工智能的动力人工智能与算力人工智能与算法人工智能与数据我国的人工智能自监督学习大语言模型Transformer自然语言处理强化学习ChatGPT与DeepSeekAI4EducationAI4ScienceAI4LifeAI+政务AI+新质生产力AI正在接替部分职业第一部分第一部分
2、人工智能人工智能 人工智能的定义 人工智能的动力 人工智能与算力 人工智能与算法 人工智能与数据 我国的人工智能AI 的定义-图灵测试A.M.Turing,Computing Machinery and Intelligence,Oxford University Press on behalf of the Mind Association,1950.由英国科学家阿兰 图灵于1950年提出一名测试者写下自己的问题,随后将问题以纯文本的形式(如计算机屏幕和键盘)发送给另一个房间中的一个人与一台机器测试者根据他们的回答来判断哪一个是真人,哪一个是机器AI 的定义-7个研究问题McCarthy J
3、,Minsky M,Rochester N,et al.A proposal for the dartmouth summer research project on artificial intelligence,August,31,1955.AI Magazine,2006,27(4):12-141955年达特茅斯人工智能暑期研讨会建议书中所提的7个研究问题提出了“人工智能”这一名词AI 的定义-达特茅斯会议McCarthy J,Minsky M,Rochester N,et al.A proposal for the dartmouth summer research project o
4、n artificial intelligence,August,31,1955.AI Magazine,2006,27(4):12-14会议围绕“如何让机器模仿人类学习及其他智能行为”展开,探讨了通过计算机实现推理、语言理解、模式识别等能力的可能性标志着“人工智能”学科的正式确立会议为AI 奠定了基础理论框架,包括符号推理、机器学习、自然语言处理等核心方向,并激发了后续算法研究AI 的定义人工智能深蕴于计算机科学、脑科学、类脑科学、认知科学、控制论等基础科学之中,直接表现为机器学习、计算机视觉、自然语言处理、智能语音、知识图谱、大模型、智能体、群体智能、具身智能等技术形态,外化为人形机器人、
5、数字人、智能终端、智能运载工具、智能软件等产品形态人工智能通过类脑计算增强脑力劳动的新能级,通过“机器换人”培育体力劳动的新动能,带动农业、工业和服务业中的脑力劳动与体力劳动的第四次变革,形成新兴的人工智能产业AI 的定义-三大学派符号主义学派(逻辑学派)联结主义学派(仿生/生理学派)行为主义学派(控制论)代表人物Herbert Simon,Alan Newell,RaySolomonoffMarvin Minsky,McCulloch,Pitts,HintonNorbert Wiener,Claude Shannon,Brooks主要思想人的认知基元是符号,认知过程即符号操作过程人的思维基元
6、是神经元人的智能取决于感知和行动,生物启发式学习和进化研究领域机器证明、自动机、模糊逻辑、专家系统、知识库等人工神经网络、认知科学、类脑计算等演化计算、多智能体、群体智能等可解释性可解释不可解释可解释主要特点基于知识推理基于模型计算(以数据为基础)基于环境感知、反馈控制AI发展以“知识推理”为重点(手工知识)、到以“数据统计”为重点(统计学习)、再到以“计算学习”为重点(数据智能)徐宗本,姚新,数据智能研究前沿,上海交通大学出版社,2021.AI 的动力-计算的4个时代机械计算时代电子计算时代网络计算时代智能计算时代1200s1940s算盘中国发明最早的计算工具雅卡尔提花织机法国人雅卡尔发明“
7、编程”的概念,通过打孔卡片控制印花图案(1801年)步进计算器德国人莱布尼茨发明第一台自动完成四则运算的装置(1673年,乘法器)AI 的动力-计算的4个时代机械计算时代电子计算时代网络计算时代智能计算时代1950s1970s描述程序和硬件的底层逻辑将复杂任务转化为自动化过程提出了三原则:1.二进制逻辑2.程序存储执行3.由运算器、控制器、存储器、I/O设备组成构成基本的逻辑电路和存储电路的半导体器件现代计算技术基础布尔代数图灵机晶体管冯诺伊曼架构AI 的动力-计算的4个时代计算机跨越的第一个分水岭1970年代开始的第四代计算机:以大规模、超大规模集成电路为主要器件;运算速度达每秒几百万次至上
8、亿次基本运算。软件方面出现数据库管理系统、网络管理系统和面向对象语言等70年代,计算机完成从物质到“思维”的转变机械计算时代电子计算时代网络计算时代智能计算时代1950s1970sAI 的动力-计算的4个时代机械计算时代电子计算时代网络计算时代智能计算时代1980s2020sTCP/IP协议通过协议分层架构、可靠传输机制和开放标准,构建了互联网的神经中枢TCP/IP协议让所有上网设备(手机/电脑/服务器)都遵守相同的通信规则,保证跨设备通信的畅通。定义了开放的通信标准,让不同公司可以开发各种网络应用,而不用担心底层通信问题提出者罗伯特卡恩荣获2004年图灵奖AI 的动力-计算的4个时代机械计算
9、时代电子计算时代网络计算时代智能计算时代1980s2020s互联网以“人”为中心将人使用的计算机与终端与后台数据中心连接,互联网的应用通过计算机和智能终端与人进行交互互联网深刻彻底地改变了人类社会,我们的工作、生活和学习几乎离不开它AI 的动力-计算的4个时代机械计算时代电子计算时代网络计算时代智能计算时代2020至今物理世界的端侧设备被数字化、网络化和智能化,实现“人、机、物”三元融合除互联网外,还有数据基础设施支持各类终端通过端边云实现万物互联,终端、物端、边缘、云都嵌入AI,提供大模型智能服务,实现有计算的地方就有AI智能计算带来了巨量数据、人工智能算法的突破和对算力的爆发性需求!AI
10、的动力-计算的4个时代机械计算时代电子计算时代网络计算时代智能计算时代2020至今 传统AI局限于数字世界的符号推理,而具身智能通过机器人实体与环境实时交互,实现感知、认知、决策和行动一体化揭示了智能的本质:必须通过身体与环境的动态互动来塑造和体现 机器人在工厂与工人协作时,通过强化学习不断优化动作序列,人类则专注于策略规划,形成人类创意+机器效率的新分工模式。AI 的动力-计算的4个时代从“有意识思维”过程到“无意识思维”过程的转变计算机跨越了第二个分水岭这一过程的转变涉及到“莫拉维克悖论”(Moravecs Paradox)机械计算时代电子计算时代网络计算时代智能计算时代2020至今AI
11、的动力-计算的4个时代“莫拉维克悖论”(Moravecs Paradox)。计算机善于处理人类觉得困难的问题,而不擅长处理对于人类而言很容易的问题或者说:不同于传统假设,计算机实现逻辑推理等人类高级智慧只需相对很少的计算能力,而实现感知、运动等低级智慧却需要巨大的计算资源机械计算时代电子计算时代网络计算时代智能计算时代2020至今人工智能先驱汉斯 莫拉维克写道(1988年):“让计算机在智力测试或下棋上中展现出一个成年人的水平是相对容易的,但是要让计算机拥有如同一个一岁小孩般的感知和行动能力却是相当困难甚至是不可能的。”莫拉维克揭示的这些现象与我们生活中 的 常 识 相 左AI的动力-计算的4
12、个时代机械计算时代电子计算时代网络计算时代智能计算时代2020至今 语言学家和认知科学家史迪芬 平克(Steven Pinker)认为这是人工智能研究者的最重要发现,在他1995年出版的专著“The Language Instinct”(语言本能)中,他写道:经过35年人工智能的研究,人们学到的主要内容是“困难的问题是简单的,简单的问题是困难的”“困难的问题是简单的,简单的问题是困难的”AI的动力-计算的4个时代机械计算时代电子计算时代网络计算时代智能计算时代2020至今这反映了人类思维特征:两种截然不同的思维方式:有意识的:当你在超市用心算计算所买物品的价格时,使用的是逻 辑 思 维,这 与
13、 直 觉 无 关有意识的、谨慎的、有逻辑的语言思维无意识的、快速的、本能的非言语思维无意识的:当你走独木桥时,或被磕绊努力保持身体平衡时,使用的是本能的思维方式,这与逻辑无关AI的动力-计算的4个时代机械计算时代电子计算时代网络计算时代智能计算时代2020至今一个例子:我坐在咖啡馆里边看书边喝咖啡 我坐在咖啡馆里,在专心地看着书的同时拿起咖啡杯喝了一口。这可不是件简单的事,在机器人研发领域,人们至今仍在绞尽脑汁想让机器人顺利无阻地完成此类任务 简单地说这涉及我的视觉系统(可能是靠余光)先扫描整个场景,锁定杯子,运动皮质准确地协调整个躯干、胳膊、前臂和手部的肌肉收缩,当手触碰到杯子时,我的神经系
14、统就传回了有关杯子重量、空间位置、温度、手柄光滑度等大量的信息。这些信息通过大脑的海量计算和反馈调整。最终在几分之一秒里,使我拿起杯子送到嘴边并喝下咖啡AI的动力-计算的4个时代机械计算时代电子计算时代网络计算时代智能计算时代2020至今我们能够理解人类自身是如何做算数、代数和下棋的,但我们不是太了解我们是如何认出一只猫的,也不太清楚当我们跑过山路时是如何保持身体平衡的AI的动力-计算的4个时代机械计算时代电子计算时代网络计算时代智能计算时代2020至今机器学习通过改变计算机编程方式解决了悖论通过机器学习(深度学习),人类使计算机对一个庞大的模型进行推理计算,最后得出某个特定问题的可能的解AI
15、的动力-计算的4个时代机械计算时代电子计算时代网络计算时代智能计算时代2020至今直到不久前,我们还在用计算机编程的方法教计算机完成特定任务(事情)计算机从“服从”到“认知”的转变这些程序一步一步地设计计算机在可能遇到的各种情况下应该做什么?怎么做。但是这就意味着我们自己必须在教计算机处理问题之前,首先清楚地理解我们自己处理问题时的思考方式AI的动力-计算的4个时代机械计算时代电子计算时代网络计算时代智能计算时代2020至今AI 的三架马车 数据是训练AI模型的原材料,包括结构化(表格)、非结构化(文本、图像、视频)和半结构化数据 算力是运行算法所需的计算能力,依赖 硬 件(CPU/GPU/T
16、PU)和 软 件(并行计算框架)算法是AI实现智能的逻辑规则和数学模型,如机器学习、深度学习、强化学习等案例:AlphaFold(算法)通过海量蛋白质序列数据(数据)和超级计算机(算力)预测蛋白质三维结构https:/ 规模Velocity 高速Variety 多样Value 价值AI 与数据以前利用统计学的原理、抽样的方法分析问题。但是,这显然没有全部数据更能说明问题全量数据的采集、存储、处理与分析的需求,推动产生了系列大数据技术,其中的重点在基于分布式技术的数据存储与处理Big Data:Whole Data(KB、MB、GB、TB、PB、EB、ZB、YB、NB、DB)TB、PB级的结构化
17、、非结构化和半结构化数据。预计到今年,全球数据使用量将达到175ZB(1ZB=270Byte)AI 与数据AI与大数据技术二者联系密切深度学习 通过大量的样本数据进行模型训练,需要应用大数据技术存储与计算、分析这些数据 大数据技术支撑了人工智能算法的实现 人工智能更像是大数据技术中数据分析技术的高级阶段。曾经的数据仓库、数据挖掘技术AI 与数据数据的重要性怎么强调都不为过!当前,典型个人计算机硬盘的容量为TB量级,而一些大企业的数据量已经接近EB量级如果将机器学习算法比作一架机器,那么数据就是驱动这架机器的燃料,没有燃料驱动,机器设计得再精巧也只能是摆设。而事实上,数据确实被誉为未来的“石油”
18、AI 与数据数据估计值、全球不同语种的数据不平衡AI与数据人类目前所有印刷品的数据量约为200PB(1PB=250Byte)人类所说过的话的数据量约为4ZB(1ZB=270Byte)人类大脑存储容量相当于7.6亿TBVillalobos,Pablo,et al.Will we run out of data?Limits of LLM scaling based on human-generated data.arXiv preprint arXiv:2211.04325(2022).英语数据占互联网内容的50%以上,中文数据虽占15%,但方言数据稀缺,小语种数据更是占比不到0.1%数据正在枯
19、竭!AI 的数据 研究机构Epoch AI近日公布的研究预测,到2028年,用于训练AI模型的典型数据集的规模将达到公共在线文本总量的估计规模Villalobos,Pablo,et al.Will we run out of data?Limits of LLM scaling based on human-generated data.arXiv preprint arXiv:2211.04325(2022).Nature在头版敲响警钟AI革命正“吸干”互联网数据的海洋这意味着,未来几年内,AI大模型可能会耗尽可用于训练的高质量数据资源深度学习需要大量的训练数据,目前的AI技术还是数据驱动的
20、当数据规模越来越大时,神经网络结构更加复杂的深度学习模型更能够从大数据中提取(学习)到有效的特征,模型性能也随之非常明显地上升当数据量较小时,传统机器学习模型的性能与神经网络模型的差别不大AI 与数据Preetum Nakkiran,Gal Kaplun,Yamini Bansal,Tristan Yang,Boaz Barak and Iiya Sutskever.Deep double descent:where bigger models and more data hurt.Journal of Statistical Mechanics:Theory and Experiment,2
21、021我们今天正在使用的巨大的数据集,在几年前是想得而不能的。现在,大数据无处不在且大得惊人Big Data的单位一般以TB、PB衡量。1PB=1024TBAI 与数据若算力是深度学习的喷气式发动机,数据则是燃料。吉尔德定律(Gilders Law)保证了燃料供应Gilders Law:主干网带宽的增长速度至少是运算性能增长速度的三倍,而主干网的网络带宽的不断增长意味着各种新的网络应用方式的出现和网络用户的使用费用的不断下降(CERNET主干网总带宽3.15T以上,中国电信主干网总带宽458T)深度学习的大数据传输:AI 与数据算力:就是单位时间内硬件能够完成的某种运算的量。比如浮点计算、整数
22、计算等1MOPS(Million Operation Per Second):处理器每秒钟一百万次(106)操作1GOPS(Giga Operations Per Second):处理器每秒钟十亿次(109)操作1TOPS(Tera Operations Per Second):处理器每秒钟一万亿次(1012)操作FLOPS(floating-point operations per second):每秒执行浮点运算次数1MFLOPS(Mega FLOPS)每秒一百万(106)次的浮点运算1GFLOPS(Giga FLOPS)每秒十亿(109)次的浮点运算1TFLOPS(Tera FLOPS)
23、每秒一万亿(1012)次的浮点运算1PFLOPS(Peta FLOPS)每秒一千万亿(1015)次的浮点运算MOPS、GOPS和TOPS是操作次数,FLOPS是浮点运算次数哈希率:比特币网络处理能力的度量单位,即CPU计算哈希函数输出的速度。比特币网络必须为了安全目的进行密集的数学和加密操作。例如,当网络达到10Th/s的哈希率时,意味着它可以每秒进行10万亿次计算AI 与算力训练神经网络模型,使它像人一样识别图片或理解人类语言所需的算力是十分惊人的。深度学习中的模型权重值调整涉及大规模的“矩阵反演”数学运算模型训练训练一个大模型,甚至需要1024次的浮点数运算。这就要求计算机的算力足够强大A
24、I 与算力最简单的答案就是:有了更强的计算力!为什么现在AI发展的如此神速?Moores law:称为计算机第一定律,指IC上可容纳的晶体管数目,约每隔18/24个月便会增加一倍,性 能 也 将 提 升 一 倍曾经的摩尔定律(Moores law)AI 与算力神经网络的基础感知机是上世纪50年代提出的今天,摩尔定律的乐观已不复存在,CPU性能的提升降至每年不足3%,实现性能翻倍需20年现在芯片线路可达23纳米级别,相当于在这个尺度上只能容纳10个原子台积电3纳米工艺:每平方毫米集成2.5亿晶体管(指甲盖大约1平方厘米)量变引起质变,产生诸如分子生物芯片、量子芯片等散热问题AI 与算力CPU性能
25、提升速度大幅放缓,出现八核、十六核、三十二核CPU。通过多核提高CPU性能的方式并没有从根本上解决问题功耗问题散热问题软件支持问题AI 与算力AI加速发展和黄氏定律以英伟达(NVIDIA)公司创始人黄仁勋名字命名的定律黄氏定律(Huangs Law)对AI性能的提升作出预测Huangs Law:GPU将推动AI性能实现逐年翻倍AI 与算力CPU:数学教授GPU:小学生CPU:多核CPU:应用场景广泛GPU:为多任务而生GPU:成百上千核CPU内部cache以及控制部分占据了很大面积,计算单元占比很少;GPU控制单元很简单,大部分空间被计算单元占据,因此CPU的核数有限,而GPU则轻松堆出上千核
26、需要对图像中的每个像素进行相同的运算。图像一般都会有上百万个像素。CPU的串行运算效率太低,GPU中的每个核心可对相应 的 像 素 进 行 并 行 计 算CPU与GPU的区别AI 与算力CPU与GPU的区别CPU:不同的核可以执行不同的机器指令,如Core A在运行Word线程的同时Core B可以运行Browser线程,所谓MIMD,(Multiple Instruction,MultipleData)GPU:所有核必须整齐划一地运行相同的机器指令,只是可以操作不同的数据CPU:中断处理、内存管理、I/O等等GPU:定位非常简单,就是纯粹的计算GPU:绝不是用来取代CPU的,CPU只是把一些
27、GPU非常擅长的事情交给它,GPU仅仅是充当分担CPU工作的配角AI 与算力AI 与算力无论CPU还是GPU,其生产过程中都需要最重要的设备光刻机目前最先进的光刻机是荷兰ASML公司生产的High-NA EUV光刻机,支持2nm制程量产,通过多重曝光技术可进一步延伸至1nm 甚至 0.5nm 荷兰 ASML 的EUV光刻机自 2019 年起,被禁止向中国出口,该设备用于 7nm 及以下先进制程芯片制造 美国通过出口管理条例要求对涉及 3nm 及以下制程、量子计算等技术的设备和软件实施全球禁运“卡脖子”问题打破枷锁上海微电子的 SSX600 系列已实现 90nm制程量产,28nm 光刻机进入产线
28、验证阶段过去只有超级计算机才能完成的计算、几年前还无法企及的计算速度在今天已成为家常便饭一般的GPU服务器算力在1000GFLOPS左右由国防科技大学和国家超级计算天津中心联合研制的“天河”新一代超算系统,搭载自研飞腾CPU、天河高速互联通信技术和麒麟操作系统,持续稳定算力超FLOPS“天河二号”超级计算机算力曾达30.65PFlopsAI 与算力CPU vs GPU vs TPU vs NPU vs QPUAI 与算力在AI的算力中,有哪些计算的处理器?哪种算力最好?指标CPUGPUTPUNPUQPU名称中央处理器图形处理器张量处理器神经处理器量子处理器并行性低极高高中高量子并行能效比中中高
29、极高未知通用性最强较强低低极低典型应用通用计算AI训练、图形云端AI训练边缘推理量子算法代表厂商Intel、AMDNVIDIAGoogle华为、寒武纪IBM、谷歌AI与算法Xu,Y.,Wang,Q.,An,Z.,Wang,F.,Zhang,L.,Wu,Y.,Dong,F.,Qiu,C.-W.,Liu,X.,Qiu,J.,Hua,K.,Su,W.,Xu,H.,Han,Y.,Cao,X.,Liu,E.,Fu,C.,Yin,Z.,Liu,M.,Roepman,R.,Dietmann,S.,Virta,M.,Kengara,F.,Huang,C.,Zhang,Z.,Zhang,L.,Zhao,T.,D
30、ai,J.,Yang,J.,Lan,L.,Luo,M.,Huang,T.,Liu,Z.,Qian,S.,An,T.,Liu,X.,Zhang,B.,He,X.,Cong,S.,Liu,X.,Zhang,W.,Wang,F.,Lu,C.,Cai,Z.,Lewis,J.P.,Tiedje,J.M.,Zhang,J.,Artificial Intelligence:A Powerful Paradigm for Scientific Research,The Innovation(2021),doi:https:/doi.org/10.1016/j.xinn.2021.100179.AI应用层AI+
31、基础科学AI+工业生产AI+日常生活AI+社会治理AI+网络空间感知层认知层决策层数据存储与计算机器学习AI框架AI与算法1943年,Warren McCulloch和WallerPitts提出神经元网络的数学模型1950年,图灵提出著名的“图灵测试”,给出判定机器是否具有“智能”的方法1968年,Feigenbaum提出首个专家系统,孕育第二次AI浪潮1974年,Paul Werbos首次提出了通过误差反向传播(BP)来训练人工神经网络1982年,John Hopfield发明了霍普菲尔德网络,是最早的RNN的雏形,振奋了神经网络领域1985年,Judea Pearl提出了贝叶斯网络(Bay
32、esian network)1986年,Geoffrey Hinton等人提出了多层感知机(MLP)与BP训练相结合的理念,开启神经网络新一轮高潮1958年,Frank Rosenblatt提出了感知机(Perceptron)的模型人工智能技术萌芽阶段神经元图灵测试感知机SVMRNN雏形贝叶斯1963年,Cortes和Vapnik提出了经典的支持向量机AI与算法CNNLSTM随机森林LDA深度学习 GAN2001年,Breiman提出随机森林(Random Forest)2003年,David Blei,Andrew Ng和Michael l,Jordan提出LDA(Latent Dirich
33、let Allocation)1997年,Schmidhuber提出了长短时记忆网络(LSTM)2006年,Hinton及其学生正式提出了深度学习(Deep Learning)的概念2012年,Alex Krizhevsky,LlyaSutskever和Geoffery Hinton等人提出的AlexNet引发了深度学习领域的革命2013年,深度学习算法变分自编码器(VAE)被提出2014年,Ian Goodfellow提出生成式对抗网络(GAN)2015年,Sam Altman等人创建OpenAI1989年,Yann Lecun发明了卷积神经网络(Convolutional Neural N
34、etwork)人工智能技术沉淀积累阶段AI与算法Transformer-BERT-ChatGPT-Llama-GPT4-DeepSeek2016年,AlphaGo与围棋世界冠军李世石进行人机大战,以4-1总比分获胜2018年,Google提出基于Transformer注意力机制的BERT模型2020年,OpenAI发布大语言模型GPT-32017年,Google提出了Transformer模型2021年,OpenAI提出连接文本与图像的神经网络:DALLE和Clip2022年11月,OpenAI发布ChatGPT 2023年3月,OpenAI发布GPT-42023年2月,Meta开源大语言模型
35、Llama2024年12月,深度求索发布并开源DeepSeek-V3人工智能技术快速发展阶段AI与算法:神经网络-追根溯源大脑让人类成为万物之灵,而人类对大脑的深层次探索才刚刚开始!Jabr F.How Humans Evolved Supersize Brains.Quanta Magazine,2015,10Mark F.Bear,etc,Neuroscience:Exploring the Brain,Wolters Kluwer,2016神经网络起源于上个世纪四十年代。1943年时神经科学家麦卡洛克(McCulloch)和数学家皮兹(Pitts)发表论文神经活动中内在思想的逻辑演算,提
36、出了MCP模型McCulloch,Warren S.,and Walter Pitts.A logical calculus of the ideas immanent in nervous activity.The bulletin of mathematical biophysics 5(1943):115-133.AI与算法:神经网络-发展简史MCP模型架构虽然相对简单,但是具有里程碑意义Neuron:神经元Dendrites:树突Axon:轴突(神经细胞的突起,将信号发送到其他细胞)接受多个输入(1,2,3,.)产生一个输出(output)好比神经末梢感受各种外部环境的变化,最后产生电
37、信号AI与算法:神经网络-发展简史1958年,计算机科学家弗兰克 罗森布拉特提出由两层神经元构建的网络,并将之命名为感知机(perceptron)基本拥有现今神经网络主要构件与思想。包括自动学习权重、梯度下降算法、优化器、损失函数等,一定程度上推动神经网络发展Rosenblatt,Frank.The perceptron:a probabilistic model for information storage and organization in the brain.Psychological review 65.6(1958):386.AI与算法:神经网络-发展简史1969年,人工智能之
38、父马文 明斯基(1969图灵奖)在其著作中证明了感知机本质上是一个线性模型,其连最基本的异或问题都无法解决=+x1x1ANDORXOR00000010111001111110Minsky,Marvin,and Seymour Papert.An introduction to computational geometry.Cambridge tiass.,HIT 479.480(1969):104.AI与算法:神经网络-发展简史1986年杰弗里 埃弗里斯特 辛顿提出适用于多层感知机的BP算法多层感知机BP算法Rumelhart,David E.,Geoffrey E.Hinton,and Ro
39、nald J.Williams.Learning representations by back-propagating errors.nature 323.6088(1986):533-536.AI与算法:神经网络-发展简史在层与层之间的传播过程中引入了Sigmoid激活函数,为神经网络引入了非线性能力,改良了感知机无法解决异或问题的缺陷为神经网络引入了非线性激活函数,提升了建模能力。事实上,额外的隐藏层并不能提升输入和输出之间复杂关系的建模能力左图是一个以Sigmoid作为隐藏层激活函数的两层神经网络。通 过 调 整 参 数 1=(11,12),=(1,2)和2=(11,21)的值,可以不
40、断地改变目标函数的形状。AI与算法:神经网络-发展简史AI与算法:浅层学习与深度学习神经元-感知机-神经网络-浅层学习-深度学习2018年的图灵奖颁给三位AI巨头Geoffrey Hinton(杰弗里辛顿)、Yann LeCun(杨立昆)以及Yoshua Bengio(约书亚本吉奥)(深度神经网络DNN)AI与算法:深度神经网络模型-3位奠基人2024年,约翰 霍普菲尔德(John J.Hopfield)与杰弗里 辛顿(Geoffrey E.Hinton)因“使用物理学训练人工智能神经网络”获诺贝尔物理学奖AI与算法:深度神经网络模型-3位奠基人“卷积神经网络(CNN)之父”,提出了首个正式的
41、卷积神经网络模型 LeNet-5(1998 年),成功应用于手写数字识别。他推动了 CNN 在图像识别、计算机视觉领域的发展。Yann LeCun“神经网络之父”,早期提出反向传播算法和深度网络训练方法,奠定了现代深度学习的理论基础。Geoffrey HintonYoshua Bengio自然语言处理领域的先驱,提出了基于神经网络的语言模型(如神经概率语言模型),并推动了深度学习在序列数据(如文本、语音)中的应用AI与算法:深度神经网络模型-CNN卷积神经网络(CNN)是一种专门为处理具有网格结构数据(如图像)而设计的深度学习模型卷积层池化层卷积层池化层输出层全连接层 卷积层:利用卷积核提取输
42、入数据中的特定特征 池化层:主要功能是对特征图进行下采样,以减少数据量和计算量 全连接层:将提取到的特征进行整合,以完成分类或回归任务LeCun Y,Boser B,Denker J S,et al.Backpropagation applied to handwritten zip code recognition.Neural Computation,1989AI与算法:深度神经网络模型-RNN循环神经网络(RNN)是一种专门处理序列数据的深度学习模型,其核心特点是通过循环连接保留历史信息,从而捕捉数据中的长期依赖关系隐藏层输入输出 RNN由输入层、隐藏层、输出层构成,具有多种架构 隐藏层
43、的输出不仅传递给输出层,还反馈回自身,形成时间维度上的链式结构 理论上,RNN 可以记住任意长时间的信息,但实际中受梯度消失/爆炸问题限制,难以处理长距离依赖Ian Goodfellow,Yoshua Bengio&Aaron Courville.Deep learning.MIT Press,www.deeplearningbook.org 输入门输出门记忆元AI与算法:深度神经网络模型-LSTM长短时记忆网络(LSTM)是一种特殊的RNN,主要应用于序列任务,解决了RNN在处理长序列时的梯度消失或梯度爆炸问题遗忘门LSTM引入了记忆元、遗忘门、输入门、输出门Ian Goodfellow,Y
44、oshua Bengio&Aaron Courville.Deep learning.MIT Press,www.deeplearningbook.org AI与算法:AI框架TensorFlow是由Google开发和维护的开源机器学习框架,于2015年首次发布。它最初是为了满足Google 内部研究和产品开发的需求而创建的,但很快就成为了全球范围内最受欢迎的深度学习框架之一PyTorch是由Facebook的AI研究团队开发的开源深度学习框架,于 2016 年发布。它以其简洁易用的 API 和动态计算图的特性受到了广大研究者和开发者的喜爱特点TensorFlowPyTorch计算图默认静态计
45、算图动态计算图API复杂度相对复杂简洁直观可视化有强大的可视化工具TensorBoard可通过第三方库实现可视化中国AI发展历程1950s-1990s起步阶段2000s-2010s快速发展期2020s至今全面爆发期理论研究萌芽:早期聚焦机器学习与模式识别,中科院等机构奠定基础政策初探:1990年代国家“863”计划首次将AI纳入重点领域互联网驱动:百度、阿里、腾讯布局人工智能,推出语音助手、搜索引擎优化技术技术突破:2010年后深度学习兴起,DeepSpeech语音识别、腾讯优图人脸识别技术国际领先大模型崛起:DeepSeek R1、悟道等万亿参数模型实现低成本训练与长思维推理,跻身国际第一阵
46、营生态扩张:开源鸿蒙、开源欧拉等开源社区推动技术普惠,企业应用渗透率达42%我国的AI2025年中国人工智能计算力发展评估报告核心技术与创新突破基础技术核心技术前沿探索算法创新深度学习:百度PaddlePaddle、华为MindSpore框架支持分布式训练强化学习:DeepSeek R1通过大规模强化学习提升数学与科学推理能力2025年中国人工智能计算力发展评估报告算力突破国产芯片:昇腾、寒武纪等AI芯片支撑万亿级模型训练,2025年智能算力达1,037.3 EFLOPS绿色计算:液冷技术、异构计算降低能耗,算力效率提升50%自然语言处理:机器翻译(如腾讯翻译君)、智能写作(如Dreamwri
47、ter)覆盖多语种场景机器视觉:海康威视安防系统、医疗影像诊断(如联影AI)实现毫米级精度多模态融合:华为鸿蒙分布式能力支持跨设备协同,阿里云ET实现视频-语音-文本多模态分析AI for Science:药物研发(如晶泰科技)、气候预测模型加速科研进程量子AI:本源量子与中科大合作开发量子机器学习算法,适配量子硬件我国的AI中国人工智能发展困境困境一:中国在AI高端人才数量、AI基础算法创新、AI基座大模型能力、基座大模型训练数据、基座大模型训练算力等,都与美国存在一定差距困境二:高端算力产品禁售、高端芯片工艺长期被卡。国内可满足量产的工艺节点落后国际先进水平2-3代,核心算力芯片落后国际先
48、进水平2-3代困境三:国内智能计算生态孱弱,AI开发框架渗透率不足。研发人员、开发工具、资金投入、市场占比远落后于英伟达。国内企业山头林立,智能应用、开发框架、系统软件、智能芯片每层都有相关产品,但各层间无深度适配困境四:AI应用于行业时成本、门槛居高不下。从互联网行业迁移至非互联网行业时,迁移难度大、单次使用成本高。AI领域人才数量于实际需求相比明显不足我国的AI中国人工智能发展的道路选择追赶兼容美国主导的A体系:大多数互联网企业走GPU/CUDA兼容道路,很多芯片领域的创业企业在生态构建上也是尽量与CUDA兼容,该道路较易实现选择一:统一技术体系走闭源封闭,还是开源开放的道路?构建专用封闭
49、的B体系:在专用领域构建企业封闭生态,基于国产成熟工艺生产芯片,关注特定领域的垂直大模型,采用领域专有高质量数据。缺点:封闭,无法凝聚国内大多数力量,难以实现全球化构建全球共建开源开放的C体系:用开源打破生态垄断,降低企业拥有核心技术的门槛。用开放形成统一的技术体系,我国企业与全球化力量联合构建基于国际标准的统一智能计算软件栈。共享高质量数据库,共享开源基座大模型我国的AI中国人工智能发展的道路选择选择二:拼算法模型,还是拼新型基础设施?我国80%的中小微企业需要低门槛、低价格的智能服务,因此我国智能计算产业必须建立在新的数据空间基础设施上我国政府已前瞻性地提前布局了新型基础设施,在世界各国的
50、竞争中抢占了先机数据已成为国家战略信息资源。数据具有资源要素与价值加工两重属性,我国应继续加大力度建设国家数据枢纽与数据流通基础设施。一体化算力网建设在推动算力的基础设施化上发挥了先导作用。中国方案的算力基础设施化需实现“两低一高”:降低使用成本和门槛,提供普适的高通量、高品质智能服务。在供给侧降低成本,让中小企业能消费、愿开发;消费侧降低门槛,公共服务要易获取、易使用。服务效率要低熵高通量,高并发时系统也能高效运行,“算得多”对中国意义重大。AI大模型就是数据空间的一类算法基础设施。以通用大模型为基座,构建大模型研发与应用的基础设施,支撑广大企业研发领域专用大模型我国的AI中国人工智能发展的
51、道路选择选择三:AI+着重赋能虚拟经济,还是发力实体经济?AI 技术成功在于降低成本、扩大规模对比维度中国美国经济结构偏好实体经济(制造业占比27%)虚拟经济(制造业GDP占比11%)AI应用领域智能制造、工业机器人、新能源虚拟现实、元宇宙、区块链、大模型代表性行业装备制造、医药互联网、金融科技中国要走适合自己的AI赋能实体经济高质量发展之路中国制造业产业门类全、体系完整、场景与数据丰富中国应选重点行业加大投入形成推广模式,解决AI 赋能实体经济中算法与物理机理融合难点我国的AI第二部分第二部分 新一代人工智能新一代人工智能 大语言模型 Transformer 强化学习 自然语言处理 自监督学
52、习 ChatGPT与DeepSeek语言的边界就是思想的边界。维特根斯坦逻辑哲学论什么是大语言模型?大语言模型(LLM)是指通过海量数据训练、具有超大规模参数的预训练人工智能模型,其核心在于通过深度神经网络学习数据中的通用规律,实现跨任务、跨领域的智能处理能力什么是大语言模型?大语言模型的核心技术根植于自监督学习、强化学习和Transformer架构中 自监督学习为起点:通过无标注数据预训练,赋予模型基础智能,如语言理解、逻辑推理 强化学习为终点:通过人类反馈微调,将基础智能转化为符合人类需求的实际能力,如对话交互、任务执行 Transformer为基础:提供并行计算和长距离依赖能力,支撑自监
53、督学习的海量数据训练和强化学习的策略优化自监督学习数据 x分成x和 x:x输入模型,让输出 y 与 x越接近越好学习两部分的相似或不相似进行编码来构建表征标注师自监督学习是一种利用无标注数据,通过设计代理任务自动生成监督信号进行训练的机器学习方法,无需人工标注数据而监督学习依赖人工标注数据,模型直接通过标注信号优化自监督学习可以缓解数据标注成本,提升模型泛化性,更加适应开放场景强化学习Sutton,R.S.;and Barto,A.G.2018.Reinforcement learning:An introduction.MIT press强化学习(Reinforcement Learning
54、)是一种机器学习方法,智能体(Agent)通过与环境的交互,基于奖励(Reward)和惩罚机制,学习最优决策策略,目标是最大化长期累积奖励智能体(Agent):执行决策的主体环境(Environment):智能体所处的动态场景奖励(Award):环境对智能体的反馈信号策略(Policy):智能体从状态到动作的映射规则价值函数(Value Function):评估状态或动作的长期收益期望核心要素强化学习-RLHFZhao W X,Zhou K,Li J,et al.A survey of large language modelsJ.arXiv preprint arXiv:2303.18223
55、,2023.RLHF 系统主要包括三个关键组件:要对齐的 PLM、从人类反馈中学习的奖励模型,以 及训练 LM 的 RL 算法RLHF 使用收集到的人类反馈数据对LLM 进行微调,有助于改进对齐的指标。RLHF 采用强化学习(RL)算法,通过学习奖励模型使 LLM 适配人类反馈基于人类反馈的强化学习(RLHF)DeepMind团队在Nature发表DQN算法,用CNN处理游戏画面,得分超过人类2013:DQN突破A3C算法提出,大幅提升分布式训练效率2016:Actor-Critic改进AlphaGo击败李世石,融合蒙特卡洛树与价值/策略网络2016:AlphaGo里程碑OpenAI提出PPO
56、算法,成为工业界的主流选择2017:鲁棒算法普及Schulman,John,et al.Proximal policy optimization algorithms.arXiv preprint arXiv:1707.06347(2017).Mnih,Volodymyr,et al.Playing atari with deep reinforcement learning.arXiv preprint arXiv:1312.5602(2013).Mnih,Volodymyr,et al.Asynchronous methods for deep reinforcement learning
57、.International conference on machine learning.PmLR,2016.AlphaStar(星际争霸AI)OpenAI Five(Dota2 AI)展示复杂多智能体协作能力2020:多智能体突破强化学习-发展简史强化学习成为生成式 AI 的重要核心技术之一TransformerTransformer=编码器(encoder)+解码器(decoder)Ashish Vaswani,Noam Shazeer,Niki Parmar,Jakob Uszkoreit,Llion Jones,Aidan N.Gomez,Lukasz Kaiser,Illia Po
58、losukhin,Attention Is All You Need,arXiv:1706.03762v7 cs.CL 2 Aug 2023Transformer 最初用于机器翻译任务,成为自然语言处理领域的里程碑式突破,并推动了大模型时代的到来编码器:处理输入序列(如源语言句子),生成上下文表示解码器:生成目标序列(如目标语言句子),同时利用编码器的输出注意力机制:使神经网络在每个时间步只聚焦于某些重要/相关元素的一种计算机制任务解决能力特定任务辅助无偏任务特征学习可移值 NLP 任务解决泛化目标任务解决n-gram 模型Word2vec、NLPELMO、BERT、GPT-1/2GPT-3/
59、4、ChatGPT、Claude统计学方法概率估计在特定任务中辅助静态词汇表征神经语境建模解决典型的 NLP 任务语境感知表征预训练+微调解决多样化的 NLP 任务扩展语言模型依据提示完成解决丰富基于真实世界的任务1990s201320182020统计语言模型神经语言模型预训练语言模型大语言模型自然语言处理-发展简史视觉大模型语音大模型多模态大模型从统计语言模型到大语言模型GPTOpenAI GPT发展及多语言支持*上述数据均源自模型的公开论文及技术介绍支持英语及部分西欧语言支持数十种语言,包括主要西欧语言,增加部分东欧和亚洲语言支持约 30 种语言支持约 50 种语言能够处理和生成约100种
60、语言的文本3.5英语中文西班牙语法语德语葡萄牙语阿拉伯语印地语俄语日语韩语土耳其语波斯语意大利语波兰语印度尼西亚语越南语希伯来语荷兰语瑞典语目前OpenAI GPT4主 要 支 持 2 0 余 种高资源语言+=14.8万亿token 训练成本550万$DeepSeek-V2 DeepSeek-V3 DeepSeek-R 671B参数DeepSeek-V3基本原理DeepSeek依托算法创新和算力优化,在开源数据上实现多项顶尖能力DeepSeek进化路径算力大模型数据算法DeepSeek公司成立DeepSeek-7BDeepSeek-MoEDeepSeek-67BDeepSeek LLMDeep
61、Seek CoderDeepSeek MathDeepSeek-V2DeepSeek-V3DeepSeek-R12023.42023.62023.92023.122024.12024.22024.52024.122025.1DeepSeek-R1重要意义强推理模型让大模型领域再次迎来“ChatGPT”时刻ChatGPTLlamao1/o3DeepSeek-R1首次提出开源复现“有限算力+算法创新”的发展模式是突破算力卡脖子的关键未来应聚焦“高效”:围绕高效模型架构、高效强化学习、高效算力利用开展研究高效模型架构稀疏模型架构长序列理解与生成高效强化学习高效训练-提升数据利用效率高效思考-提升思考
62、信息密度高效算力利用低位宽高效并行框架训推一体的强化学习框架DeepSeek为什么DeepSeek会引起全球性的科技震撼?“规模法则(Scaling Law)”是否已遇天花板?ChatGPT与DeepSeek-未来人脑约有1000亿个神经元、1000万亿个突触。而DeepSeek-V3的模型参数量为6710亿,GPT4的模型参数量为1万亿,数量级上与人脑有很大的差距。让人工智能像人一样思考,还有很长的路要走,拥有人一样的智能更是路漫漫!据估算,GPT4的训练成本约为1亿美元,训练耗电相当于1000户家庭5至6年的用电量。如此巨大的开销,加上日益枯竭的训练数据,是否说明“数据驱动,算力堆砌”的人
63、工智能开发路径是不可持续的?人工智能未来的发展方向是什么呢?具身智能?量子AI?世界模型?第三部分第三部分 人工智能人工智能+AI4Education AI4Science AI+政务 AI+新质生产力 AI4Life AI正在接替部分职业AI4Education知识学校课堂网络资源“哔站大学”课外活动实践项目DeepSeek无法满足个性化学习需求学生有其各自的兴趣、风格、能力对课程的期待和目的多样化标准化课堂无法满足个性化学习需求培养目标不只是知识传授能力建设价值引领教学以上问题,传统课堂难以有效解决知识探究人格养成“传道授业解惑”渠道广课堂获取比例下降观念层面工具层面工具层面学科层面教师认
64、为 AI正成为独特的交叉研究领域师生认为 AI 对大学的知识传授、知识创新与生活方式产生影响学生尝试 AI辅助学习、研究教师尝试 AI辅助教学AI4EducationAI 对大学的赋能与重塑势不可挡AI4EducationAI教学评价教学环境教学过程教学内容教学管理教学方法教学手段教学设计教学目标学科专业转型升级110203040500NAI专业AI+专业AI+微专业AI+实验实践项目数字化教材AI+课程AI赋能教学应用引导教师合理使用AI,鼓励开展探索研究如何适应AI发展?如何实现AI赋能教育教学?如何改?技术上数智化教学AI+AI4Education角色关系:AI构建三维互动网络管理者-教
65、师:精准赋能通过教学行为分析平台,识别教师教学风格与效率,提供个性化培训方案(如为新手教师推送示范课例库)教师-学生:动态适配基于学习画像数据,教师可实时调整分组策略(如将编程薄弱学生与擅长者组队),并生成差异化培养方案学生-管理者:反向优化学生行为数据(如图书馆资源使用频率、在线课程完课率)通过AI建模,反向指导校园资源配置AI4Education深度利用:三大场景突破管理场景:从经验决策到数字孪生虚拟校园沙盘:通过 AI 模拟不同招生政策、课程改革对教学资源的影响,辅助制定招生方案校友价值挖掘:用知识图谱分析校友职业轨迹,智能匹配在校生导师资源,形成 在校生-校友-企业 的人才培养闭环教学
66、场景:从单向传授到认知共建思维链可视化工具:教师可通过 AI 拆解学生解题逻辑,针对性设计认知冲突环节跨学科项目生成器:输入学生专业背景与兴趣标签,AI 自动推荐跨学院合作课题学习场景:从被动接受到自主建构元认知训练系统:AI 通过对话日志分析,指出学生认知偏差(如过度依赖记忆而非理解),推送针对性训练模块职业模拟实验室:结合大语言模型与虚拟现实,模拟企业真实项目场景AI4Education协同创新:AI驱动的教育生态重构数据中台建设打通教务、科研、生活等多源数据,构建学生成长数字孪生体,实现从入学到就业的全周期追踪人机协同教研教师与AI共同开发 弹性课程包:AI负责基础知识点讲解,教师专注高
67、阶思维训练伦理治理框架建立AI教育应用白名单制度,对学生数据采集范围、算法决策透明度等制定明确规范构建课程知识库AI4Education教学目标教学大纲课件PPT教学参考书定制AI 助教指令微调检索增强强化反馈学科知识课程知识材料生成学习辅导评价反馈上传教学视频与教材文档轻松定制课程 AI 助教自主定制 AI 助教整合教学课件材料,课程知识库生成,智能问答提供AI助教开发平台,教师自主定制,个性化教学上传教学视频与教材文档轻松定制课程 AI 助教AI4Education国家智慧教育公共服务平台https:/ 智能备课 教学分析 学情分析 作业批改 智能问答 学习定制 智能学伴 场景学习 语言学
68、习 智能五育 智能测评 学业评估 综合评价 学术评估 学生画像 学习预警 智能选课 智能排课 课堂评价 智能控制“AI”助学“AI”助评“AI”助管AI4ScienceAI For Science-AI For Engineering微观(science)电子、原子和分子材料、化学、分子学宏观(engineering)速度、应力、电流机械、化工、土木等火箭模拟飞机模拟发动机模拟高分子材料模拟火箭模拟动力电池模拟化学反应模拟半导体模拟药物分子模拟地质模拟AI4ScienceScience for AIAI for Science2024年诺贝尔物理学奖基于统计物理提出人工智能计算的基础2024年
69、诺贝尔化学奖基于人工神经网络提出蛋白质结构预测模型架构约翰霍普菲尔德杰弗里E辛顿戴维贝克 德米斯哈萨比斯约翰江珀一个时代的开始:新的科研范式 AI for ScienceAI4Science该团队利用 RoseTTAFold 生成自然界不存在的蛋白质,可 100%中和眼镜蛇毒素,未来有望替代传统抗蛇毒血清,解决成本高、稳定性差的问题RoseTTAFold 是由美国华盛顿大学 David Baker(获2024年诺奖化学奖)团队开发的蛋白质结构预测工具,于 2021 年首次发布通过深度学习技术,实现了从氨基酸序列快速解析蛋白质三维结构的突破其核心创新在于采用三轨神经网络架构,同时整合一维序列信息
70、、二维残基间相互作用以及三维几何结构特征,显著提升了预测准确性和效率AI4Life-写菜谱AI4Life-文生图帮我生成图片:以写实的风格展示布达拉宫前蹲着一头牦牛。帮我生成图片:为我生成一个生肖相关的Logo,包含羊和龙,带些藏族元素。AI4Life-文生图浩瀚宇宙中一位女宇航员正在火星上昂首阔步地走向广角镜头Dall-E2豆包DeepSeek-R1AI4Life-写代码AI+政务DeepSeek 已覆盖全国多省市政务系统,在智能问答、公文处理、热线调度等场景实现高效应用,显著提升政府工作效率与服务质量,如公文审核时间缩短 90%、工单处理效率提升 60%,并推动政务服务向智能化、精准化转型
71、DeepSeek在政务领域应用面临资源浪费、内容可信度、数据安全、系统依赖及责任界定模糊等多重风险通过强化顶层设计、优化资源配置、筑牢数据安全防线、构建可信可控的技术生态,推动 DeepSeek 在政务领域的稳健发展AI+新质生产力人工智能的核心引擎作用 科技突破:为基础研究(如材料、医药)提供了新路径,国家专项部署强化其原动力地位 产业赋能:生成式AI通过通用性与自然语言融合,深度赋能政务、金融等垂直领域 劳动者塑造:智能机器人辅助生产,同时培养复合型人才以适应数字经济需求中国特色发展路径:以技术自主创新为核心,通过深化产学研协同、推动人工智能与实体经济融合、培育数字人才、健全治理体系,实现
72、高质量发展与全球竞争力提升AI正在接替部分职业客户服务聊天机器人和虚拟助手处理咨询、订单及售后等标准化任务制造业流水线AI驱动的机器人在重复性体力劳动中广泛应用,提升效率并降低成本金融财务算法交易、智能风控模型和自动化财务分析工具覆盖风险评估、信贷审批及基础数据分析等工作人工智能V.S.面对人工智能的快速发展有人为此着迷,有人对此心存恐惧,但人人都应该明白一点:人工智能正在深刻地改变着我们的工作、学习、生产、生活方式和社会结构。AI技术可能会发生巨大的变化,但AI发展的趋势不可逆转、无法回避、时不我待!智能交通无人驾驶智能医疗智能教育人机交互各类机器人语音翻译人脸识别AI正在接替部分职业谢谢大家!敬请批评指正!