《王一博-大模型时代下的AI4S.pdf》由会员分享,可在线阅读,更多相关《王一博-大模型时代下的AI4S.pdf(64页珍藏版)》请在三个皮匠报告上搜索。
1、 2024 DP Technology All Rights Reserved大模型时代下的AI for Science王一博,深势科技2024.09.212 2024 DP Technology All Rights ReservedAI4S的第一类寻宝图:AI建模高维复杂函数1.1提纲AI4S的第二类寻宝图:AI驱动平台化科研1.2AI4S该怎么学1.33 2024 DP Technology All Rights Reserved前 AI 时代科研体系遇到的困难“维数灾难”问题第一类藏宝图AI建模高维复杂函数4 2024 DP Technology All Rights Reserved
2、第一类藏宝图人类文明的发展,离不开科学技术的发展从原始工具到现代科技,从石器时代到AI时代人类文明的发展离不开工具的变革,而工具的革新,离不开科学技术的发展5 2024 DP Technology All Rights Reserved1.2 AI4S的第一类藏宝图:科学研究的范式第一类藏宝图科学研究的范式变革第范式:实验第三范式:理论第范式:计算6 2024 DP Technology All Rights Reserved1.2 AI4S的第一类藏宝图:古老与现代的“炼金术”第一类藏宝图科学研究的第一范式:实验居里夫人发现放射性元素“钋”和“镭”牛顿的三棱镜实验7 2024 DP Tech
3、nology All Rights Reserved第谷:观测与收集数据开普勒:分析数据产生科学发现科学研究的第二范式:计算|Kepler范式第一类藏宝图8 2024 DP Technology All Rights Reserved世界上第一台现代电子数字计算机ENIAC,诞生于1946年2月14日的美国宾夕法尼亚大学。占地面积约170平方米,重达30英吨。它包含了17468根电子管,7200根晶体二极管。计算速度是每秒5000次加法或400次乘法,是使用继电器运转的机电式计算机的1000倍、手工计算的20万倍。用于美国军方弹道轨迹计算和曼哈顿计划。第一类藏宝图科学研究的第二范式:计算|从纸
4、笔到计算机9 2024 DP Technology All Rights Reserved材料数据物数据药物数据化数据1.2 AI4S的第一类藏宝图:数据驱动模式的问题Kepler(数据驱动)范式遇到的问题第一类藏宝图数据收集的效率低下缺乏有效的数据分析方法10 2024 DP Technology All Rights ReservedIt remains that,from the same principles,I now demonstrate the frame of the System of the World.现在,我将展示世界体系的框架。1687年,艾萨克牛顿,自然哲学的数学
5、原理第一类藏宝图科学研究的第三范式:理论11 2024 DP Technology All Rights Reserved第一类藏宝图科学研究的第三范式:理论|Newton范式多尺度物理模型已经基本完备马尔可夫决策过程贝尔曼方程典型应用场景火箭模拟飞机模拟发动机模拟地质模拟高分子材料模拟柔性材料模拟动力电池模拟半导体模拟化学反应模拟药物分子模拟物流传输火车票预约12 2024 DP Technology All Rights Reserved大部分的物理问题和所有的化学问题在原理上已经解决,剩下的问题就是求解薛定谔方程。困难只在于运用这些定律的方程太复杂,无法求解。保罗狄拉克 电子的量子理论第
6、一类藏宝图Newton(物理模型)范式遇到的问题13 2024 DP Technology All Rights Reserved宏观仿真:飞机制造和污染扩散第一类藏宝图C919研发使用三维数字样机技术雷神山医院污染扩散仿真14 2024 DP Technology All Rights Reserved结构学,机械程,航空航天,电程等这些问题的解决构成了现代业的基础“简单”的问题可以得到解决复杂的问题材料性质和材料设计,药物,催化剂等只能通过经验和试错的办法解决理论和应的脱离典型场景火箭模拟飞机模拟发动机模拟地质模拟动力电池模拟半导体模拟化学反应模拟药物分子模拟典型场景数据驱动和基本原理驱动
7、范式产生的后果第一类藏宝图15 2024 DP Technology All Rights Reserved简单和复杂问题的分界线:自由度的个数=维数传统方法面临的困难:维数灾难(随着维数的增加,复杂度指数增加)1.2 AI4S的第一类藏宝图:简单与复杂问题的分界线复杂问题的挑战是什么?第一类藏宝图16 2024 DP Technology All Rights Reserved1.2 AI4S的第一类藏宝图:围棋问题30秒围棋入门教学围棋是很简单的一门游戏。孔子曾说,吃饱了没事干就去下围棋吧。以下教程将在半分钟以内教您学会围棋。1.这是围棋的棋盘。上面标记了九个特殊的点,但这只是装饰,并没有
8、什么用。2.画的点就是棋子的气。占据所有气就能闷死对面。接下来就用你刚学到的知识去和 AlphaGo 对线吧3.趁对手不注意,吃掉对方的棋子!就像这样,很简单 不是吗?从下围棋看复杂问题面临的挑战第一类藏宝图17 2024 DP Technology All Rights Reserved1.2 AI4S的第一类藏宝图:AI与围棋问题AI解决围棋中的“维数灾难”问题第一类藏宝图18 2024 DP Technology All Rights Reserved1.2 AI4S的第一类藏宝图:AI与人脸识别Patterns of Local ContrastFace FeaturesFaceInp
9、ut LayerHidden Layer 1Hidden Layer 2Output LayerAI解决人脸识别中的“维数灾难”问题第一类藏宝图19 2024 DP Technology All Rights ReservedAI带给Science的新机会AI方法为解决“维数灾难”问题提供了有效手段AI带给Science的新机会第一类藏宝图20 2024 DP Technology All Rights Reserved1.2 AI4S的第一类藏宝图:现代AI方法的特点维数灾难:从低维问题到高维高维问题从线性、单体的简化模型到非线性、多体的复杂模型非线性、多体的复杂模型AI为解决维数灾难问题提
10、供了有效的手段第一类藏宝图结构、场与采样是分模拟的三个关键21(在不和动量同时出现时,我们也常r表示坐标)场:描述原间相互作的数学模型22法1:第性原理计算密度泛函理论(DFT)准确但计算开销昂贵计算开销 O(N3)VASP是前最流的电结构计算和量学-分动学模拟软件包之。可以使赝势和平波基组,进从头电结构和量学分动学计算。CP2K是个从头算分动学软件,可以对固态、液体、分、周期、材料、晶体和物系统进原模拟。场:描述原间相互作的数学模型23法2:经验场例如:LJ,EAM,MEAM,AMBER,CHARMM计算效率但结果不可信计算开销 O(N)Tunable parameters场:描述原间相互作
11、的数学模型24法1:第性原理计算密度泛函理论(DFT)法2:经验场例如:LJ,EAM,MEAM,AMBER,CHARMM准确但计算开销昂贵计算开销 O(N3)计算效率但结果不可信计算开销 O(N)法3:深度势能Deep Potential接近第性原理计算精度接近经验场计算效率计算开销 O(N)使机器学习拟合维势能25学习第性原理计算结果模型:数据:由第性原理计算给出训练:标:数值近似第性原理定义的能量函数3N维使机器学习拟合维势能26学习第性原理计算结果模型:数据:由第性原理计算给出训练:标:数值近似第性原理定义的能量函数3N维要求:1.保证模型可扩展性2.保持物理上对称性最终模型:27深度势
12、能:物理建模+智能+性能计算 训练个机器学习势函数的开销:New paradigm:pretraining-then-finetuningUnified potential modelLarge datasets for pretrainingPretrainablemodelSpecialized model Application(MD)Few-shot finetuningDistillation(optional)以 AlMgCu势函数为例(,+=):10 million CPU core-hours 和 20-30 thousand GPU card-hoursJiang,W.,Zh
13、ang,Y.,Zhang,L.and Wang,H.,2021.Accurate Deep Potential model for the AlCuMg alloy in the full concentration space.Chinese Physics B,30(5),p.050706.Background29 2024 DP Technology All Rights Reserved1.2 AI4S的第一类藏宝图:为数据驱动模式提供新工具Alphafold2:一款数据驱动的解决蛋白质三维结构预测的方法。为什么适合?已有数据足够多建模需求明确评估标准明确探索空间大Alphafold2
14、的成功给药物设计、结构生物学等许多科学和应用领域带来了根本的改变数据驱动模式典型应用:Alphafold2第一类藏宝图30 2024 DP Technology All Rights ReservedAI4S的第一类寻宝图:AI建模高维复杂函数1.1提纲AI4S的第二类寻宝图:AI驱动平台化科研1.2AI4S该怎么学1.331 2024 DP Technology All Rights Reserved1.3 AI4S的第二类藏宝图:AI驱动平台化科研第二类藏宝图AI快速发展的十年2012 20222012年,Ilya Sutskever作为Jeff Hinton的博士生做出AlexNet,2
15、022年,Ilya Sutskever作为OpenAI的首席科学家做出ChatGPT;从AlexNet到ChatGPT,AI经历了快速发展和变革的10年模型的发展与变革2012 20222012年,AlexNet、ConvNets;2014年GAN;2015年ResNet;2018年,Transformer和注意力机制;社区与公司的发展与变革2012 20222014年,Deepmind被Google收购;2015年,OpenAI创立;2016年,Huggling Face社区创立框架的发展与变革2015年,Google发布TensorFlow,DMLC发布MXNet;2016年,Facebo
16、ok发布PyTorch。2012 202232 2024 DP Technology All Rights Reserved1.3 AI4S的第二类藏宝图:AI驱动平台化科研第二类藏宝图对比AI和Science领域AI发展迅速的原因:模型、框架、平台完善,快速试错迭代Science领域的现状:领域知识艰深、软件迭代慢、组织形式落后33 2024 DP Technology All Rights Reserved以科学家为主导的概念导入期以科学家和工程师协作为标志的大规模基础设施建设期全面、系统的应用升级和需求导向的原始创新体系的持续发展迭代2017-2022 2022-2027 2027-未来
17、2017年Deep Potential出现,改变了微观模拟领域数十年来的格局2018年鄂维南院士首次提出AI for Science2020年DeepMind 推出的 AlphaFold2 在 CASP14 大赛中轰动世界 DeepModeling开源社区产生较广泛的影响力,提供了“平台科研”模式的实践经验,成就了学界各方向成规模的研究工作和业界研发定义出迫切需要也十分适合使用 AI 来求解的关键科学问题,并实现算法领域的0到1突破和应用侧的初步验证属于AI for Science 领域的chatGPT模型的出现,如 DPA 系列、替代科研文献的AI知识库新一代基础科研软件,如国产密度泛函软件
18、ABACUS、云原生科学计算工作流套件dflow;新一代工业软件,例如面向药物研发场景的整体方案Hermite;条件成熟的应用场景产生专用硬件和颠覆性进展全面提升创新效能的平台科研体系数据、模型、算力一体化融合,“科学问题”逐步转变为“计算和工程问题”基础设施建设的基本完成后,进入到基础设施“怎么用”和“怎么持续领先”的新阶段 新计算工具定义新研发流程软件定义硬件 面向细分场景,面向用户开发应用形成新的行业标准和行业生态形成鼓励原始创新的环境第二类藏宝图AI4S新特点:由概念导入期进入应用落地期34 2024 DP Technology All Rights Reserved汽车生命科学材料科
19、学医疗制药等航空航天能源气象光伏产业等天气预报等空天发动机设计等海洋海浪预测等合金、半导体材料等算法与理论模型交叉型学科人才产品、工程师自动化实验仪器平台系统高效率、高精度的基本原理模型和数据分析算法 锂电池等支撑国家战略需求基础元素关键性行业需求多样型算力数据采集与标注开源开放生态“四梁”“N柱”化工催化剂等“砖瓦”高效率、高精度的实验表征工具 替代文献的数据库与知识库 高度整合的算力平台 X-DAX-DAX-DAX-DAX-DAX-DAX-DAX-DAX-DA:面向不同领域需求的工业应用软件AI for Science的基础设施是什么?“砖”与“四梁N柱”第二类藏宝图AI4S基础设施:“砖
20、瓦”与“四梁N柱”35 2024 DP Technology All Rights Reserved第二类藏宝图“四梁”:基本原理、模型算法与软件系统基本原理与数据驱动的模型算法与软件系统AI for Science 为从底层构建全新的跨尺度算法与软件带来新机遇36 2024 DP Technology All Rights Reserved打造开源平台及软件应用构建预训练模型全球首个覆盖元素周期表70种元素的深度势能原子间势函数预训练模型DPA-1模型将成为药物、材料、能源等行业微观机理探索的重要基础设施显著降低研究人员使用门槛及研发成本,缩短研发周期DPA:打造“自然科学界的ChatGPT
21、”DeePKSmodelEfficient&Accurate DFTDeePMDmodel作为基础设施ABACUS与DeepModeling社区合作 从21年初开始,ABACUS在DeepModeling社区下开始践行开源的理念 ABACUS目标:开源、功能完整、易用易开发 AI和新硬件:带来新机遇,各种密度泛函理论算法仍然持续更新ABACUS:国产开源密度泛函软件第二类藏宝图打造AI4S基础设施算法与软件系统37 2024 DP Technology All Rights Reserved1.2 AI4S的类藏宝图:Uni-Mol预训练模型Uni-Mol:A Universal 3D Mol
22、ecular Representation Learning Framework(ICLR 2023)https:/ codes,pretraining data,pretrained models,finetuned model weights,and demos for downstream tasks are all accessible.Uni-Mol:第一个通用分子3D表示学习(MRL)框架和预训练模型通用3D分子表示学习框架:表征:原子类型+原子坐标模型:Transformer+旋转平移不变性+SE(3)-等变优势:同一套表征方法可以同时用以处理小分子、复合物,可以应用于分子性质预
23、测、3D坐标预测等多种任务。预训练模型:数据:209M小分子构象 策略:原子类型还原+原子坐标还原优势:使用海量无标记数据让模型先学习分子结构的特点来获取通用能力第一类藏宝图Uni-Mol 通用分子表示框架和预训练模型38 2024 DP Technology All Rights Reserved提供高通量的正向数据提供新的反演算法基于人工智能的实验表征反演算法 自动化实验表征方法与控制软件 面向实验表征与计算模拟联动的解决方案实验表征与数据自动化采集与智能化管理(1)X 射线光电子能谱(XPS)(2)电子能量损失谱(EELS)(3)X 射线吸收近边谱(XANES,XAS)电池化学组成表征技
24、术电池材料形貌表征技术(1)扫描电镜(SEM)(2)透射电镜(TEM)(3)原子力显微镜(AFM)电池晶体结构表征(1)X射线衍射(XRD)(2)核磁共振(NMR)(3)X射线吸收谱(XAS,EXAFS)电池官能团表征(1)红外谱(IR)(2)拉曼谱(Raman)电池界面敏感表征技术(1)和频振动光谱(SFG)(2)表面增强拉曼光谱(SERS)第二类藏宝图“四梁”:高效率、高精度的实验表征方法39A I 4 S 概 述课程特点案 例 分 析:二 维 材 料 缺 陷 检 测5二维材料缺陷检测MoS2中的单硫(S-vacancy),双硫(2S-vacancy),氧替代(oxygen substit
25、ution)缺陷是指材料晶格中缺少个或两个硫原的位置,或者在晶格中氧原取代硫原。这种缺陷的存在对材料的性质有重要的影响。需求:找到STEM图像中的缺失的单/双原,氧替代及其位置NbS2NbSe2WSe2MoS240A I 4 S 概 述授课方式课程特点电 镜 图 像 分 析 的 A I 方 法3二维材料缺陷检测确定场景 维材料的缺陷检测明确输输出 输:STEM图像 输出:缺陷的类型和位置选择模型 属于分割任务 U-Net准备数据 量带标注的数据 符合要求的格式训练 选择框架 损失函数 反复实验推理 张新的STEM图像 返回识别结果原始数据标注数据训练过程推理结果41二维材料缺陷检测MoS2 缺
26、陷标注困难A I 4 S 概 述课程特点案 例 分 析:二 维 材 料 缺 陷 检 测542二维材料缺陷检测Abtem:https:/abtem.readthedocs.io/en/latest/intro.htmlBohrium:https:/nb.bohrium.dp.tech/detail/6241642088 Patch(256*256)Single vacancyDouble vacancyMoS2-仿真A I 4 S 概 述课程特点案 例 分 析:二 维 材 料 缺 陷 检 测543二维材料缺陷检测真实图像仿真图像原因:晶格畸变、探测器噪声、样品漂移和扫描畸变、时间依赖的对误差、辐
27、射损伤以及表污染等A I 4 S 概 述课程特点案 例 分 析:二 维 材 料 缺 陷 检 测544二维材料缺陷检测MoS2-仿真+噪:成对抗络cycle GANA I 4 S 概 述课程特点案 例 分 析:二 维 材 料 缺 陷 检 测545二维材料缺陷检测整体框架A I 4 S 概 述课程特点案 例 分 析:二 维 材 料 缺 陷 检 测546二维材料缺陷检测成对抗络的结果实验图的缺陷检测A I 4 S 概 述课程特点案 例 分 析:二 维 材 料 缺 陷 检 测547 2024 DP Technology All Rights Reserved辉瑞的自动化高通量化学反应筛选平台,Scie
28、nce,2018,359,429KUKA机器人发现光解水产氢的光催化剂。Nature,2020,583,237-241用于无机粉末材料自主固态合成的自动化实验室A-LabNature,2023,624,86-91第二类藏宝图自动化、高通量实验平台的发展48 2024 DP Technology All Rights Reserved任务类型的多样性算力组织形式的多样性计算硬件多样性机器学习框架的多样性大型并行任务规模并行任务工作任务流高度整合的算力平台超级计算机云计算个人工作站开发高效好用的算力服务产品,为科学计算、微尺度工业设计场景助力通用芯片门槛高、能力增长空间有限最常用的计算只有少数几种
29、专用芯片有很大的发展空间未来的计算能力可能主要靠高度整合的异构架构计算任务与计算硬件面临双重多样性第二类藏宝图“四梁”:高度整合的算力平台49 2024 DP Technology All Rights Reserved保持第性原理精度的前提下,相较GPU等“冯诺依曼”芯,第第1 1版版NVNMDNVNMD(基于(基于FPGAFPGA):):速度提升速度提升1 1-2 2个数量级个数量级能耗降低能耗降低2 2-3 3个数量级个数量级1 P.H.Mo et.al.“Accurate and efficient molecular dynamics based on machine learnin
30、g and non von Neumann architecture”,npj Computational Materials,2022.https:/ 2024 DP Technology All Rights Reserved构建智能化的文献知识库 实现科学文献的分类检索与智能推荐 实验表征数据、计算模拟数据、文献数据等多模态数据库与知识库 科学知识来自于文献和各类数据库(如PDB)知识库:文献内容最有效的表达形式简洁明了,便于自动化搜索和发展AI算法Science Navigator 对话式文献知识库进一步助力科研人员提升科研生产力,释放更多的时间精力在解决关键问题与创新思考上第二类藏宝
31、图“四梁”:替代文献的数据库与知识库文献阅读面临诸多挑战文献阅读目标掌握领域现有的基本情况,发展阶段、现有的进展、主要的问题等。主要的研究手段,主要的分析指标、理论或技术的适用范围等。文献的类型综述类文献:快速对某个研究领域形成整体的认识和了解,把握领域核心脉络,找到合理的切入点和方向。进展类文献:了解文献的主要结论,或提出的新的理论。以及研究的方法,使用的材料和工具,证明结论的逻辑。从而对自己的研究项目形成支持、启发或对比,帮助优化研究思路。文献的构成正文:文字、公式、化学式、化学反应图片:示意图&数据图(文字、公式、化学式、化学反应)表格:文字、公式、化学式、化学反应文献阅读与知识提取完全
32、依赖研究人员的手、眼、脑1电脑阅读效率低,关键点易遗漏2图表数据结构化提取易出错迫切需要智能化工具提升科学信息的获取效率通用大语言模型提供了解决思路然而通用大语言模型在处理科学文献时会“水土不服”本质上是语模型在科学献领域多模态能“不”Uni-SMART:科学文献多模态大模型Uni-SMART丰富的数据源主动学习多模态学习继续预训练大模型有监督微调用户反馈专家标注数据增强解决各种任务Uni-SMART:multimodal learningUni-SMART:multimodal learningTableConvert to LaTeXUVVis spectra and the digita
33、l images of PAI films.Film thickness:Poly(h-TACODA),66 m;poly(h-TACpPDA),110 m;poly(h-TACmPDA),90 m;poly(h-TACBAFL),100 m;poly(h-TACAPB),85 m;poly(TACODA),34 m.Convert to CaptionChartMoleculeMolecule ReactionTextIn this study,we reported the preparation of PAI samples based on TAC/h-TAC with diamine
34、 monomers in a conventional solution polycondensation,followed by chemical imidization with pyridine/acetic anhydride.From the$1 mathrmH$NMR study,it was found that the monomer addition order for the polymerization effectively controlled the sequence of the monomeric structure in the polymer skeleto
35、n.In particular,the PAI samples obtained by the polymerization reaction of$mathrmh$-TAC with dropwise addition of diamine monomer(T-D method)possess regulated imide-amide-amide-imide linkage fractions of approximately$74%-96%$.For the semiaromatic PAI prepared from h-TAC with diamine monomers,this s
36、equence is important to improve their thermal stabilities,because the degradation of the alicyclic h-TAC moiety,which has a relatively smaller bond energy,could be highly affected by the electron density of the surrounding environment.Therefore,the whollyConvert to MarkDownEquationConvert to LaTeXma
37、thcalImathcalG&=D_K Lleftpleft(X_1,ldots,X_nright)|pleft(X_1right)ldots pleft(X_nright)right&=D_K LleftPi_i=1n pleft(X_i mid mathbfP a_X_imathcalGright)|pleft(X_1right)ldots pleft(X_nright)right&=sum_i Ileft(X_i;mathbfP a_X_imathcalGright)图表解析为文字描述文本和公式识别为MarkDown/LaTeXTextTextConvert to SMILESNc1cc
38、c(Oc2ccc(N)cc2)cc1Convert to Graphprev_mols:Nc1ccc(Oc2ccc(N)cc2)cc1post_mols:CC(=O)Nc1ccc(Oc2ccc(NC(C)=O)cc2)cc1condition:(CH3CO)2O,Py,DMAc,85 oC,2.5h分子识别为SMILES反应式识别为SMILES关联图2).In the$1 mathrmH$NMR spectra of ODAA,the amide hydrogen$a$is observed at$9.95 mathrmppm$as a singlet signal together with
39、 the two clear doublet signals,$bprime$and$cprime$at 6.95 and$7.6 mathrmppm$,corresponding to the aromatic protons.For APCI,the amide hydrogen$mathrmdprime prime$is observed at$9.94 mathrmppm$as a doublet signal together with the aromatic protons$aprime prime-cprime prime$and$mathrmdprime prime-gpri
40、me prime$between 7.0 and$7.7 mathrmppm$.The split of the amide signal could be attributed to the effect of the conformers of the cyclohexane ring.Therefore,the doublet signal observed for the amide hydrogen in the poly(h-TAC-ODA)sample synthesized via the T-D method seems reasonable,and the two doub
41、let signals for the poly(ODA-h-TAC)sample(D-T method)can be attributed to the monomer sequences in the polymeric structure.In the upfield region of the$1 mathrmH$NMR spectra of$mathrmAPCI$and the polymer,the aliphatic protons appear as complex signals due to the stereo structures(Fig.S1).The configu
42、ration was maintained after the polymerization,and thus the properties of the polymers had arisen from the stereo mixtures.begintabular|c|c|c|c|c|c|c|c|c|c|c|hline multirowt2*Run&multirowt2*Method&multirowt2*h-TAC/ODA&multirowt2*Additive&multirowt2*$M_mathrmn mathrma$&multirowt2*$T_g mathrmbleft(cir
43、c mathrmCright)$&multicolumn3|l|$mathrmTGleft(mathrmN_2right)$&multicolumn2|l|TG(air)hline&$mathrmT_mathrmd 5 mathrmCleft(circ mathrmCright)$&$mathrmT_mathrmd 10 mathrmCleft(circ mathrmCright)$&Char at$800circ mathrmC$&$mathrmT_mathrmd 5 mathrmCleft(circ mathrmCright)$&$mathrmT_mathrmd 10 mathrmClef
44、t(circ mathrmCright)$hline 1&D-T&1.00&Aniline&4300&244&421&433&14&407&435 hline 2&T-D&1.00&Aniline&11,700&242&435&448&16&442&456 hline 4&T-D&1.05&Aniline&16,500&_d&440&450&16&428&451 hline 5&T-D&1.06&Aniline&15,600&242&430&439&17&400&450 hline 6&T-D&1.06&-&5500&232&437&452&17&431&456 hlineendtabular
45、表格识别为LaTeXConvert to MarkDownUni-SMART在科研信息任务中效果显著处理表格任务的结果对比处理分子结构任务的结果对比处理图表任务的结果对比处理化学反应任务的结果对比Uni-Finder 拥有极其丰厚的科研大模型数据底座:Uni-Smart科学文献多模态大模型200篇文献专家评测准确率Uni-SMART81%GPT-462%Uni-Finder:文献阅读和信息提取系统订阅式收集/跟踪数据库通过持续学习和训练,可以提供最新的数据 实时更新支持用户进行实时多模态交互,从海量信息中提炼关键点,自动分析和整理数据交互式解答快速筛选出相关的文献、专利或知识库条目,提高检索效
46、率,提供个性化推荐知识/信息检索对海量数据(领域、来源、格式)进行跨文本统计和聚合数据统计/聚合Uni-Finder文献阅读和信息提取系统输入格式包括化合物结构、图片、SMILES、自定义上传的专利和文献1.数据来源包括公开的文献、专利数据2.可接入客户内部购买数据库以及支持自定义上传文献。持续接入更多的数据源分子结构的自动提取支持折线图、表格、文本信息的输出主要内容、研究观点、数据依据公式、分子式、分子结构图、数据表格61 2024 DP Technology All Rights ReservedAI4S的第一类寻宝图:AI建模高维复杂函数1.1提纲AI4S的第二类寻宝图:AI驱动平台化科
47、研1.2AI4S该怎么学1.362 2024 DP Technology All Rights ReservedAI4S是一个快速变化的技术体系授之以鱼,不如授之以渔课程特点63 2024 DP Technology All Rights Reserved从实践中来,到实践中去课程特点AI4S是一个非常大的话题2023DPTechnologyAllRightsReservedAI4S课程体系的建设课程内容探索上:系统推进AI4S课程建设 计算材料学(单斌老师)课程视频+课件+案例+教材 学会从头开始编写分子动力学软件玻尔登录空间站,探索 AI for Science 科研宇宙模型库+算法库+案
48、例库深势自研+社区贡献科研平台AI4S科研的生产资料AI4S算法引擎+高性能算力+计算模拟环境+存储预置开发工具+模块化开发场景+Launching教学平台AI4S的教材与教具开发平台AI4S工程基础设施科研空间站开始体验Bohrium 2018-2024 DP Technology All Rights Reserved国家关键领域工程硕博核心课程:人工智能辅助科学研究https:/bohrium.dp.tech/courses国家关键领域程硕博核课程:智能辅助科学研究(AI for Science)课程内容覆盖包括:数据驱动的AI4S算法机理驱动的AI4S算法效率精度的实验表征技术AI4S与性能计算AI4S态建设