1、演讲嘉宾:李昱粤港澳大湾区数字经济研究院AI For Science从数据到药物:多模态大模型从数据到药物:多模态大模型在在AI for ScienceAI for Science中的高效实中的高效实践践目录目录0 1AboutAbout0 2模型能力模型能力0 3数据能力数据能力0 4总结总结0 1 About AboutIDEAIDEA研究方向研究方向 从技术出发 以创新为第一动力 致力于人工智能和数字经济领域的前沿研究与产业落地大模型低空经济计算机视觉编程语言金融科技数据安全具身智能科学智能什么是科学智能什么是科学智能 AI for ScienceAI for Science AI fo
2、r Science 即人工智能赋能科学研究,是通过交叉结合人工智能技术与传统科学研究方法,利用人工智能的数据+模型范式革新科研全流程Deepmind登顶数学奥赛金牌Evo2对所有物种DNA、RNA、蛋白质功能预测和突变效应预测微软MatterGen能根据性质生成材料其他:Deepmind AlphaFold、微软BatteryML电池预测与优化、谷歌GenCast天气预测0 2 IDEA IDEA 化学大模型化学大模型(模型能力模型能力)化学相关行业现状和痛点传统研发范式:基于专家直觉专家直觉和反复试错反复试错供给端:传统药物研发依赖人工试错,平均耗时10年+、成本超10亿美元,90%候选药物
3、在临床试验阶段失败。传统药物研发的“死亡之谷”需求端:32%靶点药物依赖进口,54%国产药稳定性不足国产替代与创新药物的迫切性国家支持:政府报告纳入“创新药”资本布局:英伟达投资14家AI药企,中国AI制药融资占全球30%新材料与化工产业有类似的状况和痛点周期长成本高体系复杂算力模型数据新范式:人工智能新范式:人工智能数年时间分钟级别AI for Science有望成为我国医药、材料、化工、能源等领有望成为我国医药、材料、化工、能源等领域突破卡脖子困境和实现弯道超车的重大机遇域突破卡脖子困境和实现弯道超车的重大机遇用AI大幅度加速传统基于人工驱动的科学发现流程通过数据-模型双轮驱动提供精准预测
4、显著缩短科研周期专注方向:探索AI模型在化学产业中的应用 传统的流程有高度技术门槛和经验依赖、全部流程耗时耗力 单一环节消耗大量的时间成本,并且直接影响后续,试错成本高Step 1Step 2Step 3聚焦化学生物医药领域的AI化转型,结合大模型技术与科学发现,开展国际一流的研究与产业化落地。深入文献分析,自动化预测实验结果,赋能抗体、小分子药物设计与高通量筛选,及化学反应预测等核心行业应用,加速创新药物的发现IDEA AI4Science 0.x:2023-2024反应预测预测生成总结问答分子优化性质预测文献理解药物筛选应用能力应用能力模型能力模型能力基础模型基础模型数据积累数据积累抗体结
5、构预测 结合位点预测 数据驱动,精准的数据驱动,精准的AIAI预测和生成能力,提效科学发现预测和生成能力,提效科学发现文献数据、抗体数据、分子数据、化学反应数据分子大模型分子大模型领先的分子性质预测和生成抗体大语言模型抗体大语言模型下游任务精度提升化学反应大模型化学反应大模型领先的化学反应预测文献多模态大模型文献多模态大模型精准的文献解析小分子化合物小分子化合物小分子蛋白配体亲和力预测模型LigUnity(Cell子刊,小修中)虚筛任务微调预训练DUD-EDekois 2.0虚拟筛选测试效果专注于提升蛋白质-配体结合亲和力预测的精确性和效率。此模型通过高级算法优化虚拟筛选和先导候选药物的选择流
6、程,增强了对新型蛋白质的泛化能力,显著提高药物研发的成功率。小分子化合物小分子化合物小分子蛋白配体亲和力预测模型LigUnityMerck FEP 数据集效果Hit-to-lead 任务微调和主动学习相结合,提升复合物结构与亲和力预测复合物结构与亲和力预测蛋白质和抗体蛋白质和抗体抗体语言模型与抗体结构预测抗体序列Frame区域相对保守,CDR区域高可变,Ablingua利用区别于传统蛋白语言模型的tokenization和大规模抗体序列数据。在下游抗体性质预测和抗体结构预测中都取得领先效果。提取模块H:EVQLVEL:DIVLTQ抗体成对序列H:L:抗体成对序列 46kn h重链表征轻链表征n