《闾海荣-预训练大模型与医疗.pdf》由会员分享,可在线阅读,更多相关《闾海荣-预训练大模型与医疗.pdf(53页珍藏版)》请在三个皮匠报告上搜索。
1、预训练大模型与医疗:从算法研究到应用闾海荣 博士|清华大学自动化系20230525福州,CHIMA2023CHIMA 2023Page 2Tsinghua Confidential|1.预训练大模型概述2.理解大模型的内在机理3.赋予模型精准性与可解释性4.医疗领域应用5.清华探索:数基生命CONTENTSCHIMA 2023Page 3Tsinghua Confidential|预训练:从大数据到小数据 精 准 可 解 释 医 疗 应 用 数 基 生 命 剖 析 大 模 型 关 于 预 训 练预训练大模型(学习共性)大数据(低成本无标注)少量特定领域标注数据(成本高)微调小模型(学习特性)1
2、.模型角度:模型参数不再是随机初始化,而是通过一些任务(如语言模型)进行预训练;2.数据角度:将训练任务拆解成共性学习和特性学习两个步骤。CHIMA 2023Page 4Tsinghua Confidential|以英文电子病历后结构化为示例 精 准 可 解 释 医 疗 应 用 数 基 生 命 剖 析 大 模 型 关 于 预 训 练ABC英文英文英文电子病历后结构化电子病历后结构化电子病历后结构化不懂英文懂英文懂英文的医生CHIMA 2023Page 5Tsinghua Confidential|Transformer架构:预训练的基石 精 准 可 解 释 医 疗 应 用 数 基 生 命 剖
3、析 大 模 型 关 于 预 训 练从 word2vec 到 Transformer从 context-free 到 context-awareCHIMA 2023Page 6Tsinghua Confidential|BERT和GPT 精 准 可 解 释 医 疗 应 用 数 基 生 命 剖 析 大 模 型 关 于 预 训 练 两类典型的大语言模型 BERT:Bidirectional Encoder Representations from Transformers 双向模型,同时考虑前文和后文 采用掩码语言模型(masked language model)和下一句预测任务(next sent
4、ence prediction)进行预训练,使得模型能够学习到上下文关系和词汇语义 通常用于文本分类、序列标注、问答等任务 GPT:Generative Pre-trained Transformer 单向模型,只考虑前文,不考虑后文 采用自回归(autoregressive)的方式生成文本,即逐个生成下一个词 通常用于生成文本、对话、问答等任务CHIMA 2023Page 7Tsinghua Confidential|BERT训练 精 准 可 解 释 医 疗 应 用 数 基 生 命 剖 析 大 模 型 关 于 预 训 练BERT主要采用掩码语言模型(masked language model
5、,对应图Mask LM)和下一句预测任务(next sentence prediction,对应图NSP)进行预训练,使得模型能够学习到上下文关系和词汇语义。预训练好的BERT可以用于对输入文本进行编码,得到具有语义的向量表示。预训练好的BERT也可以通过微调(fine-tuning)方式适配各类NLP任务:The Stanford Question Answering Dataset问答(SQuAD)、命名实体识别(NER)、MNLI任务(大规模分类任务,目标是预测第二个句子相对于第一个句子是包含,矛盾还是中立)CHIMA 2023Page 8Tsinghua Confidential|BE
6、RT表示能力 精 准 可 解 释 医 疗 应 用 数 基 生 命 剖 析 大 模 型 关 于 预 训 练Represented IntoSymbolic SpaceLatent SpaceCHIMA 2023Page 9Tsinghua Confidential|BERT类模型 精 准 可 解 释 医 疗 应 用 数 基 生 命 剖 析 大 模 型 关 于 预 训 练2018年10月 Google AI提出BERT模型参数量1.15 亿,3.4亿数据量约 16GB.2020年2月 Google AI提出的轻量化BERT模型参数量0.2亿,0.61亿,2.4亿数据量约 16GB2019年7月 F