《汤步洲-临床医疗知识抽取任务和技术发展(汤步洲).pdf》由会员分享,可在线阅读,更多相关《汤步洲-临床医疗知识抽取任务和技术发展(汤步洲).pdf(34页珍藏版)》请在三个皮匠报告上搜索。
1、临床医疗知识抽取任务和技术发展汤步洲哈尔滨工业大学(深圳)CHIMA 2023临床医疗知识抽取任务 临床医疗实体/属性识别 临床医疗事件抽取 临床医疗实体关系抽取 临床医疗决策树抽取由简单到复杂从事实到过程CHIMA 2023临床医疗知识抽取任务临床医疗实体/属性临床医疗实体关系临床医疗事件临床医疗决策树CHIMA 2023临床医疗知识抽取任务临床医疗实体/属性临床医疗实体关系临床医疗事件临床医疗决策树输入:患者四肢皮肤有划伤,双侧肱二、三头肌反射、膝腱反射正常。输出:“四肢皮肤划伤”,“双侧肱二、三头肌反射正常”,“膝腱反射正常”CHIMA 2023复杂临床信息抽取临床医疗实体/属性临床医疗
2、实体关系临床医疗事件临床医疗决策树CHIMA 2023临床医疗知识抽取任务临床医疗实体/属性临床医疗实体关系临床医疗事件临床医疗决策树亚急性甲状腺炎患亚急性甲状腺炎患者:轻型患者仅需者:轻型患者仅需应用非甾体抗炎药,应用非甾体抗炎药,如阿司匹林、布洛如阿司匹林、布洛芬等芬等;中型和重型患中型和重型患者可给予泼尼松每者可给予泼尼松每日日2040mg分分3次次口服。口服。CHIMA 2023复杂临床信息抽取方法 临床医疗实体/属性识别 临床医疗事件抽取 临床医疗实体关系抽取 临床医疗决策树抽取由简单到复杂是否存在统一地抽取范式?判别式判别式 VS 生成式生成式从事实到过程CHIMA 2023基于集
3、合生成的多类型通用实体识别模型Yuxin He,Buzhou Tang.SetGNER:General Named Entity Recognition as Entity Set Generation.EMNLP 2022.动机:存在共用部分的实体之间顺序是不可靠的集合生成 如何有效缓解自回归方法的错误传递问题非自回归并行生成CHIMA 2023SetGNER-总体框架 先用预训练语言模型得到Token级编码,再MaxPooling得到词级编码 实体检测器检测潜在的实体头并预测对应实体数量 并行生成器以所有检测到的实体头为初始序列,通过自适应Beam Search生成得到目标实体集合CHIM
4、A 2023实体出现数量预测损失实体部位分类损失SetGNER-多任务联合学习实体检测器部分CHIMA 2023SetGNER-多任务联合学习并行生成器部分正向生成损失反向生成损失CHIMA 2023SetGNER-实验结果Yuxin He,Buzhou Tang.SetGNER:General Named Entity Recognition as Entity Set Generation.EMNLP 2022.CHIMA 2023SetGNER-实验结果Yuxin He,Buzhou Tang.SetGNER:General Named Entity Recognition as Ent
5、ity Set Generation.EMNLP 2022.CHIMA 2023SetGNER-实验结果连续实体运行效率CHIMA 2023SetGNER-case study1(b)将1(a)中的 身体部位换了之后,SetGNER也能准确地识别出非连续实体,而对比的方法则不能SetGNER比对比的方法能识别出更多正确的实体CHIMA 2023基于对抗主动学习的医疗少样本关系抽取支持集选择动机:医疗少样本关系抽取中支持集选择对性能的影响大,能否选择少量样本进行标注之后作为支持集?4-way 10-shotS3AAL:Support Set Selection based on Adversar
6、ial Active Learning for Medical Few-Shot Relation Extraction.BIBM 2022.CHIMA 2023S3AAL-整体架构 在源域训练集上训练一个少样本模型 用对抗主动学习在目标域未标注数据集上选择信息量大且高多样性的少量样本进行标注,并选入支持集 在源域训练机上和目标域少量标注数据集上进行多任务学习CHIMA 2023S3AAL-组件介绍少样本学习:采用dot product和prototypical network两种对抗主动学习:用最小置信度(Least Confidence,LC)选择信息量大样本(主动),然后判断是否已经被标