1、蒋海云腾讯 AI Lab高级研究员|腾讯文本理解系统TexSmart中的细粒度实体识别关键技术目录1 TexSmart系统介绍2 TexSmart细粒度NER概述3 基于知识库的组合方法4 基于相似实体推断的远程监督方法5 基于多源融合的Zero-shot方法|01TexSmart系统介绍|nTexSmart是自然语言理解的工具与服务对中文和英文两种语言的文本进行词法、句法和语义分析https:/ 可扩展性十几种类别 1000多种类别人名 演员、歌手、运动员、节目主持人、作家等太多的类别需要标注大量的训练数据标注的细粒度训练数据代价太高u 歧义问题“苹果 CEO 正在喝 苹果 汁”公司 or
2、水果?“李娜网球”vs.“李娜唱功”运动员 or 演员?细粒度NER遇到的两大挑战:|特色一:细粒度NER语义联想:对句子中给定的实体,预测与其关联的实体集合流浪地球 战狼二、上海堡垒、悲伤逆流成河 特色二:语义联想一、模型精度和速度的矛盾实现了多种不同的模型和算法精度高和速度快的模型二、从封闭测试环境到开放测试环境利用无标注数据训练模型:分词模型、细粒度NER模型三、动态更新模型增量式地收集无标注数据,周期性更新模型特色三:多维度的设计理念实现方法|功能类型一:文本理解功能类型二:文本匹配语义相似度n 基本功能分词、词性标注、命名实体识别(NER)、语义联想、句法分析、语义角色标注、文本分类
3、、关键词提取功能类型三:文本图谱相似词、同义词、反义词、上位词、下位词TexSmart基本功能|TexSmart Demo分词和标注命名实体识别文本分类句法分析TexSmart Demo|语义角色标注文本匹配TexSmart Demo|文本图谱TexSmart Demo|02TexSmart细粒度NER概述|粗粒度细粒度超细粒度NER粒度需求超细粒度NER应用更好地理解文本,辅助下游任务(1)关系抽取、知识库构建、问答系统等理解型任务(2)文本改写、对话生成、问题生成等生成型任务|超细粒度NER类别样例“人物”的部分超细粒度实体类型“地点”的超细粒度实体类型TexSmart超细粒度类别体系:h
4、ttps:/ 无监督方法u 无监督和有监督的组合方法细粒度NER:无监督算法无结构文本数据(苹果,公司)(西瓜,水果)(苹果,水果)(微软,公司)抽取(苹果,pany)(苹果,food.fruit)(西瓜,food.fruit)(微软,pany)is-a 数据term-to-type graph构建映射“西瓜 很甜”food.fruit|Texsmart:A text understanding system for fine-grained ner and enhanced semantic analysis,arXiv preprintTexsmart:A system for enhan
5、ced natural language understanding,ACL 2021细粒度NER:无监督算法 Is-a 数据抽取a)人工编写Is-a模板b)从大量无结构化数据中抽取(苹果,水果)(西瓜,水果)(苹果,公司)(微软,公司)X1、X2等YY诸如X1、X2等 匹配Is-A模板苹果、西瓜等水果上市公司诸如苹果和微软|细粒度NER:无监督算法“苹果 汁”food.fruitOpany?无结构数据(苹果,公司)(西瓜,水果)(苹果,水果)(微软,公司)抽取(苹果,pany)(苹果,food.fruit)(西瓜,food.fruit)(微软,pany)is-a 数据term-to-type
6、 graph构建映射歧义问题|细粒度NER:无监督算法“苹果汁”C1,C2打分food.fruit离线在线C1:(苹果,西瓜,food.fruit)C2:(苹果,微软,谷歌,pany)C3:(C+,Java,Python,language.programming)词向量聚类语料库term-to-type graph(实体集合,类别)检索歧义问题的解决方法|细粒度NER:无监督算法无法识别不在词典内的实体缺点一词典规模与覆盖率的折衷 规模大:实体覆盖率高,但内存消耗大 规模小:内存消耗小,但低频实体无法识别缺点二|细粒度NER:组合算法 基本思想 无监督方法预测细粒度的类别分布 有监督方法预测粗