《2019年NLP在面向企业景中的算法优化与落地.pdf》由会员分享,可在线阅读,更多相关《2019年NLP在面向企业景中的算法优化与落地.pdf(23页珍藏版)》请在三个皮匠报告上搜索。
1、NLP在面向企业场景中的算法优化与落地自然语言是什么自然语言是什么智能智能对话对话系统中的系统中的NLPNLP能力能力搭建搭建一个智能对话一个智能对话系统系统对话对话系统在企业智能中如何发挥作用系统在企业智能中如何发挥作用自然语言是什么?自然语言是什么?最不“自然”的自然语言 离散的符号系统 社会性 语言 VS 图像、语音 语音、图像自然界存在的连续信号 意义都是人赋予的歧义乒乓球拍卖完了(分词歧义)咬死猎人的狗 VS.咬死猎人的狗(短语歧义)你真讨厌!(语用歧义)冬天能穿多少穿多少,夏天能穿多少穿多少(世界知识)几个栗子几个栗子人要是行,干一行行一行,一行行行行行;要是不行,干一行不行一行,
2、一行不行行行不行病构不合乎语法的句子例子:他非常男人。(名词不能受程度副词修饰)不合乎语义约束的搭配例子:My car drinks gasoline like waterNLPNLP-应用场景应用场景NLPNLP-对话系统对话系统中文分词的难点歧义:严守一/把/手机/关了世界知识:夏天能穿多少穿多少,冬天能穿多少穿多少企业应用的难点适配多种应用的分词粒度检索:细粒度=高召回率意图识别:粗粒度=实体领域适配封闭域=开放域通用域=垂直领域实战经验多粒度分词领域词典构建+模型融合词典深度学习NLPNLP算法算法-分词分词NLPNLP算法算法-NERNER企业场景的难点不同领域都有不同类别的实体娱乐
3、=歌名、电影、电视剧医疗=药名、疾病、症状不同任务需要识别不同类别的实体安防/舆情=人名、证件号、手机号、Email对话=各种槽填充(餐馆、航司、地名)标注数据少、迁移困难实战经验没有一招鲜吃遍天的万能药(即使是BERT)多种方式的混合解决方案(正则、词典、深度学习)NLPNLP算法算法-文本相似度文本相似度输入层输入层表示层(DNN/CNN/RNN)表示层(DNN/CNN/RNN)匹配层输出将字或者词映射为向量将孤立的词语embedding表示转换为具有全局信息的一个或者多个低维稠密的语义向量输出最终利用文本表示向量进行交互计算任务任务TextsTexts类型类型文本间关系文本间关系信息检索
4、A=query,B=document相关自动问答A=question,B=answer答案对应问题机器翻译A=text,B=text相关聊天系统A=text,B=text回复和评论相似文档检测A=text,B=text相似在线广告A=query,B=Ads相关文本蕴含A=text,B=text蕴含语义匹配的难点汉语的一词多义和同义词问题苹果=水果?iPhone?Apple inc?妻子=老婆,媳妇儿语言的组合性问题北京到上海的航班和上海到北京的航班词语虽然完全相同,但语义完全不同广州恒大打败了上海上港和上海上港被广州恒大打败了语义完全相同实战经验实战经验基于表示的模型:基于表示的模型:Siam
5、ese Network 基于交互的模型:tensor、attention多粒度多层次模型:词汇级、短语级预训练模型:ELMo、BERTNLPNLP算法算法-意图识别意图识别常见的方法:1、关键词、规则2、ML:svm、lr等3、DL:如cnn、rnn、transformer、bert等。企业场景的难点 数据少、质量差、冷启动 场景不同类别不同,类别数量决定难度实战经验 根据不同阶段,设定不同模型。比如:前期冷启动中使用一些正则来匹配,以及无监督模型,比如利用预训练的词向量。在数据量充足的情况下,采用深度学习模型以及利用知识图谱对词汇进行泛化抽象。RCNNRCNN 实体链接可以同时解决歧义和多样
6、性问题对话系统:意图理解、槽填充搜索系统:查询分析、改写、扩展 实体链接的难点如何识别实体边界如何链接实体与知识库如何克服训练样本稀疏 企业场景的实战通用域=实体标注问题,百科图谱作为知识库垂直域=实体识别+对齐,依赖领域知识库NLPNLP-对话系统对话系统-算法算法-Entity linkingEntity linking苹果就“降速门”致歉:苹果就“降速门”致歉:iphoneiphone换电池降价换电池降价390390元元苹果苹果 苹果公司苹果公司iPhone iPhone iPhoneiPhone红富士苹果红