1、从深度匹配到深度问答复旦大学 张奇1目录21从搜索到问答234深度语义匹配机器阅读理解语言模型预训练从PC到移动?)?(?3任何可联网的设备(眼镜、车载、音箱、服务机器人)?无处不在的问答引擎Q:大红袍是什么茶?A:乌龙茶。Q:学生证买火车票一年能用几次?A:4次。Q:汽车没电了打不着火怎么办?A:首先需要一根跨接电线,然后将两车的车头面对面Q:北京处理违章需要带什么证件?4来自搜索的问题分布用户需求强,难度大查询类别搜索请求占比问答24%医疗9%小说9%教育7%人物7%知识4.5%购物4%问题类型多问题类型搜索请求占比非事实类20%观点类2%事实类2%约1/4用户查询是问答需求更长尾,更偏向
2、自然语言描述事实类,非事实类,观点类猕猴桃和奇异果有什么区别腰肌劳损挂什么科眼镜蛇和眼镜王蛇的区别蜂蛹泡酒的功效人有多少颗牙齿什么是幽门螺旋杆菌没有房产证的酒店拆迁如何补偿手机怎么注册淘宝账号低烧可以进藏吗落地签证是什么意思影响发电量的三大因素充电器可以托运吗esp是什么苹果手机信号不好怎么办神经绷紧怎么回事烫伤的水泡会自然消吗顶的网络意思网速突然变慢的原因大米生虫子了还能吃吗在家原地跑步能减肥吗网很卡是什么原因交首付款注意事项折耳兔怎么养故乡鲁迅发生的变化的原因石家庄市银监局投诉电话是多少疝气会影响生育吗5搜索问答的挑战面临复杂的互联网文档,文档质量、文本长度千差万别,机器阅读理解难度更大,
3、更具挑战性。任务阅读对象文档质量文本长度文档是否一定存在答案Squad1.0/2.0 Wiki段落高质量平均长度约138个词,200词以下占比86%,300词以下占比98%1.0一定存在答案2.0不一定存在答案搜索问答网页文本类型多样,质量差异大,大量UGC内容质量低平均正文约460字(除视频等非文本页)超过600字的占比约1/3不一定存在答案单个搜索结果中的答案可能错误从全网信息中精准找到包含答案的结果更高的相关性要求深度匹配深度问答从多样的网页中精准抽取出答案更复杂的阅读理解关键问题1:关键问题2:6深度匹配7深度匹配 数据来源8深度匹配Apple 官方支持:如果您的 iPhone、iPa
4、d 或 iPod touch 开不了机或死机怎么办用户:iPhone 死机了怎么办苹果8突然卡死,主界面不能动,在线急等我的肾7突然无法操作,这种情况怎么解决?9用户输入与标准问法差别很大深度匹配小孩子发烧38度怎么办 小孩子发烧41度怎么办北京大学 北京的大学盐酸氯丙嗪 盐酸异丙嗪定金 订金10失之毫厘,差以千里!脑袋测得出的东西叫智商,脑袋测不出的东西叫智慧;眼睛看得到的地方叫视线,眼睛看不到的地方叫视野;耳朵听得到的动静是声音,耳朵听不到的动静是声誉;嘴里说得出来的话叫内容,嘴里说不出来的话叫内涵;深度匹配基于句子表示的方法基于交互关系的方法QueryDocumentMatching s
5、coreMatchingsignalsAggregationQueryDocumentNeural NetworkNeural NetworkQueryRepresentationDocumentRepresentationMatching score11基于句子表示的方法DSSM:Learning Deep Structured Semantic Models for Web Search using Click-through Data(Huang et al.,CIKM13)12基于句子表示的方法CNN-DSSMCNTN13多层表示学习 QRNN-ATTQuery和Doc的多层交互,三层
6、QRNN提供了由浅到深的语义编码能力Attention机制建模Query和Doc的语义一致性,利用Query重构Doc上下文表示的能力,语义信息层层递进Query Embeddings:Doc Embeddings:qrnn1qrnn2qrnn3att1Q hidden1D hidden1Bilinearsigmoidatt2D hidden2D hidden3Q hidden2Q hidden3基于句子表示的方法14基于交互关系的方法ARC-II15基于交互关系的方法16MatchPyramid多层匹配学习 MV-LSTMQueryEmbeddingQLSTMLayer1QLSTMLayer