1、信息检索与机器学习的华尔兹兰艳艳 副研究员 中国科学院计算技术研究所 the semantic gapIntentInformationRelevanceQuery UnderstandingDocument Modeling Ranking华尔兹的开场向量空间模型 TF-IDF 链接分析 PageRank Language Model Topic Modeling检索的领域知识如何共同作用决定一个文档与查询的相关?排序学习对信息检索的影响:领域知识作为数据表示,采用数据驱动的方式来自动决定如何共同作用对机器学习的影响:排序是一个并列于回归和分类的另一个问题,机器学习理论和算法都得到新的发展华
2、尔兹开场:排序学习华尔兹的中场华尔兹的中场:深度学习的交融文本表达技术 从one-hot到semantic word embedding 从数据底层表达开始刻画语义关系7背景:分布式表示(?)?分布式表示?将单词表示为多维实数向量?.?,.,?.?,.,?.?.?,.,?.?,.,?.?.?,.,?.?,.,?.?.?,.,?.?,.,?.?背景:分布式表示(?)?分布式表示?将单词表示为多维实数向量?.?,.,?.?,.,?.?.?,.,?.?,.,?.?.?,.,?.?,.,?.?.?,.,?.?,.,?.?背景:分布式表示(?)?分布式表示?将单词表示为多维实数向量?.?,.,?.?,.
3、,?.?.?,.,?.?,.,?.?.?,.,?.?,.,?.?.?,.,?.?,.,?.?华尔兹的中场:深度学习的交融深度文本匹配技术 使用高度非线性函数表达复杂的文本匹配模式 刻画抽象的语义关联规则8背景:分布式表示(?)?分布式表示?将单词表示为多维实数向量?.?,.,?.?,.,?.?.?,.,?.?,.,?.?.?,.,?.?,.,?.?.?,.,?.?,.,?.?背景:分布式表示(?)?分布式表示?将单词表示为多维实数向量?.?,.,?.?,.,?.?.?,.,?.?,.,?.?.?,.,?.?,.,?.?.?,.,?.?,.,?.?Siamese NetworkInteracti
4、on Network华尔兹的终场信息检索的未来Information NeedRelevant DocumentsDigestion AnalysisResponseSearchNLUHuman-Computer Interaction智能搜索,智能检索,智能问答,智能对话华尔兹的终场:局限与挑战大数据vs小数据 zero shot learning;迁移学习;单任务到多任务;异构数据的融合 数据的表达问题:连续or离散 学习范式问题 平均或极大似然的缺陷 Worst Case为目标 知识与统计的融合We demonstrate that MultiModel is capable of le
5、arning eight different tasks simultaneously:it can detect objects in images,provide captions,recognize speech,translate between four pairs of languages,and do grammatical constituency parsing at the same time.The input is given to the model together with a very simple signal that determines which output we are requesting.Thanks!