1、 1 12智能信息检索与挖掘 2 新加坡国立大学蔡达成教授:展望未来多模态会话搜索的机遇和挑战整理:智源社区 陈佳在 2020 年 6 月 23 日上午的“2020 北京智源大会|智能信息检索与挖掘专题论坛”中,来自新加坡国立大学的蔡达成教授做了关于多模态会话搜索相关研究的介绍。蔡达成,新加坡国立大学计算机学院创院院长、KITHCT 讲席教授、清华大学新加坡国立大学下一代搜索技术研究中心主任。他是国际知名的计算机科学与技术专家,在多媒体与信息检索领域享有盛誉,是国际计算机学会多媒体专委会(ACM SIGMM)杰出技术贡献奖获得者,也先后担任包括 MM 和 SIGIR 在内的多个国际顶级学术会议
2、的大会主席,先后发表多篇国际顶级会议与期刊论文,获得 MM,SIGIR,ICDM,MMM 等高水平国际会议的最佳论文奖。以下是智源社区编辑整理的蔡达成演讲要点:关于信息检索的研究开始于 20 世纪 50 年代,在大约 60 年代末 70 年代初的时期,最受欢迎的模型是向量空间模型以及 TF-IDF 模型等等,这其中有很多的模型直到今天仍然被广泛使用。另一个比较有代表性的工作是在 1998 年提出的 PageRank 算法,不仅仅是在信息检索领域,该算法在其他的领域也大放异彩。到了 2013年,大家开始把注意力集中到词向量表示的评估上,诞生了像 Wordvec 这样非常有影响力的工作。而现在,我
3、们开始展望未来,必须要探讨一下经典的 IR 算法中的一些局限性。首先,是单方向查询模式(即只有用户可以向系统提交查询),它假设用户提交的查询是精确的,且系统可以理解的用户意图等等,但是实际上并不一定是如此。如上所述,我们需要考虑多方的对话因素来帮助用户提升搜索体验并帮助系统能够更好的理解用户;其 3 次,是目前对查询以及各种信息进行建模的局限性,绝大部分系统主要是利用文本信息(Text-based)去挖掘用户的意图。然而,近年来随着智能手机的普及,很多人会开始在移动端输入其他形式的查询,例如图片。因此,利用多模态查询来作为检索系统的输入会在不久的将来成为一种常态;第三点是关于用户查询意图的不确
4、定性和流动性。根据大量系统的反馈数据,用户的意图往往会随着搜索过程产生一定的转移。在这样的情况下,一个搜索系统也必须期待着用户随时变化的意图。图 1:信息检索的发展一、多模态会话搜索介绍信息检索的发展趋势,应该是和新兴的技术息息相关的。首先是多模态处理技术(Multimodel Processing)。新的多模态模型可以处理更为丰富的信息,例如图片、视频和音频数据等等。除此之外,用户画像、历史信息也渐渐被融入到模型中,从而能够使得模型更准确地理解用户意图。另一个领域是对话系统(Dialogue System),对话系统主要通过和用户进行交互来达到它的目的。因此,现在的一个主要趋势应该是如何从文
5、本过渡到多模态信息,例如,构建多模态对话系统(Multimodel Dialogue System)、多模态推荐系统(Multimodel Recommendation System)等等。另一个趋势则是,如何从单向(Unidirectional)的查询转变为交互式(Interactive)的查询,例如会话推荐(Conversational Recommendation)以及会话结构式知识库搜索(Conversational Structured Knowledge Base Search)等等。这里要强调一下会话搜索(Conversational Search)和对话系统(Dialogue
6、System)的区别。二者之间的差别并不大,但是有一些关键的区别。例如对话系统有以下特点:1)目的是与用户在宽泛的主题下谈话,2)可能包含搜索式或者非搜索式的对话。而对于会话搜索来说,往往包含比较明确的目标,即用户在会话中通过修改查询来明确自己的搜索意图。但是二者有一些需要共同关注的点,包括:怎样去实时地理解用户的意图,如何去追踪用户的对话状态并对历史信息进行进模,如何学习好的策略去干预用户并引导做用户喜欢的事情以及如何进行人机协调,等等。举一个关于多轮会话推荐系统的例子。会话开始,用户对智能体说“我想要一个新的手机”,接着智能体问用户 4“你想要什么样的操作系统?”用户回答“iOS”。这里智