《07语音与自然语言处理.pdf》由会员分享,可在线阅读,更多相关《07语音与自然语言处理.pdf(39页珍藏版)》请在三个皮匠报告上搜索。
1、107语音与自然语言处理2 斯坦福 SAIL 负责人 Christopher Manning:基于深度上下文词表征的语言结构发现整理:智源社区何灏宇Christopher Manning,斯坦福人工智能实验室(SAIL)主任,斯坦福大学语言学和计算机科学系机器学习领域、斯坦福人类中心人工智能研究所(HAI)副主任。Manning 的研究目标是以智能的方式实现人类语言的处理、理解及生成,研究领域包括树形 RNN、情感分析、基于神经网络的依存句法分析、神经机器翻译和深度语言理解等,是一位 NLP 领域的深度学习开拓者。他是国际计算机学会(ACM)、国际人工智协会(AAAI)、国际计算语言学会(AC
2、L)等国际权威学术组织的 Fellow,曾获 ACL、EMNLP、COLING、CHI 等国际顶会最佳论文奖,著有统计自然语言处理基础、信息检索导论等自然语言处理著名教材。Christopher Manning 的演讲主题是“Linguistic structure discovery with deep contextual word representations”,即“基于深度上下文词表征的语言结构发现”。在演讲中,Christopher Manning 根据对语言学结构的学习程度,将语言模型分为三个发展阶段:早期基于概率统计、无法学习语言结构的黑暗时代(Language Models
3、in The Dark Ages);之后则是启蒙时代的神经语言模型(Enlightenment era neural Language Models),特点是具备一定学习语言结构的能力;2018 年始,基于Transformer 结构的大参数量预训练模型(Big Language Models)大行其道,Manning 发现预训练语言模型的参数中包含着非常多的语言结构信息,并在本次演讲中进行了详细的解析。一、语言模型:用数学给语言建模在报告中,Christopher Manning 首先引出了语言模型的概念。语言模型是对自然语言进行数学建模的工具,它提供了一种能够用数学模型去表示自然语言的方法
4、。现如今通用的语言模型大多采用序列化概率模型的思想,比如在给定的语境下预测下一个词出现的概率。图 1:根据语境预测下一个词语言模型如 N-Gram 语言模型、基于循环神经网络的语言模型及预训练语言模型等都在不同的任务上被广泛使用,且能达到理想的效果。然而,这些语言模型真的学到了语言结构吗?还是说它们仅仅是在句子层面上学习词的概率分布?Manning 给出了他的答案。3二、黑暗时代:N-Gram 语言模型N-Gram 语言模型,是通过统计数据中给定词在长度为 n 的上文的条件下出现的频率来表征这些词在相应语境下的条件概率,如图 2:N-Gram 例子N-Gram 语言模型是神经网络出现之前构建语
5、言模型的通用方法,该方法虽然通过引入马尔科夫假设,但是其参数量依然很大。另外,N-Gram 语言模型通过平滑和回退策略解决数据稀疏的问题。但是 N-Gram 语言模型学到了多少人类语言的结构信息?有些语言学家们认为几乎没学到。虽然这样的模型可能会包含一些简单的常识性知识,比如“船”通常会与“沉没”、“起航”等词共同出现,或者模型会学习到一些简单的词法,比如类似于“冠词-形容词-名词”这样的句子,但是 N-Gram 语言模型对于“名词”这样的词性概念和语言结构规则是没有概念的。因此,在那个时代,如果想要让模型学习到语言结构,必须通过人工标注的方式获取特定语言结构的训练数据,然后训练相应的分类器。
6、采用这一方法固然是能让语言模型学习到语言结构,但是标注成本太高且数据的迁移性差,似乎并不是一个好的解决方案。图 3:人工标注的语法Manning 随后表示,想要让语言模型学习到自然语言的结构知识,只学习字面上的信息是远远不够的,但幸好,自 N-Gram 语言模型之后,基于神经网络的语言模型取得了长足的进步。三、启蒙时代:神经网络赋予语言模型新的方向得益于神经网络和深度学习带来的强大学习能力,神经网络语言模型展现出了比 N-Gram 语言模型好得多的效果,这其中最为人熟知的便是基于循环神经网络的语言模型,例如词向量模型、LSTM 模型等。词向量模型通4过把高维度的稀疏向量嵌入到低维度的分布式向量