《自然语言处理技术范式迁徙之路-梁吉光.pdf》由会员分享,可在线阅读,更多相关《自然语言处理技术范式迁徙之路-梁吉光.pdf(38页珍藏版)》请在三个皮匠报告上搜索。
1、自然语言处理技术范式迁徙之路梁吉光明略科技 信息检索实验室主任 NLPNLP是什么是什么 NLP3.0(含)前的故事 NLP4.0进行时 展望NLPNLP是什么?是什么?领导:如果你到了,我还没有到,那你等着吧!如果我到了,你还没有到,那你等着吧!自然语言理解,Natural Language Understanding,NLU自然语言生成,Natural Language Generation,NLG计算语言学,Computational Linguistics,CLNLP=NLU+NLG CL =人工智能皇冠上的明珠自然语言处理自然语言处理,Natural Language Process
2、ing,NLPNLP致力于让机器理解和生成人类的语言让机器理解和生成人类的语言,研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。他喜欢苹果,你喜欢黑莓,我喜欢小米。他喜欢苹果,你喜欢黑莓,我喜欢香蕉。=中国中文信息学会,中文信息处理发展报告,2016NLPNLP是什么?是什么?基础性研究 支撑 应用性研究NLPNLP是什么?是什么?序列标注任务序列标注任务为语言序列中的元素标注标签典型任务:中文分词、词性标注、命名实体识别、语义角色标注NLPNLP是什么?是什么?分类任务分类任务为语言序列标注一个或多个标签。典型任务:文本分类、情感分类美妆美妆公安公安电力电力教育教育NLPNL
3、P是什么?是什么?句子关系判断句子关系判断判断两个语言序列是否具备某种语义关系典型任务:QA、自然语言推理、语义相似度NLPNLP是什么?是什么?生成式任务生成式任务自动生成新的语言序列典型任务:文本摘要续序讲故事为你写诗填词作曲看数说话读图谱说话看图说话写 机器翻译语音识别智能评语生成 NLP是什么 NLP3.0NLP3.0(含)前的故事(含)前的故事 NLP4.0进行时 展望2000200020132013201820182nd迁徙3rd迁徙1st迁徙NLP2.0NLP2.0统计机器学习模型NLP1.0NLP1.0词典+规则NLP3.0NLP3.0深度学习模型NLP4.0NLP4.0预训练
4、预训练+微调微调NLPNLP范式迁徙之路,是语言表示的变革之路范式迁徙之路,是语言表示的变革之路NLPNLP技术范式迁徙技术范式迁徙预训练模型元年预训练模型元年 白名单白名单+黑名单黑名单NLP1.0:NLP1.0:词典词典+规则规则 正则表达式正则表达式 语法规则语法规则领域词词典 否定词词典情感词词典 程度词词典停用词词典 反转词词典定义:语言序列w1,w2,wt的概率,即:P(w1,w2,wt)语言模型,语言模型,LM,LM,languagelanguage modelmodel 对语言序列的概率分布的建模 判断语言序列是否为人类语言 马尔科夫假设 N-元语法NLP2.0:NLP2.0:
5、统计机器学习模型统计机器学习模型NLP2.0:NLP2.0:统计机器学习模型统计机器学习模型Document-Word Weight MatrixDocument-Word Weight MatrixWeight离散:0,1连续:0,1w1w2wn-1wnd1d2dm-1dmd=w1,w2,wnT 布尔模型one-hot,0,1表示;向量空间模型(VSM)tf;tf-idf;概率模型1-Gram1-Gram表示表示张三打漂亮李四没D1D111110D2D211110D3D311111NLP2.0:NLP2.0:统计机器学习模型统计机器学习模型D1:张三打了漂亮的李四D2:李四打了漂亮的张三D3
6、:张三没打漂亮的李四2-Gram2-Gram表示表示张三_打张三_没李四_打 没_打 打_漂亮 漂亮_李四 漂亮_张三D1D11000110D2D20010101D3D30101110维数灾难维数灾难:特征向量通常会达到几万维甚至于几十万维寻求一种有效的特征降维特征降维方法,降低特征空间的维数,提高效率NLP2.0:NLP2.0:统计机器学习模型统计机器学习模型特征工程特征工程合适的输入回归分类聚类神经网络时间序列主成分分析 NLP2.0:NLP2.0:统计机器学习模型统计机器学习模型线性回归逻辑回归支持向量机朴素贝叶斯KNNK-means前馈神经网络矩阵分解随机森林 2-范数径向基核函数Si