《自然语言处理在时空数据治理中的应用.pdf》由会员分享,可在线阅读,更多相关《自然语言处理在时空数据治理中的应用.pdf(49页珍藏版)》请在三个皮匠报告上搜索。
1、自然语言处理技术在时空数据治理中的应用易智瑞研究院产品咨询推广部 陈竞男GeoScene结合NLP的探索实践NLP在时空数据治理中的应用潜力目 录自然语言处理技术的概念和发展020301内容总结0401 NLP的概念和发展自然语言处理(Natural Language Processing,简称NLP)是一门集语言学、数学及计算机科学于一体的科学,旨在让计算机能够理解(NLU)和生成(NLG)人类语言。NLP是人工智能的一个重要分支,被誉为“人工智能皇冠上的明珠”,该领域体现了人工智能的最高任务与境界,也就是说,只有当计算机具备了处理自然语言的能力时,机器才算实现了真正的智能。自然语言处理的概
2、念机器翻译NLP应用场景知识图谱搜索理解邮件分类拼写检查(文本纠错)语音识别、舆情分析、推荐系统、文案生成自动问答NLP技术的发展历程20世纪50年代手写规则时代20世纪70年代统计语言模型时代2003年深度学习时代1过渡期-向量法NPLM,word2vec2013年深度学习时代2RNN及类RNN时期(RNN(LSTM))2015年深度学习时代3预训练模型时期Transformer(ChatGPT)三个大的阶段:规则化、统计化、深度学习词嵌入(Word Embedding),即将词映射到一个向量空间,形成词向量用实数把词汇表示成普通的向量形式,就可以在有限维度表达任意词深度学习时期的NLP技术
3、-词嵌入词嵌入模型:Word2vecFasttextGloVe能捕获词语之间的语义和语法关系:近义词的向量会在空间中更靠近,而反义词则会更远离词向量特点:呼喊呼喊歌唱歌唱树木树木花花猫猫狗狗兔兔基本原理:输入大规模无监督语料,考虑单词的上下文信息,采用神经网络模型进行词向量模型训练2017年谷歌在论文Attention is All You Need提出的序列模型是一种优秀的神经网络架构,能够解决并行训练问题以及上下文长程依赖问题深度学习时期的NLP技术-Transformer代表模型:BERTGPT通过对输入序列中的每个词进行注意力权重的计算,来确定该词与其他词的相关程度。这种机制允许模型根
4、据上下文动态地调整对不同元素的关注度,从而更好地捕捉句子中单词之间的句法特征以及语义特征Self-attention机制:命名实体识别(Named Entity Recognition,简称NER),又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、时间、机构名、专有名词等。NLP常见任务-命名实体识别 文本分类是指用计算机对文本(或其他实体)按照一定的分类体系或标准进行自动分类标记。应用场景:情感分析(积极、消极、中性)主题分类(金融、体育、军事、社会)问答任务(是、否)意图识别(天气查询、歌曲搜索、随机闲聊)NLP常见任务-文本分类*图片来源于网络用户评论分析中应用
5、文本分类 序列到序列通常是指序列到序列模型,用于完成序列转换,应用场景包括机器翻译、文本摘要提取、机器问答、语音识别等。NLP常见任务-序列转换02 NLP在时空数据治理中的应用潜力从非结构化文本中自动提取出时间、地址等实体,形成可读性更高的结构化数据泛在时空信息抽取非结构化文本识别文中的地址、时间、事件等实体识别出的地址匹配坐标位置,在地图上展示命名实体识别技术(NER)时间时间:xxx:xxx地点地点:xxx:xxx事件事件:xxx:xxx以自然语言形式进行查询交互自然语言空间查询空间数据库数据子集(查询结果)查找107国道上的所有加油站金泰大厦周围的医院有哪些判断查询类型(位置、距离、缓
6、冲区)地理实体抽取空间关系抽取填充查询语句,如SQL语句返回结果(图形要素或文本属性)构建更灵活的GIS应用系统促进地理信息从专业走向普适抽取和解译GIS空间查询信息地名地址的治理和应用地址标准化和结构化原地址:北京市朝阳区金泰大厦标准地址:北京市朝阳区西坝河南路1号金泰大厦结构化:City=北京市 district=朝阳区 road=西坝河南路roadnumber=1号 poiname=金泰大厦基于词典、规则、深度学习地址信息检索基于中文分词、全文检索指代消解中国科学院,中科院中国科学技术研究院文本相似度计算、基于规则、有监督学习地址语义相似度基于字符串距离、词向量、余弦相似度cos_sim