《2019年自然语言处理技术在文娱大脑中的应用.pdf》由会员分享,可在线阅读,更多相关《2019年自然语言处理技术在文娱大脑中的应用.pdf(27页珍藏版)》请在三个皮匠报告上搜索。
1、自然语言处理技术在文娱大脑中的应用背景 内容越来越多,数据越来越多 什么样的内容才是好内容(理解内容)用户喜欢什么样的内容(理解用户)阿里的文娱大脑 北斗星系统应用模型泛内容库流量预测内容评估IP库主创库明星库影视库事件库泛内容周边北斗星技术体系NLPCV传统机器学习数据源基础模型情感分析相关性识别关系抽取实体识别内容标签发现事件聚合明星标签发现用户标签发现视频文学IP剧本用户表达人脸识别颜值打分动作识别情绪识别场景识别舆情分析智能选角文本的特征表示方法 Bag of Words(one-hot、tf-idf)Word Embedding(word2vec Glove)ELMO BERT、Xl
2、net北京=1 0 0 0 0南京=0 1 0 0 0首都=0 0 1 0 0中国=0 0 0 1 0北平=0 0 0 0 1北京cat北平华夏中国故宫长城Word EmbeddingOne-hot EncodingELMO(Embeddings from Language Model)Deep contextualized word representations NAACL 2018以语言模型作为训练任务通过考虑上下文信息,克服一词多义的问题BERTBidirectional Encoder Representations from TransformersEncoderhttps:/ar
3、xiv.org/abs/1810.04805NLP在北斗星的典型应用 内容创作理解(评估阶段)智能选角(制作阶段)舆情分析(宣推阶段)内容创作理解长安十二时辰人物交互图角色互动分布Demo角色名识别剧情冲突量化 角色关系的变化(敌对关系的出现)情绪变化 负面情绪(怒、哀、厌恶、惊)主角的价值改变更重要 当前场次人数(越多矛盾越容易爆发)张小敬被迫杀小乙大结局徐宾劫持圣人崔器壮烈战死右相以檀棋性命威胁李必李必怒斥姚汝能出卖太子对话情绪识别Speaker A:你生气了?Speaker B:是的Speaker A:没必要吧?Speaker B 转身走了 七分类问题 考虑对话上下文dialogue-s
4、entence -word三层结构人物动机初探张张小小敬敬李李必必徐徐宾宾崔崔器器姚姚汝汝能能曹曹破破延延必须弄清楚你的人物需求(欲望),然后才能针对需求(欲望)设置障碍,有了需求(欲望),有了障碍,自然就产生了冲突 故事罗伯特麦基智能选角主要维度 特质 颜值 基本信息 演技 人气 商业价值 其他因素:档期、片酬选角的基本流程舆情库舆情库剧本/原著故事大纲人物小传明星明星库库内容内容库库候选列表角色信息需求方基本信息初筛标签匹配度明星信息历史作品表现人气与商业价值其他因素最终结果明星标签抽取模型 分类问题:实体和标签是否匹配 可以通过负采样构造负样本 目前标签和实体都是封闭集合 后续通过序列标
5、注抽取实体和标签embeddingW W1 1PER1PER1W W3 3PER2PER2W W5 5TAGTAGW W7 7Transformer/BERT EncoderV1V1V2V2V3V3V4V4V5V5V6V6V7V7+-maskedmaskedmasked王宝强 这 三 部 电影,展现 的 表演 功力,哪个 小鲜肉能 有 十分之一?老戏骨之陈宝国,当年的青春偶像,如今的国宝演员丧萌代言人雷佳音,还是火晚了实际案例舆情分析观点句识别评价对象抽取aspect情感分类type分类sentence情感分类人物、剧情、制作、场面、视觉音效、整体评价人物、剧情、制作、场面、视觉音效、整体评价
6、弹弹幕幕/评论评论观点聚合输入:输入:Sentence 、Aspect输出:输出:当前Sentence中给定Aspect的情感极性(正向、负向、中性)特殊的分类问题,核心在于捕捉当前aspect在sentence中的有效上下文ABSC问题定义问题定义剧情剧情很 烂,唯一 可看 的 也 就是特效特效了。Aspect 1:剧情剧情 负向负向Aspect 2:特效特效 正向正向ExampleSentence 级别的情感分类局限性:级别的情感分类局限性:-对于复杂句式准确率不高-无法