1、哈尔滨工业大学社会计算与信息检索研究中心面向结构化数据的文本生成技术研究冯骁骋哈尔滨业学2023.03哈尔滨工业大学社会计算与信息检索研究中心目录4、总结2、面向结构化数据的文本生成1、文本生成简介3、目前主要挑战哈尔滨工业大学社会计算与信息检索研究中心目录4、总结2、面向结构化数据的文本生成1、文本生成简介3、目前主要挑战哈尔滨工业大学社会计算与信息检索研究中心人工智能的发展阶段计算智能能存会算完胜人类感知智能能看会读与人类媲美认知智能能理解会表达与人类有一定差距哈尔滨工业大学社会计算与信息检索研究中心文本生成(按数据形式划分)疲劳驾驶疲劳驾驶疲劳驾驶疲劳驾驶疲劳驾驶疲劳驾驶疲劳驾驶疲劳驾驶
2、疲劳驾驶疲劳驾驶疲劳驾驶疲劳驾驶疲劳驾驶疲劳驾驶文本文本疲劳驾驶疲劳驾驶疲劳驾驶疲劳驾驶疲劳驾驶疲劳驾驶疲劳驾驶疲劳驾驶疲劳驾驶疲劳驾驶疲劳驾驶疲劳驾驶疲劳驾驶疲劳驾驶数据文本疲劳驾驶疲劳驾驶疲劳驾驶疲劳驾驶疲劳驾驶疲劳驾驶疲劳驾驶疲劳驾驶疲劳驾驶疲劳驾驶疲劳驾驶疲劳驾驶疲劳驾驶疲劳驾驶图像文本l图像到文本的生成是指根据给定的图像生成描述该图像内容的自然语言文本自然语言生成也称为文本生成就是指期待未来有一天计算机能够像人类一样学会表达,撰写出高质量的自然语言文本,满足特定需求的过程。l文本到文本的生成主要指对给定文本进行理解、变换和丰富从而获得新文本的技术l结构化数据到文本的生成指根据给定的数
3、值数据生成相关文本哈尔滨工业大学社会计算与信息检索研究中心文本生成(按文本长度划分)压缩式文本生成平行式文本生成输入稀少丰富输出长度较短长度较长挑战标题生成自动文摘文本复述机器翻译段落故事篇章作文扩展式文本生成哈尔滨工业大学社会计算与信息检索研究中心文本生成模型流水线(Pipeline,2000)端到端(NMT,2014)预训练(GPT,2018)提示学习(Prefix,2021)哈尔滨工业大学社会计算与信息检索研究中心文本生成技术预训练语言模型为文本生成领域提供了全新的技术支撑,长久困扰人们的连贯性、流畅度等问题基本得到解决Large Language Models:A New Moores
4、 Law?-Hugging Face写什么?怎么写?哈尔滨工业大学社会计算与信息检索研究中心文本生成技术风格逻辑长度文本结构化数据图片或视频仅有解码器编码器-解码器预训练大模型哈尔滨工业大学社会计算与信息检索研究中心目录4、总结2、面向结构化数据的文本生成1、文本生成简介3、目前主要挑战哈尔滨工业大学社会计算与信息检索研究中心结构化数据文本的生成面向结构和数据的文本生成也称为结构化数据到文本的生成狭义定义根据非语言信息生成自然语言文本的过程(Reiter&Dale,1997,2000)具体含义基于结构化数据(表格)生成描述和解释结构化数据的自然语言文本任务定义输入:结构化数据输出:自然语言文本
5、哈尔滨工业大学社会计算与信息检索研究中心结构化数据文本的生成研究动机语言更适合人类,数据更适合机器 一行一行读取数字或者统计数据会不会非常的StupidJin-Ge Yao.Data-to-Text Natural Language Generation:Approaches and Challenges 哈尔滨工业大学社会计算与信息检索研究中心 研究面向结构化数据的文本生成的关键技术输入:结构化数据输出:描述型文本示例:体育赛事报道生成哈尔滨工业大学社会计算与信息检索研究中心场景示例球员得分篮板助攻德罗赞2348马刺盖伊12102莱昂纳德2562猛龙西卡姆2236NBA常规赛,猛龙主场120
6、-117,险胜马刺。莱昂纳德面对马刺手感一般,23投仅8中,但生死关头,他抢断上篮一击制胜,全场得到25分。德罗赞此次重返赛场,猛龙球迷表达了他们对篮球队昔日当家球星最大的爱,德罗赞也不负众望,在猛龙身上砍下了23分、4个篮板、2次抢断.Wiseman S,Shieber S M,Rush A M.Challenges in Data-to-Document GenerationC/EMNLP.2017:2253-2263.哈尔滨工业大学社会计算与信息检索研究中心 研究面向结构化数据的文本生成的关键技术输入:结构化数据输出:描述型文本示例:商品描述生成哈尔滨工业大学社会计算与信息检索研究中心场