当前位置:首页 > 报告详情

1-1 结构化和长序列中的信息抽取及其应用.pdf

上传人: 云闲 编号:102324 2021-01-01 64页 4.26MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了信息提取在结构化和长输入数据上的应用。关键点包括: 1. 信息提取是指从非结构化和半结构化文档中自动提取结构化信息。它对搜索排序、文档理解、推荐系统、问答等任务很有用。 2. 处理长输入和结构化数据是信息提取中的主要挑战。最近的研究包括使用稀疏变换器、Transformer XL、自适应注意力范围等方法来处理长序列。 3. Extended Transformer Construction (ETC)/BigBird是处理结构化和长输入的有效方法。它通过全局-局部注意力来编码结构数据,通过相对位置表示来高效编码长输入。 4. ETC/BigBird在属性值提取和网页结构信息提取等应用中表现出色,例如在MAVEQA数据集上,ETC/BigBird相比BERT的相对F1提高了20.4%。 5. WebFormer是用于网页结构信息提取的模型,它通过ETC编码字段和网页信息,并通过图注意力整合HTML布局信息。 6. 未来的研究方向包括多模态学习、零样本/少样本学习和基于提示的学习,以及具有结构解码器的生成模型。
如何有效处理长文本和结构化数据? 信息提取技术在哪些领域有应用? 有哪些方法可以提高信息提取模型的泛化能力?
客服
商务合作
小程序
服务号
折叠