1、中文文本自动校对技术的研究与应用王宝鑫科大讯飞研究主管、资深研究员中文文本校对介绍文本校对相关技术文本校对技术应用文本校对未来发展中文文本校对介绍中文文本校对介绍你你能看得出哪错了吗?能看得出哪错了吗?过了约一柱香的时间,他听到远处传来起伏而高吭的号角声,知道战斗开始了亢亢炷炷英法帝国烧毁并洗劫了北京圆明园。洗劫并烧毁洗劫并烧毁墙上有一些“你好”、“谢谢”等标识语。中文文本校对介绍校对工作校对工作痛点痛点关于做好湖北省湖北省张家界市来宁人员信息核查和健康管理的通知“湖南省”误写成“湖北省”这些在公文中不能错了这些在公文中不能错了职位称呼,如李克强总经经理;重要领导人名字避免出错,敏感词要及时发
2、现,等等。“一遍一遍又一遍,两遍三遍四一遍一遍又一遍,两遍三遍四五遍,千遍万遍无数遍,总有错五遍,千遍万遍无数遍,总有错字没看见字没看见”校对工作具有专业性强,校对工作具有专业性强,非专业人员校对质量难以控制,非专业人员校对质量难以控制,传统方法传统方法费时费力费时费力。根据图书质量管理规定,图书错误率低于万分之一万分之一方为合格。中文文本校对介绍中文文本校对介绍中文文本校对介绍中文文本校对介绍文字级别文字级别词语级别词语级别语法级别语法级别语义级别语义级别数字错误数字错误标点符号标点符号量和单位量和单位文本校对文本校对别字别字的、地、得的、地、得其他其他别词别词实体错误实体错误成语错误成语错
3、误异形词异形词其他其他英文拼写错误英文拼写错误成分冗余成分冗余成分缺失成分缺失顺序错乱顺序错乱语义级别语义级别其他其他阿拉伯数字阿拉伯数字其他其他时间错误时间错误 使用错误使用错误标点符号标点符号量和单位量和单位搭配错误搭配错误领域错误领域错误政治用语政治用语职称错误职称错误敏感词敏感词文本校对相关技术文本校对相关技术中文拼写纠错语法纠错数据构造方法文本校对相关技术中文拼写纠错语法纠错数据构造方法中文拼写纠错中文拼写纠错(Chinese Spelling Check,CSC)对中文文本中出现的别字、别词进行检测和纠正评价方法Sentence-Level F-score输入:我忘记告诉你了,我真
4、户秃户秃。输出:我忘记告诉你了,我真糊涂糊涂。中文拼写纠错BERT模型预训练语言模型MLM和NSP任务Transformer结构BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding.NAACL 2019.中文拼写纠错FASPell:A Fast,Adaptable,Simple,Powerful Chinese Spell Checker Based On DAE-Decoder Paradigm.W-NUT 2019.FASPell中文拼写错误80%以上是音近、形近错误引入字音、字形信息
5、对候选汉字进行排序中文拼写纠错SpellGCN:Incorporating Phonological and Visual Similarities into Language Models for Chinese Spelling Check.ACL 2020.SpellGCN通过图卷积神经网络引入汉字音近、形近信息中文拼写纠错结合字音、字形信息的预训练方法ReaLiSePLOMERead,Listen,and See:Leveraging Multimodal Information Helps Chinese Spell Checking.Findings of ACL 2021.PLO
6、ME:Pre-training with Misspelled Knowledge for Chinese Spelling Correction.ACL 2021.中文拼写纠错我真糊涂我真尴尬我真户秃我真尴涂存在问题输出汉字之间关系独立,导致输出不连贯解决方法对相邻汉字之间的依赖关系进行建模中文拼写纠错Dynamic Connected Networks for Chinese Spelling Check.ACL 2021 findingsDCN(Dynamic Connected Networks)对相邻汉字的依赖关系进行建模中文拼写纠错DCN 维特比算法计算最大概率路径中文拼写纠错SI