1、演讲嘉宾:深交所信息公司 毛瑞彬证券知识库构建和应用证券知识库构建和应用目录目录0 1背景背景0 2文档结构化解析文档结构化解析0 3知识库构建及问答知识库构建及问答0 4应用案例应用案例0 5思考思考0 1 背景背景背景-大模型应用范式大模型大模型知识库知识库智能体智能体+背景-知识库建设的挑战 知识库数据包括上市公司、债券、基金等公告以及法规、舆情、专利、研报等文档类别多文档类别多 段落-跨页段落合并 表格-无框线表格还原、跨页表格合并、单元格合并、表格内图片还原 多栏-阅读顺序分割 扫描件-签章覆盖文字识别 其他-目录、页眉页脚、公式、角标识别版式元素多样版式元素多样 数据量大(公告40
2、0w+篇/年)造成候选片段精准率低 用户意图识别-时间范围、主体、同义词准确识别检索召回难度大检索召回难度大知识库构建流程01文档布局布局检测检测02阅读顺序目录识别无线表格还原OCR文本切片向量化向量化检索03040506070 2 文档结构化解析文档结构化解析布局检测图片输入FocusCONVSPPFNECK CSPDetection自注意力机制卷积层多尺度特征提取特征融合预测模块预测结果布局检测效果研报港股PPT版式阅读顺序分割布局检测结果根据布局框计算是否存在跨多行的公共切线根据竖切线分割页面返回分割结果是开始结束否无线表格还原无线表格还原效果跨页表格和单元格合并表格识别跨页表格拼接表
3、格还原目录识别开始文件分类文件解析标题抽取布局识别标题坐标文字识别标题抽取数据清洗大模型生成目录结束布局识别原文目录原文目录抽取PDF文件扫描件目录识别效果OCR-识别0 3知识库构建及问答知识库构建及问答文本切片按字数顺序切片按字数顺序切片 优:对解析要求低,操作简单 缺:切片混乱,段落不完整按段落切片按段落切片 优:段落完整、对小标题/简短段落问答效果好 缺:向量存储占用空间大、检索后需回溯取数拆分拆分-合并切片合并切片 优:无需回溯原文、向量存储占用空间小、检索稍快、整体效果略好 缺:对于简短问题效果略差向量化向量化模型向量化模型:清洗问答语料,聚类增加负样例质量,微调10万条语料,在5
4、000条测试集测试,recall10由62.7%提升至73.3%,recall20由73.7%提升至83.9%输入文本Embedding预训练BGE-M3弱监督学习有监督微调Mask(EN)Mask(DN)EncoderDncoderSentence EmbeddingC-MTP无标签数据集训练C-MTP有标签数据集训练存储源数据表源数据表:根据文档元素存储:包括段落、表格、图片(s3链接)及其相应的坐标,字的坐标、目录树结构检索表检索表:根据检索需求,合并段落分块存储数据检索132意图识别意图识别排序排序过滤和召回过滤和召回 利用实体识别、文本标签等确定检索范围,通过大模型对问题进行扩写 标
5、量过滤 支持3种召回方式,包括关键词、向量、混合 使用重排模型gte-multiligual-reranker-base,召回60条重排30条召回率为83.10%公告知识库建设-公告检索问答产业链知识库产业产业1 1产业产业2 2产业产业n n生产资料生产资料上游行业上游行业制造和研发制造和研发中游行业中游行业销售和服务销售和服务下游行业下游行业产业链知识库0 4应用案例应用案例应用情况-数据质量管控应用案例-信息抽取应用案例-公告问答应用案例-年报分析应用案例-行业分析0 5思考思考思考-知识库质量的提升和应用 降低算力依赖 提升解析效率 提升布局模型的泛化性 表格还原优化 精准识别目录质量和效率平衡质量和效率平衡 优化检索策略 强化意图识别 拓展监管和投研投顾的应用场景拓展应用拓展应用THANKS演讲嘉宾:深交所信息公司 毛瑞彬 18194059535