《金山云:大模型推动知识工作领域的创新与变革-陈海彪.pdf》由会员分享,可在线阅读,更多相关《金山云:大模型推动知识工作领域的创新与变革-陈海彪.pdf(31页珍藏版)》请在三个皮匠报告上搜索。
1、北京金山云网络技术有限公司Copyright Kingsoft CloudLLM市场与应用案例研究知识助手的前世今生知识助手的技术细节知识助手的产品实践目录规则引擎检索关键词、规则、相似问题企业文档库提示工程任务链 提示链 思维链AI知识库领域大模型基础大模型向量数据库多模态文档解析企业业务库企业数据库企业文档库自动抽取可校验可更新可溯源行政知识库营销知识库客服知识库IT知识库产品知识库人力知识库研发知识库行政服务台营销服务台客服服务台IT服务台产品服务台人力服务台研发服务台部门人员IT张三行政李四数据库私域数据公域数据统一知识库组织架构业务场景提示词ITP1行政P2知识场景应用行政服务台营销
2、服务台客服服务台IT服务台产品服务台人力服务台研发服务台检索前端检索前端生成模型生成模型公域数据私域数据向量数据库输入/问题检索信息通过Prompt模版合并问题+内容生成输出行业数据基座模型数据集数据洞察规则清洗去重规则分类质量分析数据清洗按行业分类按质量按技能按采样混合数据制备预训练数据SFT数据采样对应行业数据国民经济分类金融、医疗、零售电子商务、教育、交通运输等分类模型Qzhou-basev1v2v3vn基于清洗规则和分类配比组合规则形成多版本v1v2v3vn预训练数据评估部署通用评测行业评测集C-Eval/CMMLULawBench/JEQ-C人工主观评测裁判员评测行业专家SOTA模型
3、通用技能评测指令遵循等v1v2vnv1v2vns1s2v1v2方法论沉淀基于多个配方进行SFT训练,形成固定1-2个配方进行补充和迭代用户反馈评价反馈,用户反馈实现检索 L1(Retrieval)全文检索(Keyword)词向量(Vector)图索引(Graph)精排 L2(Ranking)命中率(Hit rate)平均倒数排名(MRR)Reranker模型(qzhou-reranker-base)提取后的关键词存储,主体、主题、分类等创建反向索引实现快速检索使用Elasticsearch实现使用Embedding模型将文本分片转为向量表示通过查询与问题的向量相似度使用Milvus/Faiss
4、进行存储将一个文档内的关联信息组合成为dataset,用图表示提升召回的粒度,避免损失知识精度T2RetrievalQzhou-Emb-m3ebge-large-1.5map_at_100.658630.68944mrr_at_100.862110.88032ndcg_at_100.751650.7784precision_at_100.377870.38985recall_at_100.742960.76989行业专家团队高质量评测题集行业特定指标通用评测纬度反馈(用户评价&人工评测&自动评测)问题分类(GoodCase&BadCase)根因分析(Case Tracing)数据标注(文档质量
5、&索引质量)数据更新(模型训练&数据索引)评测闭环一套能力一个平台四大功能轻舟智问瀚海平台微调推理数据加速AI检索文档智能三个模型大语言文本分片Embedding数据加速框架数据平台数据接入数据处理数据制备数据管理数据标注个人标注自动标注团队标注训练平台故障容错一键微调可视化分布式训练Notebook预置算子评测平台GPT评测A/B Test数据评测人工评测评测框架评测标准推理平台模型压缩分布式推理模型网关版本管理模型调度弹性伸缩训练加速框架开发加速框架推理加速框架资源中心司法 Qzhou-law行业模型行业模型政务 Qzhou-govQzhou-7BQzhou-13BQzhou-70B文档模
6、型文档模型向量化Qzhou-emb文本模型文本模型分段Qzhou-seg图像识别OCR模型版面理解/解析Layout大模型知识问答情景对话知识洞察执行延展写作助手代码辅助数据分析知识库管理Prompt管理应用编排应用评测智能文档智能检索问题改写意图识别Agent合同审查法律咨询智能尽调智能文书公文问答政策解读政务办事投融资分析财会 Qzhou-acc云行业 Qzhou-ict用户管理基座基座模型模型互娱 Qzhou-ent重排Qzhou-reranker税务报告财务咨询数据分