1、DataFunSummitDataFunSummit#20242024专利大模型的实践与问答探索专利大模型的实践与问答探索王为磊 智慧芽 搜索与算法总监兼首席科学家专利大模型介绍专利大模型介绍训练过程训练过程专利检索专利检索+专利大模型专利大模型挑战和展望挑战和展望目录目录DataFunSummitDataFunSummit#202420240101专利大模型专利大模型智慧芽垂直领域大模型智慧芽垂直领域大模型PatentPatent GPTGPTPharmPharm GPTGPT算法能力算法能力Leading Algorithm CapabilitiesMaterialsMaterials G
2、PTGPTAI专家检索AI-powered Expert Retrieval专利申请书撰写助手Assisted Patent Drafting自动生成检索式Automatically Generate Search ExpressionsAI技术问答Conversational Answers to Technical Questions内容生成Content Generation对话问答DialogueQ&A精准检索和专业推荐Precision Search and Professional Recommendation多语言翻译Multilingual Translation总结分析Sum
3、marize and Analyze基于领域专家反馈的强化学习Reinforcement Learning with Expert Feedback监督精调Supervised Fine-tuningRAG检索增强生成Retrieval-Augmented GenerationAI标引Automatic Indexing药物情报助手Drug Search AssistantAI技术预研AI-powered Technical Pre-research自研大模型Self-developed large-scale modelAI助手AI AssistantAI专利对比AI-powered Tec
4、hnical Pre-researchAI专利和论文解读AI-powered Interpretation of Patent and Papers垂直数据基石垂直数据基石PatsnapPatsnap DataData setssets专利Patent生物序列Bio Sequences文献Literature新闻News书籍Books化学结构Chemical Structures适应症Indication药物Drug靶点Target论文Papers材料性质 Material PropertyAI缴费Assisted Paying实践的一些经验实践的一些经验:有差异化的海量数据有小模型+大模型大
5、模型:CPT+SFT+Reward+PPO(DPO)应用场景数据提取产品场景RAG在SAAS行业是必要的组合飞轮算法LLM Algorithm数据基石Data数十个小模型Bert Based models芽仔芽仔DataFunSummitDataFunSummit#202420240202专利大模型训练专利大模型训练领域数据(专利论文等246B246B tokenstokens )PatentGPTPatentGPT差异化差异化数据集数据集a)Patent GPT:超246B训练数据,包括全球170个受理局的超1.8亿专利、超1.6亿论文、超2100万新闻、超50万投融资、超1.1亿企业、超7
6、8万市场报告以及40万本书籍数据。算法面向业务算法面向业务a)大小模型结合:结合智慧芽沉淀的几十种小模型算法能力,数据处理+SFT数据挖掘+小模型的监督数据;b)数据配方:基于垂直大模型的应用场景建立独特的数据配方;c)基于领域专家反馈的强化学习:拥有超过50位知识产权和生物医药专家,反馈2万条训练效果数据,与人类意图保持一致;d)RAG检索增强生成:RAG技术加强大模型理解能力,结合知识库,更好理解企业私有数据,实现问答能力的拓展。(专利搜索)只比垂直只比垂直业务能力,不比通用能力业务能力,不比通用能力a)垂直行业能力超越ChatGPT-3.5,部分超越ChatGPT-4;专利撰写、专利对比