1-垂直领域大模型评测解决方案.pdf-三个皮匠报告

1、垂直领域大模型评测解决方案张莉莎智慧芽信息科技数据算法质量部负责人目录1.大模型研发及评估现状2.垂直领域大模型评测实践3.垂直领域大模型评测方案4.未来更多的探讨大模型研发及评估现状01以Transformer为代表的全新神经网络模型阶段突破期 2006 2019以CNN为代表的传统神经网络模型阶段萌芽期 1950 2005以GPT为代表的预训练大模型阶段落地应用2020 大模型发展历程任务性能评估、过拟合检测等模型收敛性、训练效率、多样性与鲁棒性等数据语言建模算法模型基础模型评测要点语言建模SFT模型奖励函数有效性、样本多样性等二分类算法RM模型策略性能评估、对抗应对鲁棒性等强化学习方

2、法RL模型大模型研发及评测要点原始数据数据采集处理标注数据数据标注处理标注数据标注对比对用户指令预训练微调奖励建模强化学习常见的大模型评估维度1.数理科学2.语言能力3.代码能力4.综合能力5.道德安全大模型评估现状来源：SuperClueai官网通用大模型的评测是否适用于垂域大模型？垂域数据集深度垂域指标专业垂域场景对齐大模型评测垂直领域大模型评测实践02智慧芽PharmGPT大模型医药竞争格局、临床试验与循证医学、序列/化合物专利、政策与准入智慧芽PharmGPT大模型医医药竞争格局1.支持全球超过8万条管线研发信息2.所有回答支持来源链接3.一键跳转synapse/bio/chemica

3、l或外部网页4.药物竞争格局支持自由绘图问题举例：阿尔茨海默症有哪些靶点？智慧芽PharmGPT大模型临床试验与循证医学1.数据支持各类会议与期刊公开结论2.支持循证文献查找3.链接synapse详情页或外部网页4.自由生成临床试验列表问题举例：给出度伐利尤单抗针对胆管癌的近3年的临床结果智慧芽PharmGPT大模型化合物化合物/序列序列检索专利文献1.支持化合物与序列编辑2.支持跳转chemical/bio产品详情页3.支持检索熔沸点等物质性质数据4.定点总结专利/文献内容问题举例：What are the core patents for this structure？智慧芽PharmGP

4、T大模型医医药政策问答1.包含中、美国、日、欧等8国药政信息2.一键跳转到各国药监局信息源问题举例：在FDA的临床试验中，如何确保受试者的知情同意？国家职业药师资格考试，PharmGPT全项通过并超过 GPT4智慧芽垂直领域大模型评测实践 D1-客观域生物医药领域数十套数据集：覆盖总结能力、推理能力、NER能力、QA问答能力、翻译能力、分类能力、撰写能力等十大能力PharmGPT智慧芽垂直领域大模型评测实践 D2 主观域生物医药 8套超4千条人工数据集聚焦场景：临床实验、竞争格局、药物研发、化合物/序列专利等智慧芽垂直领域大模型评测实践 D3 场景域v垂直领域大模型评测方案03垂直领域大

5、模型评测方案数据来源专代试题NAPLEXPCATGithub能力维度总结能力推理能力翻译能力多轮能力研发阶段预训练微调强化学习RAG业务场景实体NERX-Finder专利解读实体NOR道德安全政治敏感违法违规歧视隐私机密垂直领域大模型评测数据集-标签体系PharmBench基准，其中包含:1.2w+生物医药业务数据集(实体NER，药物提取，实体NOR，序列/药物专利问答等)2.1k+领域试题数据集3.2k+领域专家数据集垂直领域大模型评测数据集 PharmBenchPharm Score:Accuracy,Bleu,EM,Rejection Ratio,Structure-Similarity,PKGM，通用F1-ScoreAccuracyBLEUEMRejection Ratio垂直Pharm ScorePKGMStructure-Similarity垂直领域大模型评测指标Themis平台平台用于评测大模型的平台，包含数据集构建、数据管理、标签体系管理、自定义模型评测、对比评测、榜单公示、模型版本技术报告生成等模块。垂直领域大模型评测平台 Themis未来更多的探讨031.Step-by-Step评测2.合成测评数据集真实性3.模型数据集专项评价4.安全评测未来更多的探讨

1-垂直领域大模型评测解决方案.pdf

相关报告