《韩方巍(2).pdf》由会员分享,可在线阅读,更多相关《韩方巍(2).pdf(15页珍藏版)》请在三个皮匠报告上搜索。
1、PUBLIC韩方巍AI Research ScientistEmerging Technology,Innovation&VenturesHSBC从提示词到评估指标从提示词到评估指标 -构建银行场景下的大模型应用评价体系构建银行场景下的大模型应用评价体系目录目录0 1背景介绍背景介绍0 2提示词与模型能力的评估提示词与模型能力的评估0 3构建企业内部数据飞轮构建企业内部数据飞轮0 4实践效果与反思实践效果与反思0 5总结总结背景介绍随着银行内部对大语言模型(LLM)应用的持续深入,从邮件助手到合规审核、从营销文案生成到流程自动化,大模型已逐步嵌入业务流程核心。然而,如何科学评估大模型的能力、判
2、断提示词的有效性,以及建立稳定、可复用的提示词迭代机制,成为制约大模型应用效果的关键瓶颈。本次分享将围绕大模型的评估体系展开。情感分析分析给定文本中的情绪以及主要的情绪观点,例如投资研究、聊天数据情绪等异常值检测检测异常情况,例如欺诈性交易、金融犯罪和网络威胁推荐根据客户转化历程、同行互动、风险偏好和财务目标,针对金融产品和服务(例如银行产品)提供高度个性化的建议客户沟通为客户呈现如同真人一般、由 AI 赋能的联络中心体验,从而降低成本并节省客服人员的时间银行内的常见使用场景提示词与模型能力的评估在所有的使用模式中,大语言模型的输出总是取决于输入的提示词,这个提示词可能包括用户问题,系统提示词
3、,聊天历史,RAG检索结果等;因此,提示词和基座模型的迭代优化可以直接影响到应用本身的效果。常用的打分框架:统计学打分方法基于模型的打分方法提示词与模型能力的评估类型类型指标指标定义定义评估框架评估框架安全性毒性(Toxicity)模型输出中包含冒犯、仇恨、暴力、色情等有害内容的程度。RAGAS,DeepEval,TruLens,机器学习模型,统计学模型等公平性(Fairness)模型对不同群体(如性别、种族、年龄等)输出结果的一致性,避免偏见和歧视。越狱(Jailbreaking)使用提示词诱导模型生成不当内容。功能性忠实性(Faithfulness)模型输出与事实或输入内容的一致性,避免虚
4、假或编造信息。上下文相关性(Context Relevancy)RAG召回结果于问题的相关性。答案相关性(Answer Relevancy)模型回答与用户问题的相关性和针对性。通顺度(Fluency)模型输出的语言是否流畅、自然、符合语法规范。任务完成度(Task Completion)指交付给Agent的任务的最终完成程度。工具正确性(Tool Correctness)指Agent调用外部工具(如API、插件、数据库等)时,选择和使用工具的正确性,包括参数、调用时机和方式等。步骤最优性Agent完成任务所用步骤数与理论最优步骤数的接近程度。常用指标提示词与模型能力的评估评估流程提示词与模型能
5、力的评估痛点解决方案用户对评估结果信心不足测试数据失真指标不能反应真实使用场景构建企业内部数据飞轮同时使用内部数据与外部数据测试评估标准持续更新,避免数据漂移根据使用场景完善打分机制构建企业内部数据飞轮飞轮框架 数据飞轮运转的核心是测试数据 模型性能的评估在很大程度上依赖于所使用的数据集 如果数据集缺乏足够的多样性,那么评估结果将会有偏差 我们提出了一个科学且稳定的数据处理和打标方法构建企业内部数据飞轮我们的方法论包括:为每个评估维度配备相应的数据集 通过分层抽样来模拟真实的数据分布 分解数据以实现精确标注 采用多数投票法以减少偏差构建企业内部数据飞轮构建企业内部数据飞轮指标类别指标类别度量指
6、标示例度量指标示例 分解方法论分解方法论分解步骤分解步骤原子事实类指标忠实度(Faithfulness)基于声明的分解(Claim-Based Decomposition)1.提取声明:将模型输出拆解为一系列独立的事实性断言。2.单独验证:逐一将每个断言与事实来源进行比对验证。3.分数聚合:根据验证通过的声明比例来计算最终得分。比较与关联类指标答案相关性(Answer Relevance)基于查询方面的分解(Query-Aspect Decomposition)1.解构查询:将用户的输入拆解成所有隐含和明确的问题或