当前位置:首页 > 报告详情

韩方巍(2).pdf

上传人: 拾亿 编号:751824 2025-07-29 15页 2.95MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了在银行场景下构建大模型应用评价体系的实践和反思。关键点如下: 1. 大模型在银行内部应用广泛,但评估其能力和提示词的有效性是关键瓶颈。 2. 评估体系包括安全性、公平性、功能性等多个指标,如毒性、忠实性、上下文相关性等。 3. 提出了构建企业内部数据飞轮的方法,结合内部和外部数据,确保测试贴合实际业务场景。 4. 实践效果包括优化提示词设计和模型能力改进,提高评估准确度和用户信心。 5. 面临的挑战包括评估体系的动态调整、自动化评估与人工审查的平衡等。 核心数据包括:评估指标类别及示例,如忠实度、答案相关性、越狱等;数据飞轮构建的方法论和步骤,如声明的分解、查询方面的分解、多维度提示词分解等。最终目标是实现高效、可靠和智能化的银行服务。
"银行AI如何防越狱?" "模型评估,数据飞轮怎么转?" "提升银行服务,评估指标有哪些?"
客服
商务合作
小程序
服务号
折叠