A1--李亮--LLM-端侧应用的评测方法及其实践.pdf

上传人：张**

编号：181293

2024-08-01

PDF 34页 2.77MB

《A1--李亮--LLM-端侧应用的评测方法及其实践.pdf》由会员分享，可在线阅读，更多相关《A1--李亮--LLM-端侧应用的评测方法及其实践.pdf（34页珍藏版）》请在三个皮匠报告上搜索。

1、LLM-端侧应用的评测方法及其实践李亮OPPO李亮OPPO-高级软件测试工程师3年算法开发与测试经验，熟悉各类算法原理与特性目前主要参与OPPO算法测试相关工作，重点包括LLM、AIGC等落地应用项目测试目录01CONTENTS0203LLM应用介绍LLM基础模型效果评测LLM端侧应用效果评测实践04现状与未来LLM应用介绍LLM：Large Language Model，大语言模型定义（学界中的一种）：是指包含数千亿（或更多）参数的Transformer语言模型（文献1）从应用角度：区别于传统单任务算法模型，具备一定参数规模、能处理较复杂多任务、具备较强泛化能力的语言模型文献1：A Surv

2、ey of Large Language Models大语言模型发展历程（From 文献1）ChatGPT取得1亿用户时间LLM应用介绍涌现能力（The Emergent Abilities）：较小模型不存在，但较大模型存在的能力三个典型的涌现能力：复杂推理没有全部训练数据显著优于小模型知识推理大模型不需要额外的知识来源分布外鲁棒性非同分布模型精调泛化性能优于小模型很多ChatGPTGenerative产品形态：聊天机器人技术形态：生成式关键技术：预训练架构基础：TransformerChatTransformerPre-trainedLLM应用介绍AI手机定义：算力高效利用能力真实

3、世界感知能力自学习能力创作能力AI手机特征：用户定义的开放服务生态随心和专属的智慧OS支持生成式AI的智能终端硬件平台IDC+OPPO AI手机白皮书中对手机全栈革新的定义LLM应用介绍泰尔实验室的OPPO AI手机认证AI手机智能化服务能力测评标准LLM应用介绍以上功能均已上线小布助手，欢迎体验以上功能均已上线小布助手，欢迎体验典型LLM应用定向创作文案生成百科问答LLM应用介绍以上功能均已上线小布助手，欢迎体验以上功能均已上线小布助手，欢迎体验典型LLM应用中文特性意图识别情感问答目录01CONTENTS0203LLM应用介绍LLM基础模型效果评测LLM端侧应用效果评测实践04现状与未来L

4、LM基础模型效果评测LLM评测难点是什么？1、LLM强大的泛化能力，难以建立全面的能力评估体系2、单任务评测难以适用，复杂任务多任务能力难以拆解3、LLM更加“黑盒”，评测结果缺少可解释性4、评测数据污染现象严重，评测结果可信度差为什么要做LLM的基础评测？1、了解LLM的能力边界2、建立可信的自有评测体系3、探索LLM的缺陷以及其在应用中的风险4、基模型训练效果评估与模型选型LLM基础模型效果评测LLM评测角度评测属性解释常见评测过程准确率模型预测或者生成结果的正确比例F1、BLEU、ROUGE等校准度模型输出结果的置信度ECE泛化能力域外数据集上的表现小样本或零样本下指标适配能力不同适配策

5、略的性能优劣不同参数更新比例下指标鲁棒性对噪声和扰动的抵抗能力对抗扰动或非对抗扰动效率训练效率和推理效率FLOPS、参数量、推理时间偏见与刻板印象评估模型的偏见程度表示端或者生成端公平性模型的预测、机会和反事实公平性不同群体模型统计量有害性模型产生有害言论的能力检测生成内容的有害成分LLM基础模型效果评测OPPO自建LLM评测体系维度设计保障：对齐基础：语言基础提升：知识、多轮对话、智能体兼顾：逻辑推理任务选择保障安全：多种场景、攻击优先应用：抽取、写作、摘要兼顾研究：数学、逻辑突出中文场景：字词、成语LLM基础模型效果评测3+3+3+3 设计3 种对话类型3 种题型3 种提示词3 种评分方法

6、对话类型一轮对话：模型的基础能力多轮对话：上下文交互语境理解模拟交互：模拟用户、API交互评分方法指标：选择、抽取等大模型：写作、对话等开放生成任务人工：高风险安全性任务、复杂API规划等兼容不同能力分支、评测目的、数据来源LLM基础模型效果评测公开数据CSL 科学文献、NCR 文学Title2Event 新闻标题、VCSUM 会议翻译数据MT-Bench 多轮对话基准网络收集公务员行测考试言语表达、中文常识、资料分析等模型生成Self-instruct、AttrPrompt等特别适用于模拟用户输入安全、写作、改写、闲聊、问答等确认不同来源的优缺点、各分支的构建方案LLM基础模型效果评测Our

A1--李亮--LLM-端侧应用的评测方法及其实践.pdf

相关报告