1、AI原生应用开发工具链详解罗义云阿里云人工智能平台演讲嘉宾罗义云阿里云资深技术专家、PAI平台工程负责人毕业于北京大学,曾任微软高级研发经理、旷视科技AI平台高级技术总监,现任阿里云资深技术专家、AI平台工程技术负责人。在机器学习、人工智能、大数据等方向有着深厚的技术积累和丰富的行业经验。目 录CONTENTS1.AI原生应用开发及其挑战2.成本和性能的考量:微调 vs.RAG3.效果优化的工具4.阿里云AI原生应用开发实践AI原生应用开发及其挑战PART 01什么是AI原生应用通义千问:AI原生应用(AI Native Application)是指那些从设计之初就深度融合人工智能技术,并将其
2、作为核心功能和架构基础的应用程序。这类应用并非简单地在传统软件或服务中添加AI模块作为附加功能,而是从底层架构、开发流程、数据处理、交互方式乃至商业模式等多方面,全面、系统地运用人工智能来提升应用的智能化水平和服务效能。AI应用市场增长迅速AI应用下载量增加(2023 H1 vs.2022)114%2023 2027生成式AI市场年复合增长率55.1%5亿2024涌现的AI应用数量AI应用开发框架典型的AI应用开发全流程数据处理模型评测知识库构建数据标注模型微调模型部署模型压缩AI应用构建AI应用部署AI原生应用开发的挑战成本 训练成本 推理成本效率 迭代次数多 Debug困难效果 幻觉 内容
3、合规成本、性能和效果的综合考量:微调和RAGPART 02LLM的应用面临什么挑战 推理成本/效率:大语言模型推理成本较高 Prompt工程带来的响应延迟 模型效果:缺少私有的长尾数据、实时的数据 模型存在幻觉 上下文长度有限我们的目标:增加知识、增加能力、减少成本推荐的优化路径OpenAI:A Survey of Techniques for Maximizing LLM PerformancePrompt engineering-RAG-fine-tuning两条路径:Finetune vs.RAGLLM推理成本和性能优化:微调ModelInputOutputgpt-4-0125-prev
4、iew$10.00/1M tokens$30.00/1M tokensgpt-4-1106-preview$10.00/1M tokens$30.00/1M tokensgpt-3.5-turbo-0125$0.50/1M tokens$1.50/1M tokensgpt-3.5-turbo-instruct$1.50/1M tokens$2.00/1M tokensOpenAI API Pricing 模型的参数量决定推理使用的资源和成本 =(4)(32/)1.2 模型的输入和输出大小影响推理的成本和性能 Prompt的复杂度影响首token返回时延(TimeTo First Token,T
5、TFT)微调的作用:优化Prompt的输入、降低延迟、使用更小的模型完成专门的任务模型微调的效果https:/ 在“简单”的数据抽取和格式对齐任务中,小模型微调后能够达到大模型的性能(效果)。在“复杂”的任务中,大模型的参数量是模型性能(效果)的基础。LLM应用效果优化:微调 vs.RAG微调能做的:添加静态、私有的数据,优化模型在领域场景中的性能,减少模型幻觉使用小模型,优化推理成本和效率优化模型的输入输出,减少延迟,降低成本 RAG能做的:引入新的信息,模型训练没有见过的信息。要求模型根据检索获得的数据回答,减少幻觉。RAG不能做的:教模型学会一个广泛领域的知识,例如医学,法律 教会模型学
6、会一门新的语言、格式、或是风格二者的对比类似“开卷考试”vs“考前刷题复习”并非是非此即彼,可以是相互配合的关系。效果优化的工具PART 03选择合适的模型:评测不同基础模型的对比同一模型不同微调版本的对比同一模型不同量化版本的对比提高问题排查效率:可观测性RAG应用的开发流程(部分)Query改写意图识别多路召回Reranking结果合成如何debug一个复杂链路:Tracing每个步骤的输入输出是什么?每个步骤的耗时是多少?每次LLM调用消耗的token是多少?Tracing case study:Arize AI Phoenix如何系统的“炼丹”:实验管理ExperimentTrial1