《吕昕-如何建设人人都能训大模型的技术氛围-V脱敏.pdf》由会员分享,可在线阅读,更多相关《吕昕-如何建设人人都能训大模型的技术氛围-V脱敏.pdf(29页珍藏版)》请在三个皮匠报告上搜索。
1、吕昕目录个人介绍为什么会有这个分享负责讯飞消费者BG大数据和大模型平台做了13年的大数据和搜广推算法被技术趋势裹挟被迫转型做大模型大数据转型大模型的尝试chat2data-RAG-搜索大模型算法deepseek的冲击“猫拉屎”需求C端业务B端业务C端项目和B端项目的大模型优化需求存在较大差异,但是还是基本上都会遇到大模型落地效果优化的问题看起来,只要学会算法问题选型和模型训练,就可以端到端优化大模型效果deepseek带来的“危机”和开源生态的成熟,看起来这两个点好像也不是那么难方向相对正确做正确的事战略灵活调整鼓励业务创新激情+理性+机制组织充满活力正确做事激发组织活力需要更敏捷信息拉齐和穿
2、透底座模型一些场景直接用deepseek V3/R1就可以有不错效果qwen7B/32B、spark13B/70B等底座可以低成本微调优秀的数据来源数据蒸馏、思维链数据省掉了大量的人工标注成本更完善的开源生态训练框架、推理框架、agent框架模型优化范式的变革蒸馏、GRPO没有基础设施算力、平台、数据训练框架、推理框架没有大模型算法经验技术方案、模型选型怎么评估效果效果不好怎么优化没有人需要多少人?到哪里找?需要什么技术栈需要多久1个小时组建、1个星期上手总共分几步第一步:找个师傅,让他帮你把环境搭起来第二步:找几个感兴趣的软开/大数据/测试第三步:找一个业务场景练手需要几个人2个研发+1个测
3、试大模型算法工程师数据工程(怎么搞样本的思路至关重要)、模型微调、强化学习对机器学习/深度学习/NLP的要求比传统算法工程师更低需要更好的优秀的行业前沿跟进能力(github白嫖能力)大模型测试工程师自动化测试构建复杂测试用例的测试开发和数据工程能力需要更好的Prompt工程师昙花一现、基本凉透优化方法基本成熟、天花板低、R1对prompt的要求极低大模型平台架构师、平台开发工程师和传统的平台开发基本没有区别大模型应用开发Agent工程师、RAG工程师开发和测试团队分工协作开发团队。测试团队公有云可以解决90%的训练需求内部:星辰MaaS开源:llama-factory、vLLM数据资源dee
4、pseek、doubao、spark API公有云应用开发RAG:ragflowagent:dify复用公司内已有平台资源、积极拥抱开源生态和公有云开源模型的技术选型训练部署问题定义和选型Prompt设计样本构建SFT微调多模型对比评估模型部署上线大模型优化能力=问题定义能力+样本构建能力+训练能力+评测能力1、发现模型缺陷:发现模型在实际应用中的错误、偏差和不准确性;2、理解模型特性:通过线上数据测试确保模型组合使用时交互顺畅,输出一致,从而提供无缝的用户体验;效果测试1、检测模型质量和可靠性:可以帮助发现模型在各种负载条件下可能出现的问题;2、检测机器瓶颈是否达标:可以找出资源瓶颈并进行优
5、化,提高系统的效率和资源利用率;性能测试多轮改写之前解决不了几类case:当前轮和之前对话无关多轮之间有隐含的关系尝试:deepseek能否解决?能否蒸馏deepseek模型?实验过程和结果R1蒸馏 问-CoT-答架构Qwen1.5B全参微调-任务数据1500条(60%)、通用数据1000条(40%)Qwen7B/spark13B LoRA微调-任务数据1500条(100%)蒸馏qwen1.5B V3 蒸馏qwen7B/spark13B 大纲(2)公文写作模型:要素+大纲-公文实验过程和结果实验过程 模型:Qwen2.5-14B、Qwen2.5-32B、spark13B 样本大小:500*6(
6、三种文体,每种文体需要大模型大纲生成、全文生成两种能力)训练方式:Lora SFT实验结果 模型知识蒸馏,学习R1写作时的格式要求、语言风格、逻辑结构等,提升写作效果非常明显 长文本生成类任务,think效果不显著,输出越长、效果越不稳定 大纲生成效果14B和32B区别不大,14B可以基本满足需求需求背景不会深度学习基础理论怎么办?大模型优化和写代码差距太大了!工程开发VS大模型优化设计/工程:3/7-8/2底层的活动都是一样的我的效果比研究院差很多怎么办?知识壁垒、技术孤岛