《CFF:大规模强化学习技术原理与大模型技术发展研判(10页).pdf》由会员分享,可在线阅读,更多相关《CFF:大规模强化学习技术原理与大模型技术发展研判(10页).pdf(10页珍藏版)》请在三个皮匠报告上搜索。
1、大规模强化学习技术原理与大模型技术发展研判刘知远CCF 2025DeepSeek-R1 训练流程DeepSeek-V3基座模型DeepSeek-R1-Zero强推理模型DeepSeek-V3基座模型阶段一:增强推理过程可读性阶段二:增强面向通用指令的推理能力规则驱动的大规模强化学习格式奖励准确率奖励冷启动SFT自动/人工改写R1-Zero生成面向推理的强化学习可读性奖励准确率奖励全场景强化学习奖励模型驱动的奖励规则驱动的奖励DeepSeek-R1强推理模型全场景CoT增强SFT通用SFT数据阶段一模型生成推理SFT数据强化泛化DeepSeek-R1 重要意义强推理模型让大模型领域再次迎来“Ch
2、atGPT时刻”ChatGPTo1/o3LlamaDeepSeek-R1首次提出开源复现“有限算力+算法创新”发展模式是突破算力卡脖子限制的关键 未来应聚焦“高效”围绕高效模型架构、高效强化学习、高效算力利用开展研究高效模型架构高效强化学习高效算力利用稀疏模型架构长序列理解与生成高效训练 提升数据利用效率高效思考 提升思考信息密度低位宽高效并行框架训推一体的强化学习框架启示:芯片行业的摩尔定律3.4 kg226 g4.1 kg13.6 kg5.2 kg1945首台通用电子计算机 ENIAC19541959个人台式机IBM PCIBM 650PDP-11981198527 t2.8 t730 k
3、g智能手机华为Pura 70 Ultra2024笔记本电脑东芝 T110020201977APPLE II轻薄笔记本电脑Apple MacBook Air M11992IBM ThinkPad 7001.29 kg3半导体行业在摩尔定律指引下,持续改进制造工艺,提升芯片制程,核心是提升芯片电路密度而非芯片尺寸,实现计算设备小型化普惠化大模型密度定律:模型能力密度随时间呈指数级增强4Densing Law of LLMs.https:/arxiv.org/pdf/2412.04315根据统计2023年以来大模型能力密度平均每3.3个月(约100天)翻一倍推论:实现相同能力的模型参数每3.3月下降
4、一半 随着数据-算力-算法的协同发展,实现用更少参数实现相同智能水平:在相同能力前提下,模型参数量每3.3个月下降一半 相对能力密度 目标模型参数量=5同能力的基准模型参数量目标模型参数量=同能力的基准模型参数量密度每3.3个月翻一番不变MiniCPM-1-2.4BAvg Score:37.67 2024-02-01Mistral-7BAvg Score:36.272023-09-27时隔4个月,用35%的参数,实现相当的能力1943年信息革命对智能革命的启示670 亿 部手机22024年全球预计接近13 亿 个人计算机(PC)1数据来源:1 https:/ https:/ https:/io
5、t- https:/ J.Watson)180 亿 接入互联网的IoT设备3全球数据的分布式特性决定将产生无数大模型,以实现AI的无处不在2000 亿 正在运行的CPU 4AI时代的核心引擎-电力 算力 智力Power(电力)电池能量密度倍增周期10年Compute(算力)芯片电路密度倍增周期18月AI(智力)模型能力密度倍增周期100天密度定律普遍存在,将是实现人工智能高质量、可持续发展的关键人工智能未来三大主战场:将通用进行到底8人工智能科学化技术方案通用为能力涌现等关键机制建立科学理论,科学解释人工智能形成的原理大模型与与底层芯片、操作系统、数据管理、编程开发、网络通信深度融合将大模型应
6、用于高精尖制造、科学发现等高度专业化场景中计算系统智能化应用方案通用领域应用广谱化能力方案通用1903年第一架飞机试飞成功1929年马赫单位在空气动力学中被提出2022年ChatGPT诞生后引起广泛关注科学解释智能形成的理论网络通信编程开发操作系统底层芯片科学发现高精尖制造数据管理马克思主义者不是算命先生,未来的发展和变化,只应该也只能说出个大的方向,不应该也不可能机械地规定时日。但我所说的中国革命高潮快要到来,决不是如有些人所谓“有到来之可能”那样完全没有行动意义的、可望而