张俊林-OpenAI o1技术原理解析.pdf-三个皮匠报告

1、张俊林新浪微博首席科学家、新技术研发负责人中国中文信息学会理事，中科院软件所博士。目前担任新浪微博技术研发负责人，在此之前在阿里巴巴担任资深技术专家，负责新技术团队。这就是搜索引擎：核心技术详解、大数据日知录：架构与算法的作者，目前主要研发兴趣集中在推荐系统及自然语言处理演讲主题：OpenAI o1技术原理解析OpenAI o1技术原理解析张俊林新浪微博OpenAI o1模型的意义o1的可能训练过程强化学习与LLM融合构造o1模型大模型的“思考快与慢”人人类类大大脑脑擅擅长长快快思思考考的的系系统统1 1和和擅擅长长慢慢思思考考的的系系统统2 2，G GP PT T 4 4类类似似于于大大脑

2、脑中中的的系系统统1 1，O Op pe en nA AI I o o1 1类类似似于于大大脑脑中中的的系系统统2 2。人类大脑的两套系统o1大幅提升了大模型的复杂逻辑推理能力O O1 1相相对对G GP PT T 4 4o o在在数数学学竞竞赛赛、高高难难度度编编程程竞竞赛赛、博博士士级级专专业业能能力力方方面面成成绩绩获获得得大大幅幅提提升升复杂逻辑推理能力的极大提升强化学习 Scaling Law（1/2）S Sc ca al li in ng g L La aw w是是驱驱动动最最近近几几年年大大模模型型发发展展的的主主要要因因素素，目目前前面面临临因因数数据据短短缺缺而而曲曲线线开开

3、始始平平缓缓的的阶阶段段，不不可可持持续续。大模型发展的第一驱动力：Scaling Law强化学习Scaling Law（2/2）新新型型的的R RL L阶阶段段S Sc ca al li in ng g L La aw w，大大模模型型发发展展可可能能开开启启快快速速能能力力提提升升的的第第二二增增长长曲曲线线o1为小模型发展扫清了障碍（1/2）O1-mini的效果在某些场景甚至比规模大的多的o1-Preview要好。o1为小模型发展扫清了障碍（2/2）“能力分治”模式推进小模型技术发展：把语言、世界知识及逻辑推理三个能力解耦，语言能力靠小模型自身、逻辑推理靠类似o1的通过RL获得的深度思考

4、能力，而世界知识可以靠外挂RAG获得增强。O1引发的安全对齐新模式O1在做安全对齐方面，大概采用了类似Anthropic的“AI宪法”的思路：给定一些安全守则，指明哪些行为能做，哪些不能做，在o1逻辑推理能力提高之后，它遵循这些法则的能力也获得了极大增强，安全能力比GPT 4o强很多。Anthropic Constitutional AI“深度思考”在复杂任务中的广泛应用-大模型搜索深度思考能力善于解决长链条复杂任务，目前在LLM搜索已广泛采用，也会快速拓展到更多应用领域。Perplexity深度搜索（Open AI 所有联合创始人何时离开公司以及现在在哪个公司）Perplexity深度搜索开

5、发企业：Perplexity类似产品：Kimi探索版、ChatGPT搜索发布日期：2024年10月15日特点：将复杂问题拆解成若干子查询，通过复杂推理集成最终搜索1结果Perplexity集成OpenAI o1 mini来实现这个功能新一代搜索引擎范式OpenAI o1模型的意义o1的可能训练过程强化学习与LLM融合构造o1模型OpenAI o1的在线推理过程4.最终答案3 3.H Hi id dd de en n C CO OT T摘摘要要1 1.用用户户问问题题2 2.生生成成H Hi id dd de en n C CO OT To1的完整训练过程推演（1/3)Post-Training

6、新引入两个阶段，Inference新加入两个阶段。o1的完整训练过程推演（2/3)只强调Inference-Time Scaling大概率是不对的，也要重视增强基座模型的基础逻辑能力，两者相互促进。O Op pe en nA AI I o o1 1发发布布之之前前的的研研究究结结论论o1的完整训练过程推演（3/3)只强调Inference-Time Scaling大概率是不对的，也要重视增强基座模型的基础逻辑能力，两者相互促进。对对o o1 1的的I In nf fe er re en nc ce e-t ti im me e S Sc ca al li in ng g的的探探索索（F Fr

张俊林-OpenAI o1技术原理解析.pdf

相关报告