《北京大学:2025年DeepSeek系列报告-DeepSeek与AIGC应用(99页).pdf》由会员分享,可在线阅读,更多相关《北京大学:2025年DeepSeek系列报告-DeepSeek与AIGC应用(99页).pdf(99页珍藏版)》请在三个皮匠报告上搜索。
1、DeepSeek内部研讨系列-DeepSeek与AIGC应用AI肖睿团队(孙萍、周嵘、李娜、张惠军、刘誉)2025年2月20日 北大青鸟人工智能研究院 北大计算机学院元宇宙技术研究所 北大教育学院学习科学实验室摘要1.本次讲座为DeepSeek原理和应用系列研讨的讲座之一,主要介绍DeepSeek的基本概念,以及大模型技术和AIGC工具应用,不需要大家具备专业的AI或IT技术背景。2.本次讲座首先分析当前备受瞩目的DeepSeek-R1 的概念、优势和历史地位。然后进一步探讨 大模型和AIGC的底层工作机制,旨在帮助读者突破工具应用的局限,理解DeepSeek和AIGC的深层次价值。最后,介绍
2、如何科学选择与高效使用 AI 工具,为大家提供更具深度与实用性的应用场景的指导,给听众带来更落地的AI应用价值。3.尽管 DeepSeek-R1 以其低成本和开源策略为行业带来变革,但当前网络上的大量相关内容仅停留在工具应用层面,易对初级AI应用人员造成概念和思维方式的误导,这也是本次讲座希望解决的问题。3 01详解DeepSeek R102AIGC的概念和应用03AIGC的能力揭秘04选择AIGC工具目 录详解DeepSeek-R1PART 01简介本部分介绍了DeepSeek-R1模型的技术特性、发展历程、应用场景及其在AIGC领域的定位。首先介绍人工智能的发展历程,以及大模型相关术语,并
3、对比DeepSeek-R1与其他模型的性能表现。DeepSeek-R1以其低成本、开源策略和卓越的推理能力脱颖而出,尤其在复杂逻辑推理、数学和编程任务中表现优异。随后介绍DeepSeek公司的背景、市场定位以及DeepSeek-R1的技术原理和应用场景,揭示了其在推理密集型任务、教育、科研、知识应用和文档分析等领域的独特优势,并列举接入该模型的第三方应用。通过对人工智能发展历史以及DeepSeek-R1的介绍和分析,本部分旨在为听众提供一个对DeepSeek的客观、全面的认识,并理解该模型在AIGC领域的重要地位和应用潜力。人工智能发展历程2023年GPT-4AIGC的发展历程1950s-19
4、90S1990s-2010S2010s-2022年大模型相关术语 多模态 文本、图片、音频、视频 AI工具(国内)DeepSeek、豆包、Kimi、腾讯元宝、智谱清言、通义千问、秘塔搜索、微信搜索.通用模型 大语言模型(LLM,Large Language Model)视频模型 多模态模型 行业模型(垂直模型、垂类模型)教育、医疗、金融等大模型的关键发展生成模型ref:中文大模型基准测评2024年度报告(2025.01.08)推理模型生成模型与推理大模型的对比比较项GPT-4o(生成模型)DeepSeek-R1(推理模型)模型定位专注于通用自然语言处理和多模态能力,适合日常对话、内容生成、翻译
5、以及图文、音频、视频等信息处理、生成、对话等。侧重于复杂推理与逻辑能力,擅长数学、编程和自然语言推理任务,适合高难度问题求解和专业领域应用,在中文表达上容易出彩。推理能力在日常语言任务中表现均衡,但在复杂逻辑推理(如数学题求解)上准确率较低。在复杂推理任务表现卓越,尤其擅长数学、代码推理任务,在部分基准测试(如 GPQA)中准确率高于 GPT-4o。多模态支持支持文本、图像、音频乃至视频输入,可处理多种模态信息。当前主要支持文本输入,不具备图像处理等多模态能力。应用场景适合广泛通用任务,如对话、内容生成、多模态信息处理以及多种语言相互翻译和交流;面向大众市场和商业应用。适合需要高精度推理和逻辑
6、分析的专业任务,如数学竞赛、编程问题和科学研究;在思路清晰度要求高的场景具有明显优势,比如采访大纲、方案梳理;在对中文语言表达和情感表达方面有明显优势。用户交互体验提供流畅的实时对话体验,支持多种输入模态;用户界面友好,适合大众使用。可展示大部分链式思考过程,便于专业用户理解推理过程;界面和使用体验具有较高的定制性,但整体交互节奏较慢。推理模型的优劣势优势劣势-演绎或归纳等推理能力强(如谜题、数学证明)-响应速度慢且计算成本高(需要更多推理时间)-链式思维推理出色(善于分解多步骤问题)-基于知识的任务更容易出错(容易产生幻觉)-擅长复杂决策任务-处理简单任务的时候效率低(容易过度思考)-可以呈
7、现思考过程常见推理模型DeepSeek R1OpenAI o1OpenAI o3-miniGemini 2.0Grok3Kimi 1.5火爆全网的DeepSeek-R1爆火原因DeepSeek-R1的推理能力进入了第一梯队(媲美OpenAI o1),但训练和推理成本低、速度快、全部开源DeepSeek打破了硅谷传统的“堆算力、拼资本”的大模型发展路径对AI行业的重大影响DeepSeek-R1以低成本和开源特性打破以往头部企业巨头割据局面DeepSeek-R1的API定价仅为行业均价的1/10,推动了中小型企业低成本接入AI,对行业产生了积极影响DeepSeek-R1促使行业开始从“唯规模论”转
8、向更加注重“性价比”和“高效能”方向010203打破垄断价格下调推动创新DeepSeek公司2025年1月20日推出DeepSeek-R1推理模型作为由知名私募巨头幻方量化孕育而生的公司,DeepSeek获得了强大的资金支持和行业影响力,幻方量化与九坤投资、明汯投资、灵均投资并称量化私募领域的“四大天王”,管理资金规模均超过600亿元。这为DeepSeek提供了清晰的市场定位和投资者背景DeepSeek专注于开发先进的大语言模型(LLM)和相关技术,旨在通过这些技术推动人工智能在多个领域的应用和创新DeepSeek,全称杭州深度求索人工智能基础技术研究有限公司,成立于2023年7月17日,是一
9、家创新型科技企业,专注于人工智能基础技术的研究与开发公司成立背景与发展历程大语言模型(LLM)的创新应用投资者背景与市场定位里程碑DeepSeek产品信息官方渠道官网:新闻:https:/api- Eval编码任务通过率是65.2%在需要逻辑思考的测试里很棒,比如DROP任务F1分数能达到92.2%,AIME 2024的通过率是79.8%应用的范围适合大规模的自然语言处理工作,像对话式AI、多语言翻译还有内容生成等等,能给企业提供高效的AI方案,满足好多领域的需求适合学术研究、解决问题的应用和决策支持系统等需要深度推理的任务,也能拿来当教育工具,帮学生锻炼逻辑思维DeepSeek-R1 工作原
10、理让模型进行慢思考思维链(Chain of Thought)在不损失能力的情况下缩小模型蒸馏(Distillation)让模型自我探索和训练强化学习(Reinforcement Learning)DeepSeek R1论文:https:/ DeepSeek R1论文图解:https:/ 版本模型名称DeepSeek-R1-671B满血版,能力最强DeepSeek-R1-Distill-Qwen-7B蒸馏版,能力稍弱-实际上是增加了推理能力的Qwen或Llama模型DeepSeek-R1-Distill-Llama-8BDeepSeek-R1-Distill-Qwen-14BDeepSeek-R
11、1-Distill-Qwen-32BDeepSeek-R1-Distill-Llama-70B部署DeepSeek-R1 满血版的算力要求和性能DeepSeek-R1的优势理科能力强,且准确率高 数学推理 代码生成 复杂任务处理DeepSeek-R1 的局限通用能力 R1 的通用能力(尤其是生成能力)低于DeepSeek-V3 R1的幻觉仍旧比较明显(可能源于R1的中文语言表达能力更强)语言混杂 R1 在处理非中英文问题时,偶尔会出现语言混杂现象 这个现象在R1 Zero版本中更加明显提示词工程 使用 few-shot 提示可能会降低R1性能 使用过多的过程指导指令可能会降低R1的推理能力De
12、epSeek-R1 应用场景 推理密集型任务 编程任务中的代码生成、算法设计,媲美Claude 3.5 Sonet 数学问题求解、科学推理和逻辑分析等需要复杂推理的场景。教育与知识应用 可用于解决教育领域的问题,支持知识理解与解答。可用于科研任务的实验设计、数据分析和论文撰写。文档分析与长上下文理解 适合处理需要深入文档分析和理解长上下文的任务,例如复杂信息提取与整合。开放领域问答与写作 在内容生成、问题回答以及创造性写作中具有广泛应用,例如生成高质量文本或进行内容编辑。如何使用DeepSeek R1 DeepSeek官方网站和官方app 腾讯系 腾讯元宝 微信AI搜索 腾讯ima个人知识库
13、AI搜索 秘塔搜索 纳米AI搜索 知乎直答 其它接入DeepSeek-R1的产品 Molly R1(向量智能)问小白接入DeepSeek R1第三方服务的厂家 互联网大厂:腾讯:腾讯元宝、ima、微信、腾讯云 百度:百度搜索、文小言 字节跳动:豆包、扣子、飞书 阿里:钉钉 互联网小厂:科大讯飞、知乎、秘塔、纳米AI搜索、AI初创公司:零一万物、阶跃星辰、minmax、AI应用公司(教育类):学而思、北大青鸟、网易有道、猿辅导、作业帮、.手机厂商:华为、荣耀、魅族、.其它云服务平台:三大运营商、云服务商(硅基流动等)AIGC的概念和应用PART 02简介本部分着重介绍人工智能生成内容(AIGC)
14、的定义、应用范围及其在各行业的实际影响:首先梳理AIGC相关的术语,包括AI、AGI、生成式AI和决策式AI等,明确了其在人工智能领域的定位。随后,详细列举AIGC在文本、图像、音频和视频生成方面的多样化应用,并探讨其在电商、新闻传媒、影视、游戏、教育和金融等行业的具体实践,展示AIGC在提升效率、降低成本和增强创新方面的核心价值。此外,还分析AIGC带来的挑战,如数据隐私、伦理问题、生成质量控制以及对就业结构的影响。通过深入探讨AIGC的应用现状和未来趋势,本部分旨在帮助读者全面理解AIGC的潜力和影响,为应对技术变革提供参考。本部分的内容参考了人工智能通识课(微课版)和相关的视频(B站的思
15、睿观通)初 识 AIGC眼花缭乱的名词眼花缭乱的名词AI(人工智能)AGI(通用人工智能)(artificial general intelligence)AI Generated Content(人工智能生成内容)决策式AIAIGCChatGPT生成式AIAIGC能干什么生成视频生成音频生成文本生成图像生成内容AI文本 Perplexity 知乎直答 秘塔AI搜索引擎 纳米AI搜索 微信搜索(DeepSeek R1、元宝)小红书的笔记助手 短视频平台的内容创意 自动回复机器人 企业微信的智能回复 英国广播公司(BBC)的Juicer 彭博社的Cyborg 新华社的快笔小新 人民日报的创作大脑
16、 第一财经的DT稿王 微软“小冰”出版诗集 AI撰写剧本电影阳春 百万字小说天命使徒 清华大学的机忆之地 Cursor Windsurf MarsCode GitHub Copilot 阿里云通义灵码新闻作品创作社交媒体代码AI搜索AI绘画太空歌剧院2022年8月,获得比赛“数字艺术/数字修饰照片”一等奖AI绘画AI绘画新西湖繁胜全景图全景图是一副百米画卷,再现了当下西湖边的景观特色、生活场景,还有一些已经消失的景观,比如曾经闻名遐迩的大佛寺。图中包含5000个建筑,作者白小苏说如果这些建筑都要自己亲手画,一天画10个都要500天。最后他借助于AI技术,在一年内完成了作品AI音频语音对话语音克
17、隆创作音乐AI视频千秋诗颂视频特效杜 甫视频添加图片AIGC 的 行 业 应 用AIGC的行业应用各行各业.电商行业01其它行业(教育、金融.)06新闻传媒03内容广告02影视行业04游戏行业05电商行业商品3D模型改善购物体验AI模特产品拍摄降本增效虚拟主播提升直播带货效率内容广告全流程参与提高效率雪花啤酒虚拟偶像提升品牌宣传效果录音语音转写智能新闻写作智能视频剪辑应用场景拓展应用功能升级应用形态完善采编环节传播环节对传媒机构大幅提高生产效率,并带来新的视觉化、互动化体验;丰富了新闻报道的形式,推动传媒向智媒转变对媒体从业者将部分采编、播放工作自动化,让其更专注于思考创造如将精力集中于深度报
18、道专题报道等更需发挥人类精准分析事物、妥善处理情感的领域;对传媒用户短时间获得更多新闻,提高获取及时性及便捷性;降低传媒门槛,使得受众可以参与内容生产,增强参与感AIGC对传媒行业参与主体的影响新闻传媒传媒影视行业影视剧本文稿创作拓展角色范畴赋能影视剪辑拓展场景空间AIGC游戏研发环节作用游戏行业01体验02 功能03角色04剧情05策略增强游戏体验特定风格模拟:AI通过模仿职业选手,玩家则感觉像在与真实的职业选手对抗;玩法教学:帮助玩家快速熟悉操作与游戏玩法,提高游戏可玩性。游戏性能测试前期平衡性测试:充分模拟玩家在某套数值体系下的游戏体验,提出优化策略;游戏功能测试:针对性找出游戏交互的可
19、能性,发现潜在漏洞辅助游戏策划。NPC角色生成AI创造不同的面孔、服饰、声音甚至性格特征,甚至可同步驱动嘴型、表情等面部变化,达到高度逼真;并通过大量数据模拟人类运动,完成行走、跑步等一系列动作反应。剧情生成AI智能NPC能够分析玩家的实时输入,与玩家动态交互,构建几乎无限且不重复的剧情;AI能够生产相关的图文、音乐等,创造游戏素材,辅以剧情铺排,提升剧情饱满度。游戏策略生成让AI感知环境、自身状态并基于特定目标决定当下需要执行的动作,基于特定问题和场景,自主提出解决方案。游戏运营环节AI自动化广告投放:目前抖音等平台的广告分发、内容推荐已通过算法实现,且效果较高;生成广告素材:素材主要是图像
20、及音视频内容,预计AIGC的加持下广告素材生成会更高效、高质量;玩家分类提升体验:通过不同玩家的数据,将用户细分类型,为不同类型玩家提供独特的玩法,提高用户体验。其他行业教育行业金融行业其它 自动批改作业和考试 虚拟实验室 生成学习资料 翻译文献资料其它 风险管理 自动处理和分析金融文档 合规管理AIGC 的 未 来AIGC的核心价值降本增效增强创新企业赋能个人赋能AIGC的挑战泄露隐私数字身份冒用制作虚假信息诈骗数据隐私及安全侵权与被侵权知识产权挑战结果幻象、可控性、理解能力生成精准度、还原度、仿真度生成质量社会偏见、性别歧视等“复活”逝者损害已故人的隐私权伦理挑战01020304AIGC的
21、未来AIGC的生成质量和准确性将得到提升在更多领域得到应用,如保险、医疗和法律服务等更多地与人类专家协作,以提供更高质量的内容和服务预计将出现更多关于内容生成和使用的监管框架01020304技术进步更广泛的应用人机协作监管框架的发展生成式人工智能(AI)目前处于期望膨胀期,预计将在25年内产生巨大效益到 2026 年,Gartner预测超过80%的企业将使用生成式AI的API或模型,或在生产环境中部署支持生成式AI的应用,而在2023年初这一比例不到5%。数据来源:Gartner(2023年8月)工作岗位需求变化显著上升STEM(科学、技术、工程和数学)相关职业医疗保健和其他高技能职业下降显著
22、办公室职员生产工人客户服务代表等传统职业2024年5月24日麦肯锡报告:工作的新未来:在欧洲及其他地区部署人工智能和提升技能的竞赛到 2030 年,欧洲和美国多达30%的工作时间可能实现自动化技能类型需求变化技能类型需求变化技术技能大幅增长炙手可热的“新宠”技能是社会和情感技能体力和手动技能的需求预计将保持大致稳定认知技能(文字和信息处理、编程、科研、工程等)的需求预计将减少14%2024年5月24日麦肯锡报告:工作的新未来:在欧洲及其他地区部署人工智能和提升技能的竞赛与AI共舞 学习AIGC基础知识 积极使用AIGC工具 关注AIGC在各行业的应用案例 跟踪最新发展趋势AIGC的能力揭秘PA
23、RT 03简介本部分深入剖析AIGC背后的技术原理,涵盖文本生成和图像生成两大核心领域。通过对比文本生成和图像生成的不同路径,大家能够全面理解AIGC在不同模态下的工作原理,以及如何利用这些技术实现高效的内容创作和应用。在文本生成方面,以OpenAI的GPT-4o为例,详细介绍了通用大语言模型(LLM)的工作原理,包括其基于Transformer架构的生成机制、上下文编码、自注意力机制以及预训练和微调过程。探讨了GPT-4o在多轮对话、语言转换、意图理解、文本生成和推理能力等方面的优势,同时也指出其在知识局限、上下文窗口限制和生成幻觉等方面的不足。在图像生成方面,以Stable Diffusi
24、on模型为例,解释了其核心组件(文本编码器、图像信息生成器和图像解码器)的工作流程,揭示了文生图和图生图技术的优势与局限。本部分的内容参考了人工智能通识课(微课版)和相关的视频(B站的思睿观通)。文 本 生 成 的 奥秘AIGC与GPT(通用大模型的代表)1950s-1990S1990s-2010S2010s-2022年20232023年年OpenAI GPT4OpenAI GPT4-多模态大模型多模态大模型OpenAI GPT的学霸养成记GPT:生成式预训练变换模型(Generative Pre-trained Transformer)3大核心能力 多轮对话 任意语言的转换能力 意图和情感理
25、解能力 对比能力 穷举能力 假设推理能力 文本总结能力 文本改写能力 文本生成能力推理能力创作能力对话能力工作原理-1概率预测+文字接龙1.收到提示词示例:“今天天气不错,我决定”4.基于上下文预测下一个token为可能的单词分配概率分数示例:“去”:0.7.“停:0.2,“站:0.15.根据概率分数选择标记示例:“去”3.采用Transformer架构处理token理解token之间的关系识别提示词的整体含义2.将输入拆分为token“今”,“天”,“天”,“气”,“不”,“错”,“,”,“我”,“决”,“定”自回归:重复步骤4和步骤5直到形成完整的句子示例:今天天气不错,我决定去公园GPT
26、Generative(生成式)Pre-trained(预训练)Transformer(变换器)LLM:Large Language Model工作原理-2预训练(自监督)监督微调人类反馈强化学习接收输入处理输入进行推理生成输出上下文+训练知识阶段1:模型训练阶段2:推理大模型工作过程工作原理-3数据来源说明维基百科在线百科,严谨图书经典为主的古登堡计划和自助出版 平台Smashwords等杂志期刊论文:ArXiv等链接WebText,RedditCommon Crawl开源项目,爬取互联网所有数据GitHub程序员聚集地合计700 多GB,约有19万套四大名著 的阅读量5 000亿左右的tok
27、en数量。(13万亿token:gpt4)100个标记大约等于75个英语单词训练语料(gpt-3)模型参数:1.8万亿参数(GPT-4)GPT-4o上下文窗口大小:8192个token(标记)典型的新技能学习曲线:规模到达临界点之后才会迅速增长生成式通用大语言模型的优势与劣势vs优势劣势语言理解和生成能力世界知识能力一定的推理能力幻觉(生成错误答案)知识库有限上下文窗口限制如何与GPT对话多轮对话引导基本对话方法对话工具:ChatGPTPOE各种对话能力边界智慧对话使用对话工具ChatGPT:聊天机器人应用访问地址:https:/ 问题+回答总数 包括字符、标点、空格限制分段对话定期总结使用关
28、键词提醒精简输入使用建议 GPT-3.5:4096,大约3000 个英文单词或 4000 个汉字 GPT-4:8192,大约6000 个英文单词或 8000 个汉字(https:/ 像 生 成 的 奥 秘Stable Diffusion 模型如何实现图像生成?文生图图生图Stable Diffusion 模型的构成三大核心组件文本编码器图像信息生成器图像解码器(翻译官)(工匠)(画家)文本编码器 解析用户输入的提示词 将提示词转化为高维向量表示图像信息生成器 将输入信息逐步处理和转换为图像数据图像解码器 接收来自图像信息生成器的处理后的信息矩阵 将信息矩阵转换为可视化的图像文生图的优势与局限精
29、确控制困难随机性太强复杂场景理解局限 降低门槛 提高效率 艺术风格多样化优势选择AIGC工具PART 04简介本部分聚焦于如何科学选择和高效应用AIGC工具,以满足不同场景下的多样化需求。首先介绍当前AIGC领域的工具类型,包括聊天对话机器人、图像生成工具、音频与视频生成工具以及搜索工具等,并列举了国内外代表性工具。随后,以DeepSeek-R1、Kimi、豆包、腾讯元宝等具体工具为例,详细分析了它们的特点、优势及适用场景,展示了不同工具在推理能力、多模态支持、长文本处理和搜索效率等方面的差异。最后,还提出了选择AIGC工具的依据,包括明确需求、评估工具性能和考虑使用成本等,帮助读者根据自身需
30、求做出合理选择。通过深入分析和对比,本部分旨在为读者提供一份实用的AIGC工具选择指南,助力其在AIGC时代更好地应用人工智能技术,提升工作效率和创新能力。AIGC工具公众号:AI产品榜AIGC工具AI工具导航平台:https:/AI工具集:https:/ai-AIGC工具工具类型国内国外聊天对话机器人DeepSeek、腾讯元宝、豆包、Kimi、智谱清言.ChatGPT,Claude,X.com(Grok)图像生成工具通义万相、即梦、豆包ChatGPT,Midjourney,Stable Diffusion音频工具音疯、网易天音、海绵音乐Suno视频生成工具SkyReels、Vidu、可灵、海
31、螺AI、即梦Sora,Runway,Pika搜索工具秘塔、纳米AI、天工PerplexityAIGC工具现场演示腾讯元宝 https:/ Copilot插件音乐工具:音疯 https:/ https:/ 文本类、绘图类、视频类、语音类、搜索类、设计类、专用工具类(办公类、笔记类、内容转化类.)、智能体类 以12个为主,其它为辅3.真实使用中测试和筛选4.保持2-3周的更新频次97/38总结AIGC技术正在重塑各个行业的未来,从内容创作到科学研究,从教育到商业应用,潜力无限。然而,技术的快速发展也带来了新的挑战,面对这些挑战,我们需要保持开放的心态,积极学习AIGC的基础知识,关注其在各行业的应用案例,跟踪最新发展趋势。与AI共舞,实现AI与人类的完美融合。让我们以DeepSeek-R1为起点,持续探索AIGC的无限可能。在AI时代的技术浪潮中,我们既是见证者,更是参与者。谢 谢99