《大模型时代生产力工具转型的技术探索_詹明捷.pdf》由会员分享,可在线阅读,更多相关《大模型时代生产力工具转型的技术探索_詹明捷.pdf(24页珍藏版)》请在三个皮匠报告上搜索。
1、大模型时代大模型时代生产力工具转型的技术探索生产力工具转型的技术探索商汤科技AIGC研究与应用团队负责人 詹明捷1980s1990s20122022AIAIAI+AI+场景应用场景应用AI AI 新范式(新范式(AGIAGI)超大模型有人类反馈的强化学习Prolog&Lisp机器学习算法DALL-E 2DALL-E 2由文字生成高清原创图像专家系统解答特定领域的问题CNNCNN夺得夺得ImageNetImageNet第一第一正确率超越第二名近10%互联网娱乐PaLMPaLM-E-E具象化多模态语言大模型Stable DiffusionStable Diffusion使用消费级显卡获取文本驱动的
2、图像GPT-4GPT-4提供完全不同可能性的多模态模型ChatGPTChatGPT发布发布可理解人类语言并生成类似人类的书面文本内容突破工业红线高效的通用智能智能手机智慧医疗智慧城市自动驾驶人工智能新范式(人工智能新范式(AGIAGI)已经到来)已经到来物体检测Object Detection文字识别OCR做决策 是否要减速?是Q:这个图标是什么意思?我们应该做什么?AGI30 km/h 100m小孩学校区域前方100米有一所学校你需要小心小孩,并将车速降低到30 km/h以下AIAGI 明确任务明确任务明确任务给定图片我们一步步思考零样本多模态思维链(Zero-shot Multimodal
3、 Chain-of-Thought)大模型使能的大模型使能的AGIAGI与传统与传统AIAI处理任务对比处理任务对比大模型大模型算力算力数据数据算法算法工程化工程化更高算力庞大训练数据工程化能力模型算法有效的Chain-of-thoughts千卡起步,GPT4 万卡架构设计、分布式训练等干净、多维、海量的数据大模型核心能力大模型核心能力信息来源:The Practical Guides for Large Language ModelsChatGPTChatGPT等语言模型发展历程(进化树)等语言模型发展历程(进化树)大模型关键技术路径大模型关键技术路径 EncoderEncoder类模型(以
4、BERT为代表)在过去的方案中经过fine-tune性能会更强。OpenAI也是坚持自坚持自身以生成式任务为目标的技术理想身以生成式任务为目标的技术理想,终于实现突破 随着考察任务的变化,现在大模型更关注zero-shot的文本生成能力(更贴近AGI),Decoder-Decoder-OnlyOnly类模型(以ChatGPT为代表的)更方便利用利用海量的无监督文本数据进行训练海量的无监督文本数据进行训练 Decoder-Only类模型结构效率更高结构效率更高,OpenAI以系统工程的角度看待训练,着重训练效率,坚持此路线 如今大模型训练成本极高,由于历史原因,各企业组织(如Google)存在路
5、径依赖存在路径依赖,大多沿用自身已经验证通过的路线。Encoder-Decoder or Encoder-Only(BERTEncoder-Decoder or Encoder-Only(BERT类类)训练:Masked Language Models 模型类别:Discriminative 预训练任务:Predict masked wordsDecoder-Only(GPTDecoder-Only(GPT类类)训练:Autoregressive Language Models 模型类别:Generative 预训练任务:Predict next wordLLMLLM技术路线演化,技术路线演化
6、,GPTGPT类模型处于领先类模型处于领先近几年近几年NLPNLP大事件大事件用好数据用好数据ChatGPT(OpenAI)llama2(meta)Galactica(Meta)RETRO(DeepMind)WebGPT(OpenAI)Flan-PALM(Google)T0(huggingface)大模型大模型GPT3(OpenAI)PALM(Google)Megatron-LM(Nvidia)Turing(Microsoft)GLM-130B(清华)盘古(华为)ERNIE 3.0(百度)什么是思维链?什么是思维链?思维链激发语言模型解锁更强的能力,解锁