《Microsoft:2025大语言模型(LLM)上手指南(19页).pdf》由会员分享,可在线阅读,更多相关《Microsoft:2025大语言模型(LLM)上手指南(19页).pdf(19页珍藏版)》请在三个皮匠报告上搜索。
1、总结05TABLE OF CONTENTS目 录 2.1 Transformer 网络架构 2.2 预训练和微调 2.3 筹备训练环境训练大语言模型0207070808 3.1 GPT 的优化 3.2 GPT 的主要应用场景了解 GPT03101012 4.1 生产力辅助 4.2 创意工具 4.3 开发辅助简单易上手的 Copilot041414181615 1.1 LLM,大在何处 1.2 LLM 的发展历程 1.3 LLM 的核心应用场景 1.4 多模态 LLM了解大语言模型0102020402051擅长处理和生成自然语言类内容的大语言模型(Large Language Model,LLM
2、)已成为人工智能(AI)技术领域的一个重要发展方向。LLM 是一种基于深度学习技术的 AI 模型,可通过分析大量文本数据来学习语言的结构与规律,从而执行多种任务,如文本生成、语言翻译、情感分析等,目前已经在越来越多的领域实现了极为广泛的应用。大语言模型的“大”通常主要体现在三方面:参数数量:参数是指模型内部的变量,决定了模型的复杂度和表示能力。参数多通常意味着模型能捕捉更复杂的 模式和关系。训练数据:LLM 通常需要通过大规模文本数据训练,这些数据包含丰富的语言信息,可帮助模型学习更准确的语 言表示。计算资源:训练 LLM 通常需要大量算力,包括高性能 GPU 或 TPU,以及分布式环境。了解
3、大语言模型LLM,大在何处虽然近些年才逐渐兴起,但 LLM 并非新技术。早在 20 世纪 90 年代,就已经出现了以信息论和概率论为基础的统计语言模型。随着深度学习技术的诞生和崛起,以及计算机硬件算力飞速提升,这种模型变得愈加复杂,进一步催生出基于循环神经网络(RNN)和长短期记忆网络(LSTM)的自然语言处理技术。2018 年,基于 Transformer 的双向编码器表示技术(BERT)诞生,这标志着预训练语言模型时代正式到来。通过用大量文本进行预训练,然后围绕特定任务进行微调,BERT 显著提高了多种自然语言处理(NLP)任务的性能。随后,OpenAI 发布的GPT(Generative
4、 Pre-trained Transformer,生成式预训练 Transformer)系列模型及广为人知的 ChatGPT,进一步将生成式AI 技术带到了每个人面前。LLM 的发展历程2总的来说,可以认为 NLP 是一个广泛的研究领域,生成式 AI 技术是一类技术,而 GPT 则是生成式 AI 技术在 NLP 领域的一种具体应用。生成式 AI 技术、NLP、GPT,这三者有何关系?摘自大语言模型原理、训练及应用(基于 GPT),机械工业出版社出版01生成式 AI 技术是深度学习的直子集,可通过学习大量训练数据,理解其内在模式和规律,然后根据这些模式和规律生成新的内容。生成式 AI 技术的应用
5、范围非常广泛,包括图像生成、音乐创作、文本生成等。02NLP 是 AI 领域的一门学科,主要目标是让计算机理解和生成人类语言。NLP 涵盖了从语法解析和词义理解,到情感分析和文本生成等一系列复杂任务。NLP 的研究和应用催生了机器翻译、语音识别、情感分析等各种实用的系统和应用。03GPT 则是生成式 AI 技术的一种,它是目前处理 NLP 问题最先进的技术之一。尽管GPT 最初是为处理 NLP 问题开发的,但其实也可用于生成图像、视频等内容。3LLM 的核心应用场景作为 AI 技术的重要分支,LLM 的应用极为广泛,可覆盖几乎所有语言处理任务,目前该技术已经在多个应用场景发挥着至关重要的作用。
6、一般来说,LLM 在下列四大核心能力方面的表现尤为突出:代码生成03基于对语言结构和编程语言的理解能力,通过训练学习大量自然语言文本和源代码数据,可以让 LLM 掌握编程语法规则、代码模式以及实现不同功能的典型方法,从而生成代码片段,甚至帮助软件开发人员完成更复杂的编程任务。语义搜索04通过用海量文本数据进行预训练,让 LLM 模型学习语言的复杂结构和丰富的语义信息,从而捕捉到词汇的多种含义、上下文的细微差别以及语言的隐含关系。因为可以理解用户查询的深层含义,因此相比传统的基于关键词的搜索,LLM 的语义搜索能提供更精准,相关性更高的搜索结果。在这些任务中,LLM 通常要根据输入(如关键词、摘