《2.大模型及DeepSeek基础知识(16-9)v4(1).pdf》由会员分享,可在线阅读,更多相关《2.大模型及DeepSeek基础知识(16-9)v4(1).pdf(85页珍藏版)》请在三个皮匠报告上搜索。
1、南京市城市数字治理中心大模型基础知识分享及DeepSeek应用实践2025.0701什么是大模型大模型,英文名叫Large Model,早期的时候,也叫Foundation Model,基础模型。我们现在提到的最多的大模型,实际上特指大模型的其中一类,也是用得最多的一类大语言模型(Large Language Model,简称LLM)。大模型的特点是拥有超大规模参数(十亿以上),例如DeepSeek R1,参数达6710亿,是典型的大语言模型。大模型的定义与特点涌现能力当模型参数和数据达到一定规模,会表现出未预测的复杂能力和特性,如自动学习新特征。可以理解为大模型的脑子突然“开窍”了,不再仅仅
2、是复述知识,而是能够理解知识,并且能够发散思维。泛化能力能对未见过的数据做出准确预测,类似人类的归纳和思考能力。多任务学习可同时学习多种自然语言处理任务,如机器翻译、文本摘要等。大模型的定义与特点02大模型分类语言大模型在自然语言处理(NLP)领域中使用,通常用于处理文本数据和理解自然语言。视觉大模型在计算机视觉(CV)领域中使用,通常用于图像处理和分析。多模态大模型能够处理多种不同类型数据的大模型,例如文本、图像、音频等多模态数据。大模型的分类-输入数据类型分类通用大模型(L0)可以在多个领域和任务上通用的大模型,具有广泛的适用性。行业大模型(L1)针对特定行业或领域的大模型,通常使用行业相
3、关的数据进行预训练或微调,以提高在该领域的性能和准确度。(如医疗、金融)进行优化,提升在该领域的性能。垂直大模型(L2)针对特定任务或场景(如疾病预测、交易预测)的大模型,通常使用任务相关的数据进行预训练或微调,以提高在该任务上的性能和效果。大模型的分类-按应用领域分类未训练模型通用模型行业模型垂直模型学龄前高中生本科生研究生大模型的进阶之路预训练微调微调03大模型的产生大模型的三大“基石”算力01 算法02数据03 是大模型的“燃料”,是AI技术发展的基石之首。没有数据,再先进的算法和强大的计算能力也将无的放矢。是模型的“大脑”,优秀的算法能够高效地从海量数据中提取有价值的信息,并据此进行智
4、能分析和预测。GPU算力资源,是实现AI技术落地的关键支撑。随着大数据时代的到来,AI模型的训练和推理过程对计算资源的需求日益增加。GPU是什么?为什么它比CPU更“猛”?与CPU的对比:CPU像“万能管家”:脑子灵活但人少(4-16核),适合处理复杂逻辑(比如操作系统调度)。GPU像“工人大队”:人海战术(几千核),适合搬砖式计算(比如给100万张图片同时加滤镜)GPU的本质:最初是专门处理游戏画面的“图形卡”,现在变成能处理海量数学计算的“超级工人”。它有成千上万个计算核心,就像工厂里的流水线工人,能同时处理大量简单任务。大模型的三大“基石”-GPU显存带宽:仓库到流水线的传送带速度。高端
5、GPU带宽超3TB/s,是CPU内存的10倍以上流处理器:每个工人(核心)都有一双手,能同时算加减乘除。比如NVIDIA A100显卡有6912个“工人”Tensor Core:专门算矩阵的“超级工具”,让AI训练速度翻6倍(比如训练ChatGPT)010203GPU三大法宝大模型的三大“基石”-GPU大模型的三大“基石”-GPU一、国际主流GPU厂商1.英伟达(Nvida)技术优势:算力标杆:H100芯片FP16算力达989 TFLOPS,支持大规模AI模型训练(如ChatGPT需1024块H100耗时1个月)生态壁垒:CUDA平台积累超300万开发者,兼容TensorFlow、PyTorc
6、h等主流AI框架,占据全球独显市场84%份额创新技术:Tensor Core加速矩阵运算,RTX 40系列支持光线追踪和DLSS 3.0,游戏性能提升2倍应用场景:数据中心(A100/H100)、自动驾驶(Thor芯片2000 TOPS算力)、消费级显卡(RTX 4090)劣势:价格高昂(H100单价超4万美元),高功耗(700W),受美国出口限制影响对华供应2.超威半导体(AMD)技术特点:性价比路线:MI300X单卡显存192GB,带宽1024 GB/s,价格较NVIDIA低20%架构突破:RDNA 3架构支持Chiplet设计,能效比提升54%,适配多任务处理场景应用场景:云游戏(Rad