《A8_【专家】大模型商业化场景探索实践_王仿_16708912.pdf》由会员分享,可在线阅读,更多相关《A8_【专家】大模型商业化场景探索实践_王仿_16708912.pdf(29页珍藏版)》请在三个皮匠报告上搜索。
1、让 机 器 像 人 一 样 思 考北京市海淀区中关村东路1号院9号楼10层No.1 ZHONG GUAN CUN EAST ROAD,H A I DIAN DISTRICT,BEIJING智谱/华东区技术负责人/王仿大模型商业化场景探索实践CONTENT大模型应用范式01大模型技术的突破和创新大模型应用场景与实践0203人工智能研究方向人工智能研究方向1.研究目标:使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)2.研究方法 结构模拟:人脑的结构仿照人脑的结构机制,制造出“类人脑”的机器挑战:人对大脑的研究还比较浅层 功能模拟:语言撇开人脑的内部结构,而从其功能过程进行模
2、拟。挑战:机器的通用智能很难青出于蓝而胜于蓝如何让计算机理解人类语言语言理解语言理解内容创作内容创作NLUNLUNLGNLG信息表征信息抽取信息压缩如何让计算机理解人类语言信息的表征计算机理解字词,是通过把他们投影到多维向量空间,投影之后保证相似的词句投影后向量距离相近,达到刻画现实世界的语义词义的目的。GPT-1:词向量的长度是 768GPT-2:词向量的长度是 1600GPT-3:词向量的长度是 12888如何让计算机理解人类语言信息的抽取NLP预训练模型很核心的一个工作是NLP的特征抽取,特征抽取能力很大程度决定最终模型的效果。NLP三大特征抽取器:CNN/RNN/Transformer
3、RNN-循环神经网络:信息由前向后在隐层之间逐步向后传递,把一个序列的信息压缩到一个定长向量里。局限:t时刻的状态依赖t-1时刻的输入,所以它必须串行进行,不能并行计算。如何让计算机理解人类语言CNN-卷积神经网络2014年由Kim最早把CNN引入到NLP领域,输入的字或词通过embedding来标识,把一维的字词序列做成了d*n的二维结构。局限:对远距离的特征捕获能力不强。如何让计算机理解人类语言Transformer17年由谷歌提出,原始论文中transformer是完整的encoder-decoder框架,但是从特征提起的角度讲,主要是指encoder部分,decoder也有特征提取的能
4、力,更多的是用来做语言模型。综合比较三个NLP特征抽取,Transformer在语义抽取、长距离特征捕获、任务综合特征抽取以及计算效率上都有比较显著的提升如何让计算机理解人类语言信息压缩的方式有了上面2个能力之后,通过对目标的学习,不断优化词句信息压缩的精准度,目标学习的方法分成AE、AR、Seq2Seq三大的框架以及三者之间的融合。auto-regressive自回归模型(AR)代表作GPT,是一个从左到右的语言模型。auto-encoding自编码(AE)代表作Bert,通过Mask LM,训练双向文本编码器,适应于NLU任务,比如文本分类、序列标注,ner等。训练方法:它首先破坏输入序列
5、的一些token,通过encoder编码到潜在空间,然后再解码(重构)到原始空间。encoder-decoder(seq2seq)代表作T5,使用完整的Transformer框架,将序列从一个domain转换成另外一个domain的序列。General Language Model(GLM)代表作清华大学的GLM、谷歌UL2。输入文本通过随机删除连续的tokens(AE),顺序重建删除的连续tokens(AR)。多模态大模型多模态大模型VS 传统CV模型多模态大模型结构图像理解大模型:深度融合多模态特征数据&训练:15亿张图文对,预训练了4096个A100*days,并在构造的视觉定位(vis
6、ual grounding)数据集上进行二阶段预训练。在对齐阶段,CogVLM使用了各类公开的问答对和私有数据集进行监督微调,使得模型能回答各种不同类型的提问。视频理解:深度融合多模态特征架构自研将文本、时间、空间三个维度全部融合起来的 Transformer 架构。数据自研视频理解模型,针对视频生成文本描述,构建海量高质量文本-数据,提高模型指令遵从度。算法自研高效的 3D VAE,将原视频空间压缩至 2%大小,配合 3D RoPE 位置编码模块,更有利于在时间维度上捕捉帧间关系,建立起视频中的长程依赖。智谱大模型矩阵,全面涵盖文本、代码、图像、视频大语言-多模态(文本、图像、视频、情感语音