《腾讯云:腾讯云工具指南第八期RAG技术应用与实践(44页).pdf》由会员分享,可在线阅读,更多相关《腾讯云:腾讯云工具指南第八期RAG技术应用与实践(44页).pdf(44页珍藏版)》请在三个皮匠报告上搜索。
1、代码传递思想技术创造回响技术应用与实践腾讯云工具指南 08期AI时代如何更好激活数据价值030201序技术解析场景实践.04腾讯云数据库副总经理 罗云.07.13.22.30CONTENTS目录如何让大模型看懂文档RAG实践中的文档解析如何让大模型理解长文本RAG实践中的阅读理解技术优化如何让大模型理解用户问题RAG实践中的检索优化.37.40.42如何让大模型看懂图片/视频RAG实践中的多模态问答用向量数据库实现云原生架构的三种AIGC方案作业帮架构研发工程师 许春旭用AI代码助手实现金融科技研发安全智能化招商证券技术平台开发&金投业务开发负责人 谭成鑫用知识引擎打造榕博士提升电气行业设计效
2、能万榕信息总经理 黄帅序01AI时代如何更好激活数据价值PA R T序AI时代如何更好激活数据价值AI时代如何更好激活数据价值腾讯云数据库副总经理 罗云数据处理主要有两个“一公里”的挑战:在客户采集侧的第一公里,采集源纷繁杂乱、格式多样,难以进行规范化管理、入库、建模;而在用户使用侧的最后一公里,需要对数据进行组合分析跟联动使用,这同样对数据泛化处理提出挑战。从现在看,数据向量化是泛化能力最合适的数据格式。一、增量数据的处理,向量化是关键数据的存储管理是逐步迭代的过程,在1.0阶段,腾讯云强调小步快跑,尽快让客户使用起来才能更好发现向量化技术的痛点,这时候腾讯云采用传统的raft技术存储计算在
3、单节点投入使用。在2.0阶段时,腾讯云独立向量检索workload模块,这实现了两个好处。首先是单独扩缩容,向量匹配是非常以来计算的工作负载,把GPU能力叠加上去,资源利用更合理;其次,向量检索的匹配随着数据规模变大而变大,单独把匹配模块拿出来,可以实现autoindex,做一些自适应的升级和匹配。向量数据的处理是全链路的,通过长文本分段、选择向量化模型、分段存储检索等过程,才能把非结构化数据变成最后可以被检索的数据。端到端叠加起来,召回率在70%以下不能用于生产。二、存储数据的基础设施,逐步迭代提升效能三、超过90%的召回率才能投入使用AI时代下,数据库作为IT技术领域的“活化石”,已成为不
4、可或缺的数据资产。随着大语言模型持续增强,数据将逐渐成为企业核心竞争力。增量数据非结构化且格式繁乱如何更好地管理及投入生产1.0阶段:单节点raft 2.0阶段:独立向量检索workload模块VDB 1.0 ArchVDB 2.0 ArchShard-0Partition xStorage NodeANN Index Segement NodeRaft GroupShard-1Shard.MasterRaft GroupANNIndexRocksDBReverseIndexFollowerFollowerMasterFollowerFollowerMasterMasterFollowerFo
5、llowerFollowerSegmentSegment.FollowerPartition YCOS(ANN Index)IndexBuilderPartition Z04腾讯云RAG技术实践AI时代如何更好激活数据价值05腾讯云RAG技术实践AI时代如何更好激活数据价值序AI时代如何更好激活数据价值存量数据历史久且分布广如何更好地激活为AI所用?腾讯云团队通过微调、内部向量大模型,提供一站式多模态端到端入库能力。这些端到端的RAG应用检索方案,让文本召回率达到80%,甚至95%,在一定程度上满足企业生产可用。在过去计算机历史上,我们储存大量的数据,包括结构化、非结构化,存储在关系型、非关系
6、型数据库上,如何更好的激活使用难度很大。把全部数据向量化相当于把整个系统都改造一遍,成本高且性价比低。现在主流的方式是通过在数据库上叠加一套SaaS产品,也就是数据库生态工具。这些工具采用白屏化的方式让开发者更好管理。但他适用于开发者,对于普通大众而言,SQL语言的理解、数据库的使用门槛还是很高。腾讯云认为,将数据库体系上层抽象有一个基于自然语言统一入口的产品形态,对于我们的存量数据非常重要,实现用自然语言去做数据库诊断以及运维。目前,腾讯云推出CloudDB Assistant助手,未来希望通过自然语言方式迭代白屏化技术,通过自然语言和数据资产进行交互。集成Embedding,实现自然语言查