《阿里云ADB-PG智能数据处理技术与案例-魏南琛V1.pdf》由会员分享,可在线阅读,更多相关《阿里云ADB-PG智能数据处理技术与案例-魏南琛V1.pdf(21页珍藏版)》请在三个皮匠报告上搜索。
1、PostgreSQL中文社区第13届PostgreSQL中国技术大会聚焦云端创新汇聚智慧共享魏南琛阿里云ADB-PG智能处理技术及案例PostgreSQL中文社区核心技术客户案例03未来展望04智能数据处理架构0102PostgreSQL中文社区目录contents01智能数据处理架构PostgreSQL中文社区PostgreSQL中文社区智能数据处理架构 经典RAG业务模型文本分割切块原始文档(PDF,Word,URL,Json)原始文本TextChunkChunkChunkChunk文本转换向量数据库聊天历史+新问题+条件LLM embedding API(chunk转embedding)
2、独立问题LLM Chat API融合问题向量+文本+scalar入库LLM embedding API(问题转embedding)混合查询+filter最相关的内容(知识)返回搜索结果答案LLM Chat API推理求解独立问题+相关知识PostgreSQL中文社区智能数据处理架构 ADB-PG的一站式RAG解决方案数据表存储数据推理输入输出表知识库内容特征表结构化|半结构化|非结构化 数据存储 RAG ServiceRestful API&SDKDoc ChunkingChunk EmbeddingRerankingADB-PG向量数据库核心能力DenseSparseHNSWPQ向量检索全文
3、检索tsvectortsqueryzhparser&jiebaGIN混合检索Btree&GIN&HNSWPre-filter/Post-filter/Single-stage-filterADB-PG企业知识文档入库1.文档切片2.特征提取3.内容&特征入库企业专属Chatbot1.问题特征提取2.文档特征检索3.文档&问题LLM推理4.返回答案仓内数据推理1.推理输入内容入库2.LLM批量推理3.推理结果入库模型服务Vector Embedding通义千问ChatGPTGPT-4IDInputInference1xxxxxxxxxxxxxxxx2xxxxxxxxxxxxxxxxChunkEm
4、beddingDocIDxxx1.1,2.2,3.3,1xxx4.4,5.5,6.6,202核心技术PostgreSQL中文社区PostgreSQL中文社区核心技术 RAG技术概览EmbeddingAI模型能力模型推理RerankChunk向量检索稠密&稀疏混合检索向量&标量融合检索稠密向量检索向量&全文混合检索全文检索倒排索引GINtsquerytsvector分词器PostgreSQL中文社区核心技术 ADB-PG的分布式架构主节点(协调者)解析器&SQL改写器全局事务管理Vacuum调度器查询优化器&向量查询优化器统计信息&元数据计算节点(worker)Vacuum执行器查询执行器&向量
5、查询执行器计算引擎层本地事务行存表存储引擎层原生索引&向量索引列存表计算节点(worker)Vacuum执行器查询执行器&向量查询执行器计算引擎层本地事务行存表存储引擎层原生索引&向量索引列存表流复制物理&逻辑 备份数据远端存储层(OSS)ADB-PG原生企业级能力:Shared-Nothing 和 MPPACID 和 分布式事务向量化执行垂直扩展&水平扩展高可用&高可靠冷热分层存储备份恢复向量特性(橙色部分):向量查询优化器(混合查询)向量查询执行器(混合查询)Vacuum调度器与执行器向量索引PostgreSQL中文社区核心技术 ADB-PG的向量检索引擎统计信息优化器代价估算&代价模型查
6、询SQL&任务调度器向量优化器执行器Efficient Motion常规算子JoinAggSortScanOthers向量执行器Column Oriented TableRow Oriented TableVectorVector IndexIndexB-Tree10101010 BitmapGINGISTB-Tree10101010 BitmapAdaptive CompressionMin&MaxBlock Skip indexVectorIndex向量优化器向量&标量混合查询向量&全文混合查询向量执行器向量查询算子混合查询算子并行查询算子粗排&精排算子向量距离计算UDF向量索引向量PQ编