《贾玮-蚂蚁集团向量检索技术的挑战与实践.pdf》由会员分享,可在线阅读,更多相关《贾玮-蚂蚁集团向量检索技术的挑战与实践.pdf(38页珍藏版)》请在三个皮匠报告上搜索。
1、贾玮贾玮蚂蚁集团 NoSQL数据库 和 向量数据库 技术负责人2016年加入蚂蚁集团,专注于存储基础设施对计算存储基础设施、中间件、向量检索有一定实践经验目录vs 增长趋势数仓数据数仓数据 vsvs 多媒体数据增速多媒体数据增速蚂蚁集团数据+10%+10%+143%+143%向量化表示向量化表示语义表达能力语义表达能力图图/倒排倒排大量浮点(距离)大量浮点(距离)Vector Search向量检索的高资源消耗数万10GB+数千100GB+数百1TB+单CPU Core支持QPS1亿数据内存消耗GBNoSQL/全文检索/向量检索 资源需求NoSQL全文检索向量检索稀疏向量特点关键词关键词短语短语
2、00.10.20.30.40.50.60.70.80.9113110增加稀疏向量的收益基于近似距离和线性分类器的基于近似距离和线性分类器的距离计算加速(距离计算加速(应对成本挑战应对成本挑战)近似距离近似距离压缩向量压缩向量近似距离近似距离原始向量原始向量精确距离精确距离1.4x 1.4x 2.2x 2.2x 高性能表现 内存内存排布排布数据预取数据预取 收益:收益:+25%+25%+20%+20%高性能表现共轭图共轭图查询反馈查询反馈连通性连通性 基于生成:基于生成:99.8%99.8%99.96%99.96%基于反馈:基于反馈:99.8%99.8%99.97%99.97%95%95%Tra
3、deoffTradeoff:增长增长3%3%更高召回率突破 量化技术量化技术标量量化标量量化乘积量化乘积量化RabitQRabitQRabitQRabitQBinary 量化优化(RabitQ)图图-聚类聚类分布式存储架构分布式存储架构内存+磁盘索引上的改进(PAG)索引框架索引框架HGraph 层次化图索引VSAG 是什么?VSAGVSAG 己在己在 GithubGithub 开源开源ANN Benchmark 算法挑战优化策略PyVSAG 版本己发布支持Python 生态快速接入SQLite 集成 VSAG 向量索引库 即将发布集成 VSAG 向量索引的VectorDB Module 即将
4、发布Oceanbase/Greptime 完成 VSAG 向量索引集成 support AMX instruction acceleration on Intel CPU support attributes stored in vector index support graph structure compressionVSAG 规划向量检索的挑战 与 实践非结构化数据飞速增长数据规模大,信息密度高,处理成本高向量检索、RAG 需求快速增长向量检索的 新CAP 问题 在 成本、精度、性能 之间取舍向量数据库实践 存储工程 与 向量索引算法 深度优化 通过混合磁盘索引 降低成本 应用稀疏向量提升召回率Binary量化HGraph层次化索引框架磁盘索引上的改进基于公开 Benchmark 工具的性能调优最新学术研究与应用公众号VSAG开源交流大模型正在重新定义软件Large Language Model Is Redefining The Software