贾玮-蚂蚁集团向量检索技术的挑战与实践.pdf

编号:627153 PDF 38页 7.78MB 下载积分:VIP专享
下载报告请您先登录!

贾玮-蚂蚁集团向量检索技术的挑战与实践.pdf

1、贾玮贾玮蚂蚁集团 NoSQL数据库 和 向量数据库 技术负责人2016年加入蚂蚁集团,专注于存储基础设施对计算存储基础设施、中间件、向量检索有一定实践经验目录vs 增长趋势数仓数据数仓数据 vsvs 多媒体数据增速多媒体数据增速蚂蚁集团数据+10%+10%+143%+143%向量化表示向量化表示语义表达能力语义表达能力图图/倒排倒排大量浮点(距离)大量浮点(距离)Vector Search向量检索的高资源消耗数万10GB+数千100GB+数百1TB+单CPU Core支持QPS1亿数据内存消耗GBNoSQL/全文检索/向量检索 资源需求NoSQL全文检索向量检索稀疏向量特点关键词关键词短语短语

2、00.10.20.30.40.50.60.70.80.9113110增加稀疏向量的收益基于近似距离和线性分类器的基于近似距离和线性分类器的距离计算加速(距离计算加速(应对成本挑战应对成本挑战)近似距离近似距离压缩向量压缩向量近似距离近似距离原始向量原始向量精确距离精确距离1.4x 1.4x 2.2x 2.2x 高性能表现 内存内存排布排布数据预取数据预取 收益:收益:+25%+25%+20%+20%高性能表现共轭图共轭图查询反馈查询反馈连通性连通性 基于生成:基于生成:99.8%99.8%99.96%99.96%基于反馈:基于反馈:99.8%99.8%99.97%99.97%95%95%Tra

3、deoffTradeoff:增长增长3%3%更高召回率突破 量化技术量化技术标量量化标量量化乘积量化乘积量化RabitQRabitQRabitQRabitQBinary 量化优化(RabitQ)图图-聚类聚类分布式存储架构分布式存储架构内存+磁盘索引上的改进(PAG)索引框架索引框架HGraph 层次化图索引VSAG 是什么?VSAGVSAG 己在己在 GithubGithub 开源开源ANN Benchmark 算法挑战优化策略PyVSAG 版本己发布支持Python 生态快速接入SQLite 集成 VSAG 向量索引库 即将发布集成 VSAG 向量索引的VectorDB Module 即将

4、发布Oceanbase/Greptime 完成 VSAG 向量索引集成 support AMX instruction acceleration on Intel CPU support attributes stored in vector index support graph structure compressionVSAG 规划向量检索的挑战 与 实践非结构化数据飞速增长数据规模大,信息密度高,处理成本高向量检索、RAG 需求快速增长向量检索的 新CAP 问题 在 成本、精度、性能 之间取舍向量数据库实践 存储工程 与 向量索引算法 深度优化 通过混合磁盘索引 降低成本 应用稀疏向量提升召回率Binary量化HGraph层次化索引框架磁盘索引上的改进基于公开 Benchmark 工具的性能调优最新学术研究与应用公众号VSAG开源交流大模型正在重新定义软件Large Language Model Is Redefining The Software

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(贾玮-蚂蚁集团向量检索技术的挑战与实践.pdf)为本站 (山海) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠