1、解密大模型时代的 AI Native 向量数据库MilvusJerry LiZilliz 市场运营及生态发展负责人Jerry LiZilliz 市场运营及生态发展负责人“Zilliz 开发者关系及市场运营负责人,Linux Foundation APAC Evangelist。曾任开源中国社区负责人,Linux Foundation 开源软件学园运营负责人。多年来从事开源项目和社区的组织、管理工作,有着丰富的市场和运营经验,策划及参与执行多个国内外顶级基金会在国内的落地和生态拓展工作。”讲师简介目录01AI 时代的对向量数据管理的挑战02Milvus:全球最受欢迎的开源向量数据库03Zilli
2、z Cloud 企业级解决方案AI 时代对向量数据管理的挑战据 IDC 预测,至 2025 年,全球每年产生的数据量将达到 175ZB,其中超过 80%为非非结结构化构化数数据据AI 时代数据特征一:数据大爆炸场景1:LLMLLM结结合知合知识库检识库检索索LLMs的外接记忆体,消除其“幻觉”的问题AI 时代数据特征二:向量数据在新兴应用中越发重要场景2:搜索系搜索系统统提供在海量数据中的近实时搜索和推荐能力原始文档OpenAI EmbeddingsOpenAI EmbeddingsOpenAI ChatGPT用户提问检索相关文档向量向量数数据据库库生成Prompt自动生成回答向量数据库用户档
3、案历史行为商品图片商品描述用户评论各种标量属性过滤ANNSearch商品推荐数据体量巨大,未来超过80%的数据属于非结构化数据,AIGC 时代多模态数据的生成速度远远超过结构化数据,系统扩展性性能至关重要非结构化数据理解困难,虽然 LLM 已经大幅降低了非结构化数据理解的成本,但由于数据质量、多模态,成本性能等问题,单一大模型并不能完全解决非结构化数据理解的问题,很多场景下依然需要多模型组合,搜索与生成结合等方法算力的要求巨大,推理、向量数据库存储检索等都是算力密集型应用。算力的需求和成本往往成为挖掘非结构化数据的一大阻碍。缺乏工具,虽然传统的结构化数据处理并不简单,但由于 ETL、数据库、数
4、据仓库等工具在过去30年的发展,已经变得相对成熟。然而,非结构化数据处理的工具链刚刚开始构建,这就使得非结构化数据的处理相比结构化数据更具挑战性。非结构数据处理面临的挑战向量数据管理的主要挑战向量数据多为浮点或者二进制数据;数据压缩率低,存储成本高 有效存储向量数据计算复杂度高,往往需要异构计算的能力 高效计算有树、图、哈希和倒排等多种向量索引,索引管理和使用成本高 索引繁多非结构化数据的快速增长对系统的扩展性要求越来越高 扩展性在线业务对检索功能的毫秒级响应需求 低延迟标量和向量混合存储查询的需求 混合查询围绕 LLM 的开源非结构化数据解决方案Zilliz:构建开源+云的非结构化数据处理方
5、案Zilliz Cloud:开箱即用的全托管向量检索服务Milvus:全球最受欢迎的开源向量数据库与超过 5000 家企业用户共同打磨 5 年,是全球范围内最成熟的分布式向量数据库Milvus:全球最受欢迎的开源向量数据库Enterprise users5000+5000+stars2 24 4.3 3K Kdocker pulls8 8.6M6Mforks2 2.6K.6KMilvus1.0:全球第一款向量开源向量数据库Milvus2.0:云原生分布式向量数据库百亿规模向量扩展性存储计算分离离在线一体化基于K8s实现高可用容灾Cloud Native云原生分布式向量与标量混合查询提供标量倒排
6、索引支持集成了 FAISS、HNSW、DISKANN 等SOTA 向量索引Pluggable Engine可插拔引擎查询速度高于ES 10倍,高于主流竞品2倍毫秒级延迟响应查询性能根据物理资源线性扩展Blazing Fast超高性能提供从笔记本,到线下机房到云完全一致的使用体验Unify Cloud and Desktop云端一体丰富的部署方式,可观测性支持M合作伙伴Milvus 用户生态Zilliz Cloud 企业级解决方案Zilliz Cloud:助力全球企业构建云上全托管向量检索服务维护成本低low maintenance cost一键创建实例资