《OceanBase 向量检索在货拉拉的探索和实践_陈铨.pdf》由会员分享,可在线阅读,更多相关《OceanBase 向量检索在货拉拉的探索和实践_陈铨.pdf(24页珍藏版)》请在三个皮匠报告上搜索。
1、OceanBaseOceanBase 向量检索在货拉拉的向量检索在货拉拉的探索和实践探索和实践陈铨货拉拉-大数据技术与产品部-高级大数据工程师Contents目录货拉拉介绍01 大模型与向量数据库02 向量数据库选型与落地03 未来规划04 0101货拉拉介绍 2024年全球闭环货运交易总值最大的物流交易平台 2024年全球闭环货运 GTV 最大的同城物流交易平台 2024年全球已完成订单数量最多的物流交易平台 2024年全球平均月活商户最多的物流交易平台全球年订单全球月活用户城市0202大模型与向量数据库14个业务部门50+业务场景大模型在货拉拉的应用大模型当前的痛点领域知识缺乏过时幻觉安全
2、解决问题领域知识和私有数据实时数据减少生成不确定性增强数据安全大模型应用的四大问题RAG(Retrieval Augmented Generation)检索增强生成技术,利用检索外部文档提升生成结果质量RAG(检索增强生成)向量数据库总结生成用户问题chunk文档chunkchunkEmbeddingTextQuery SplitEmbeddingDocs SplitLLMs向量数据库多模态数据Embedding嵌入向量向量数据库 音频、视频、图片、文本 存储非结构化数据 数据规模大,信息密度高,处理成本高 通过神经网络提取数据特征,形成高维空间的坐标点 向量化表示 向量具备语义表达能力,用于
3、相似性检索 通过向量间的距离(内积/欧氏距离)找出最相似的向量 检索非结构化数据 检索过程是近邻图的遍历过程,需要进行大量浮点(距离)运算L2:欧氏距离L1:曼哈顿距离Cosine:余弦距离0303向量数据库选型与落地现有架构5+集群数量2kw+Document384G单集群内存混合检索复杂入口层接入层检索层存储层基础设施混合检索复杂动态 SchemaStep1Step2Step3流程繁琐索引重构耗时长容易引发抖动相近语义理解多语言理解/跨语言理解多模态理解容错性强向量检索优势全文检索优势精确匹配短文本匹配倾向低频词汇的匹配可解释强更高的检索召回精度:通过多路召回,既保证基于语义的查询结果,也
4、能保证精确检索。更复杂的查询能力:可以利用全文检索的逻辑运算、排序、过滤等功能,实现更复杂的查询需求。更强的可解释性:可以利用全文检索的文本匹配和高亮显示,实现更可解释的检索结果。更灵活、可自定义:用户可自定义全文检索召回结果、向量检索召回结果在最终结果的权重,为变化的检索场景选择更合适的检索手段混合检索优势Hybrid SeachReranking标量检索向量检索全文检索关系数据库向量数据库ES多种存储介质相似度得分难统一用户实现Reranking混合检索混合检索复杂运维痛点稳定性能力弱 向量数据库自身不稳定,BUG 多 专家经验不足,问题排查困难 监控指标少,问题难定位1扩展性不足 节点横
5、行扩展能力差,数据需手工迁移 数据分片管理运维复杂2权限认证 权限认证能力弱,容易造成数据泄漏和安全等问题 需自行实现权限管理,增加了开发和运维的复杂性3社区活跃度差 虽然项目仍在维护,但更新频率较低,社区贡献和开发者参与度有限 功能和生态发展缓慢,无法满足业务未来的需求4运维诉求稳定性:高可用、监控完善扩展性:动态扩缩容、多云部署可维护性:组件依赖少、备份恢复、容灾成熟度:大厂实践业务诉求功能:距离算法、索引、动态Schema检索:标量、向量、全文、混合检索易用:支持 Go/Python/Java,文档完善性能:召回率、P99稳定性:稳定可靠、故障快恢选型标准Zilliz(Milvus)El
6、asticsearchOceanBase(OB Cloud)入围:3款选型过程候选集:10款淘汰多云部署:阿里云 ADB、腾讯云 VectorDB、Lindorm向量纬度:pgvector稳定性:Weaviate稳定性运维成本OB Cloud弹性扩缩容扩展性RPO=0,RTO 8秒高可用专注业务接入运维成本OB Cloud基于云上构建向量存储服务混合检索复杂资损代码识别随着软件系统复杂性增加,代码中的潜在问题可能导致严重的财务损失。传统审查方法效率低且易遗漏问题。本项目结合向量化技术和大模型,开发自动化代码风险识别系统。通过向量化历史代码并检索相似代码,利用大模型分析判断资损风险,提高代码审查
7、效率和准确性,帮助企业更好地控制开发过程中的风险。数仓 AI 答疑助手随着大数据的发展和应用,元数据的复杂性和多样性日益增加,传统的元数据检索和找数方式逐步面临挑战。用户在找数过程中,由于需要用户具备一定程度的业务知识和技术知识,经常会遇到各种数据理解和使用上的疑问,需要频繁跟技术来回沟通。尝试利用 AIGC 强大的自然语言处理和文本理解能力,降低用户找数门槛,减轻隐性的沟通负担,从而进一步提升数据检索的效率。0404未来规划 融合查询能力 业务改造 迁移工具.存量业务迁移性能与成本 索引:HNSW_SQ、IVF等 表级别 TTL 冷热分层.大数据体系 监控告警 DMS 数据库管理系统.内部系统集成 OLAP 场景探索 OBKV 场景探索.更多场景探索未来规划谢 谢谢 谢谢 谢