1、大数据 AI 检索技术的应用肖允锋(鹤冲)阿里巴巴-达摩院-资深技术专家1.AI 驱动下的搜索技术2.非结构化数据索引技术3.向量化索引面临的技术挑战4.达摩院相关技术介绍AI 驱动下的搜索技术01例子 地址召回方式:文本/关键词/标签+布尔检索,Score+Filter+Rerank;单模态:多数搜索基于文本和标签的方式;确定性:要求搜索结果的确定性;相关性:注重与用户搜索需求的相关性;传统搜索技术的特点DNF布尔表达式检索:广告/商品定向的方法应用布尔表达式检索新领域,新特点文档的形式越来越多样(文字、图片、语音、视频等);文档的检索条件越来越复杂;文档的规模越来越大;结构化数据文字/图片
2、/语音/视频等(非结构化数据)标签&向量化 搜索索引化新搜索,新变化相似性确定性计算成本呈 O(N)增长算法削弱了部分确定性确定性-相似性具象化-抽象化先检索后算法-先算法后检索 确定性检索往相似性检索倾斜;单模态搜索往多模态搜索发展;单模态检索单模态检索:单一数据源,可以具象化 多模态检索多模态检索:异质信息源,需要抽象化多模态单模态确定性关联性相似性标签化非结构化发现性更大的数据规模、更丰富的数据AI 驱动下下的搜索技术回到例子 地址召回非结构化数据索引技术02先结构化,再索引化例子-图像搜索例子-图像搜索应用商品搜索/万物搜索版权保护推荐系统相似推荐广告系统防作弊安防领域 ReID 应用
3、图片&视频去重视频人和物识别万物皆向量TextsImagesAudioNetworkIDsID EmbeddingDeepModelsUserEmbeddingImage EmbeddingText EmbeddingAudio EmbeddingNetwork EmbeddingItem EmbeddingDNNModel Vector Retrieval向量皆万物实体向量代数化实体向量代表关系距离象征距离关系抽象化万物皆可搜万物皆可搜 两阶段向量化-模型表达的准确性向量检索 搜索过程的空间和时间复杂度向量化索引面临的技术挑战03向量检索RNNKNNANN大数据准确性高效率向量检索工程和算法
4、的发展向量检索算法 KDTree向量检索算法 PQ向量检索算法 HC向量检索算法 HNSW多层小世界图预建邻居游走遍历面临的问题和挑战面临的问题和挑战超大规模索引的精度和性能分布式构建和检索面临的问题和挑战流式索引的在线更新(实时增删查改)面临的问题和挑战流式索引的在线更新复杂的多场景适配达摩院相关技术介绍04达摩院 Proxima 引擎Proxima超大规模自主研发高维&高精度 向量&标签&正排多场景&异构计算流式实时&CRUD高性能&低成本Proxima 发展历程2012017 7达摩院自主研发大规模、高性能、高精度多种 AI 检索场景立项立项&诞生诞生2012018 8图片、视频指纹、N
5、LP 等数据库产品阿里中台系统全面应用全面应用2012019 9低延时、高吞吐、高召回淘宝搜索和推荐场景全面应用相比业内数倍的性能在线异构计算在线异构计算20202020超大规模流式 CRUD 索引流批处理、在线&离线、数据库多算法、多分布、多应用完整的多场景完整的多场景超大规模标签+向量异构计算高维&高精度流式实时&增删改查高性能&低成本场景适配水平扩展 索引构建成本 索引检索效率 带条件的向量检索 规模化 分布式 GPU&FPGA&NPU 即增即查&实时落盘 In-Place 修改和删除 低延时&高吞吐 冷数据处理 开箱即用 多场景&自动调参Proxima 高维灾难 高精度召回 vs.性能
6、流式索引&增删查改算法+工程的综合性问题和挑战:不满足三角形关系的索引(如:非归一化内积索引)流式构建和检索的问题;有限内存下,超大规模索引实时检索,即增即查,即时落盘的问题;超大规模 in-place 更新和删除的问题(无限增删改)大规模流式实时半内存增删改距离限制流式索引&增删查改索引侧“一步一步”解决:流式欧式和内积(包括非归一化检索)索引;内存+磁盘的流式超大规模索引实时增删改查;VS基础索引测试-量化索引真实业务应用两千万数据规模同等召回率基础索引测试 图索引真实业