1、刘博研发工程师面向 GenAI 时代的 MatrixOne数据库GenAI 时代对数据库的挑战与需求01目录CONTENTSMO 数据库技术解析02MO 数据库在 GenAI 场景中的应用案例03与传统数据对比与优势04未来展望05GenAI 时代对数据库的挑战与需求探索GenAI时代的核心特征与趋势01MatrixOne 作为 GenAI 时代的数据库,融合 AI 技术,提供高效数据处理与智能分析,满足海量数据实时处理需求数据库变革GenAI,泛化人工智能,指能处理多种任务的智能系统,超越特定领域限制,适应广泛应用场景。GenAI 定义GenAI 时代以自学习、自适应为核心,强调模型泛化能力
2、,实现从数据到决策的自动化,提升效率与创新。核心特征面 对 GenAI 挑 战,MatrixOne 需持续优化算法,增强安全性,同时把握机遇,推动产业升级,成为行业革新者。挑战与机遇数据库在GenAI时代面临的挑战与需求02企业私有数据融合成本与扩展性数据多样性实时处理与分析GenAI 数据库挑战用户需要更加简便的混合多模态数据工具03612345向量检索能力全文检索能力多模态数据管理能力大小 AI 模型联动能力多租户及数据共享能力用户自定义能力MO数据库技术解析MatrixOne 是什么01云原生超融合数据库面向混合负载,简化架构,多能力合一(OLTP,OLAP,时序,向量,全文)完全从零自
3、研Snowflake架构MySQL兼容MatrixOne 技术架构02基于共享存储(S3)的文件服务事务层计算节点CN计算节点CN计算节点CNKubernetes基于 Raft 的共享日志服务数据文件元数据事务节点TN事务节点TN缓存数据文件数据文件存储层事务节点TN计算层HAKeeperLogtailHAKeeperLogtailHAKeeperLogtail计算资源感知业务自动伸缩计算资源组间完全隔离计算节点缓存热数据,提升性能TN节点负责分布式事务的冲突检测使数据可以在共享存储、持久化缓存和内存之间无缝移动共享日志基于Raft协议保存Tail日志,保证高可靠&高性价比 全量数据保存在以S
4、3为代表的共享存储,实现低成本的无限伸缩MatrixOne 部署形态03单机主从部署单机对象存储部署K8s分布式部署MatrixOne主机MatrixOne从机CDCMatrixOneS3对象存储S3对象存储K8sCNCNTNCNLogServiceLogServiceLogServiceMatrixOneTNMatrixOne 核心特性04单数据引擎实现 HTAP同时支持高并发及复杂查询支持 ACID 事务保证OLTP 及 OLAP 资源可灵活自定义完全云原生的分布式架构计算及存储独立快速扩容写入及分析性能随节点数增加而线性增加用户可灵活的自定义资源组策略完全免运维的 Serverless
5、体验实时感知前端负载自动秒级扩缩容无负载时可缩容到 0010203与 MySQL 一样的简单体验与 MySQL 8.0 高度兼容内部自带订阅/发布能力实现数据共享与 Kafka,Spark,Grafana 等行业常见生态组件完全兼容04丰富快速的各类查询能力TB 级别数据的秒级查询支持点查,批查,窗口函数及星型雪花等复杂查询数据自动冷热分离05内置自研向量数据引擎支持多种向量索引类型支持常用向量搜索函数支持数十亿级的向量检索支持对文本和 JSON 数据的全文索引06向量检索与传统数据库检索的区别05传统数据库向量数据库数据存储方式保存原始数据(1,MatrixOne is a database
6、 system)保存向量化后的数据0.12,-0.23,0.33,0.67,-0.86查询方式通过SQL语句查询select*from person where name=sam通过计算向量距离进行查询select l2_distance(vec_column,:target_vec)distFrom docs order by dist Limit 3索引方式针对一个或多个列,构建B+Tree 索引基于IVFFLAT、HNSW 算法构建的向量索引查询结果准确的结果距离最近的n 个结果vs向量索引06极致性能HNSW算法通过构建多级图结构,实现快速近似最近邻搜索,大大提升了向量检索的速度和效率