1、PG在向量及时序的最佳实践王丁丁BOE工业互联网资深DBAAI浪潮下崛起的新秀02.向量PGVECTOR插件TimescaleDB是站在了PG的肩膀上03.随着物联网的发展,时序的需求剧增工业互联网数据治理01.打造数智化工厂CONTENTS工业互联网数据治理应用主流的关系型数据库Oracle、MySQL、sqlserver、PostgreSQL,分布式数据库greenplum、Apache Doris以及NoSQL数据库可视搜索数据开放数据服务自助分析自助搜索标签数据探索传感器IOT邮件文本图片WebERP CRM SRM MES PLM TQMS HR 结构化数据源非结构化数据源数据源实时
2、数据处理能力非结构化数据流式数据结构化数据EDW数据仓库区BDZ 大数据区计算存储HDFS HBASEHive Map-Reduce SparkRDZ实时数据区实时流处理StormSpark Streaming规则引擎数据处理中心CM多维分析区MPPImpalaRDZ实时数据区实时离线处理OGG同步数据到Kafka,Doris消费MPPDorisRedisLDZ实验数据区Tensorflow/SAS/R/Python分类关联聚类预测BDZ大数据区(非结构)语义分析图分析图片分析NLPInformatica OGG CDC半、非结构化数据Flume Sqoop Kettle半、非结构化实时数据K
3、afka FlumeSDI 原始数据着陆区PostgreSQLMPP结构化数据处理能力非结构化数据处理能力HDZ历史数据区02.AI浪潮下崛起的新秀4自从OpenAI推出了全新的对话式通用人工智能工具ChatGPT,ChatGPT 表现出了非常惊艳的语言理解、生成、知识推理能力,ChatGPT 的横空出世拉开了大语言模型产业和生成式AI产业蓬勃发展的序幕,大模型作为新一代的AI处理器,提供了数据处理能力;而向量数据库提供了存储能力,成为大模型时代的重要基座。4次工业革命的时间和标志向量成为大模型时代的重要基座2.1 序言02.AI浪潮下崛起的新秀5数据库有事务处理(OLTP)与数据分析(OLA
4、P)两大核心场景,向量数据库自然也不例外。典型的事务处理场景包括:知识库,问答,推荐系统,人脸识别,图片搜索等等。知识问答:给出一个自然语言描述的问题,返回与这些输入最为接近的结果;以图搜图:给定一张图片,找出与这张图片在逻辑上最接近的其他相关图片。向量数据库的核心思想是将文本转换成向量,然后将向量存储在数据库中,当用户输入问题时,将问题转换成向量,然后在数据库中搜索最相似的向量和上下文,最后将文本返回给用户。2.2 向量数据库02.AI浪潮下崛起的新秀62.3 向量数据库主要应用场景1.人脸识别向量数据库可以存储大量的人脸向量数据,并通过向量索引技术实现快速的人脸识别和比对。2.图像搜索向量
5、数据库可以存储大量的图像向量数据,并通过向量索引技术实现快速的图像搜索和相似度匹配。3.音频识别向量数据库可以存储大量的音频向量数据,并通过向量索引技术实现快速的音频识别和匹配。4.自然语言处理向量数据库可以存储大量的文本向量数据,并通过向量索引技术实现快速的文本搜索和相似度匹配。5.推荐系统向量数据库可以存储大量的用户向量和物品向量数据,并通过向量索引技术实现快速的推荐和相似度匹配。6.数据挖掘向量数据库可以存储大量的向量数据,并通过向量索引技术实现快速的数据挖掘和分析。02.AI浪潮下崛起的新秀72.4 PG基于工业ADC系统的应用ADC系统,通过实时地采集AOI设备产生的图像数据,应用算
6、法进行自动预测由深度学习技术,定位故障点,判断缺陷类型(code),替代人工肉眼进行判图02.AI浪潮下崛起的新秀82.4 向量插件PGVECTOR在所有现有向量数据库中,pgvector是一个独特的存在 它选择了在现有的世界上最强大的开源关系型数据库 PostgreSQL 上以插件的形式添砖加瓦,而不是另起炉灶做成另一个专用的“数据库”pgvector有着优雅简单易用的接口,不俗的性能表现,更是继承了PG生态的超能力集合。PostgreSQL 提供使用 extension 的方式来扩展数据库的功能,例如 pgve