当前位置:首页 > 报告详情

谯从彬-大规模实时GraphRAG湖仓技术和实践.pdf

上传人: Fl****zo 编号:624572 2025-03-31 26页 1.92MB

1、大规模实时GraphRAG湖仓技术和实践演讲人:谯从彬 实时GrpahRAG挑战01实时大规模知识图谱构建02湖仓一体技术实践03未来展望04目 录CONTENTS实时GrpahRAG挑战GraphRAG链路L LL LM M用用户户检检索索器器任务描述查询样本提提示示词词工工程程知知识识库库预训练微调搜索相关文档提示词+提示词查询结果索引训训练练数数据据领领域域数数据据智智能能体体VectorRAGGraphRAGTableRAG大规模知识图谱面临挑战知识图谱领域数据构建检索图存储规模:大规模存储和计算问题图特征更新:实时和增量更新难图数据检索:查询耗时过长实时大规模知识图谱构建GeaFlo

2、w:开源实时图计算引擎SQL+ISO/GQLDSLParser/OptimizerSchema/TypeUDF/ConnectorAPIFrameworkSchedulerStream APIGroupCycle SchedulerState MachineFault TolerantRuntimeWorker ManagerTask RunnerWindowShuffleStateKV StateGraph StateIndexPush DownPersistencySchemaPipelineStatic Graph APIDynamic Graph APIRay/K8SMemory Ma

3、nagerKey GroupState OperationGeaFlow核心能力图研发平台01图表融合05离线/增量图计算04图查询服务02图构建能力03图存储能力解决大规模知识图谱问题分布式计算和存储数据规模过大增量计算实时增量更新在线图查询高性能检索流批图一体分布式计算Physical PlanCycle SchedulertailheadschedulereventeventDriverResource ManagerMasterCycleGraph StoreshardshardshardIndexMemory Managergraph store apiRuntime Framewo

4、rkDispatcherShuffle ManagerWorkerjobGQL/SQLTaskRunnerLogical PlanPlanCluster ManagerHA ManagerHeartbeat流式增量图计算12nK-HopWCCSSSPK-CorePageRank通用图算法GremlinGQL标准图遍历UDF自定义图算法分布式增量图计算输出图特征图点边解析Graph Store实时数据Timeline t1 t2实时图推理javajavajavaGeaFlow WorkerPython Processpythonpythonpythonc/c+Graph StoreGNN Mod

5、elInfer Env虚拟环境进程创建销毁依赖管理内存共享实时图计算Infer EnvInfer ContextInfer RunnerInfer APIInfer Sessionshare memoryUser Function在线图查询Graph StoreClientCoordinatorCoordinatorCoordinatorOLAP Server OLAP Worker12nDSL Planer实时大规模知识图谱技术总结GeaFlow领域数据构建Graph Store查询更新实时输入实时输出分布式计算存储实时图推理增量图计算在线图查询图特征检索返回结果GNN Model知识图谱输

6、出湖仓一体技术实践传统数仓困难交易记录用户浏览记录购物车UIDUIDUIDUIDUIDUID1nnn11用户交易记录购物车浏览记录宽表存储冗余大数据更新困难数据一致性差可扩展性受限宽表方案问题计算开销大时效性差多表JOIN问题图数仓交易记录用户浏览记录购物车UIDUIDUIDUIDUIDUID1nnn11图用户交易记录浏览记录购物车点边点边独立描述存储,存储冗余小点边数据独立更新,保障一致性可扩展性好图方案优势图数仓系统接口层图分析服 务多度关联分析单点查询图计算图算法AI分析图挖掘实 时图构建Binlog消息中间

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
谯从彬在演讲中介绍了实时GraphRAG技术及其在大规模知识图谱构建中的应用。主要内容包括: 1. 实时GraphRAG挑战:谯从彬讨论了实时大规模知识图谱构建、湖仓一体技术实践以及未来展望等方面的挑战。 2. 大规模知识图谱面临挑战:谯从彬指出,知识图谱领域数据构建和检索存在图存储规模、图特征更新以及图数据检索等问题。 3. 实时大规模知识图谱构建:谯从彬介绍了GeaFlow,一种开源实时图计算引擎,并阐述了其在实时图推理、分布式计算和存储、增量图计算等方面的能力。 4. 湖仓一体技术实践:谯从彬讨论了传统数仓的局限性,并提出了图数仓方案的优势,包括存储冗余小、数据更新容易以及可扩展性好等。 5. 未来展望:谯从彬对图湖仓一体规划进行了介绍,包括功能规划、项目计划以及捐献给Apache软件基金会等。 总之,谯从彬的演讲涵盖了实时GraphRAG技术、大规模知识图谱构建以及湖仓一体技术等方面的内容,分享了他的实践经验和未来展望。
"实时GraphRAG技术挑战有哪些?" "湖仓一体技术如何解决知识图谱问题?" "Graph Store在实时图计算中的作用是什么?"
客服
商务合作
小程序
服务号
折叠