《谯从彬-大规模实时GraphRAG湖仓技术和实践.pdf》由会员分享,可在线阅读,更多相关《谯从彬-大规模实时GraphRAG湖仓技术和实践.pdf(26页珍藏版)》请在三个皮匠报告上搜索。
1、大规模实时GraphRAG湖仓技术和实践演讲人:谯从彬 实时GrpahRAG挑战01实时大规模知识图谱构建02湖仓一体技术实践03未来展望04目 录CONTENTS实时GrpahRAG挑战GraphRAG链路L LL LM M用用户户检检索索器器任务描述查询样本提提示示词词工工程程知知识识库库预训练微调搜索相关文档提示词+提示词查询结果索引训训练练数数据据领领域域数数据据智智能能体体VectorRAGGraphRAGTableRAG大规模知识图谱面临挑战知识图谱领域数据构建检索图存储规模:大规模存储和计算问题图特征更新:实时和增量更新难图数据检索:查询耗时过长实时大规模知识图谱构建GeaFlo
2、w:开源实时图计算引擎SQL+ISO/GQLDSLParser/OptimizerSchema/TypeUDF/ConnectorAPIFrameworkSchedulerStream APIGroupCycle SchedulerState MachineFault TolerantRuntimeWorker ManagerTask RunnerWindowShuffleStateKV StateGraph StateIndexPush DownPersistencySchemaPipelineStatic Graph APIDynamic Graph APIRay/K8SMemory Ma
3、nagerKey GroupState OperationGeaFlow核心能力图研发平台01图表融合05离线/增量图计算04图查询服务02图构建能力03图存储能力解决大规模知识图谱问题分布式计算和存储数据规模过大增量计算实时增量更新在线图查询高性能检索流批图一体分布式计算Physical PlanCycle SchedulertailheadschedulereventeventDriverResource ManagerMasterCycleGraph StoreshardshardshardIndexMemory Managergraph store apiRuntime Framewo
4、rkDispatcherShuffle ManagerWorkerjobGQL/SQLTaskRunnerLogical PlanPlanCluster ManagerHA ManagerHeartbeat流式增量图计算12nK-HopWCCSSSPK-CorePageRank通用图算法GremlinGQL标准图遍历UDF自定义图算法分布式增量图计算输出图特征图点边解析Graph Store实时数据Timeline t1 t2实时图推理javajavajavaGeaFlow WorkerPython Processpythonpythonpythonc/c+Graph StoreGNN Mod
5、elInfer Env虚拟环境进程创建销毁依赖管理内存共享实时图计算Infer EnvInfer ContextInfer RunnerInfer APIInfer Sessionshare memoryUser Function在线图查询Graph StoreClientCoordinatorCoordinatorCoordinatorOLAP Server OLAP Worker12nDSL Planer实时大规模知识图谱技术总结GeaFlow领域数据构建Graph Store查询更新实时输入实时输出分布式计算存储实时图推理增量图计算在线图查询图特征检索返回结果GNN Model知识图谱输
6、出湖仓一体技术实践传统数仓困难交易记录用户浏览记录购物车UIDUIDUIDUIDUIDUID1nnn11用户交易记录购物车浏览记录宽表存储冗余大数据更新困难数据一致性差可扩展性受限宽表方案问题计算开销大时效性差多表JOIN问题图数仓交易记录用户浏览记录购物车UIDUIDUIDUIDUIDUID1nnn11图用户交易记录浏览记录购物车点边点边独立描述存储,存储冗余小点边数据独立更新,保障一致性可扩展性好图方案优势图数仓系统接口层图分析服 务多度关联分析单点查询图计算图算法AI分析图挖掘实 时图构建Binlog消息中间