《赵晨阳 使用多模态模型构建适用于 LLM 搜索的数据.pdf》由会员分享,可在线阅读,更多相关《赵晨阳 使用多模态模型构建适用于 LLM 搜索的数据.pdf(33页珍藏版)》请在三个皮匠报告上搜索。
1、使用多模态模型构建适用于 LLM 搜索的数据演讲人:赵晨阳矩阵起源-AI产品研发负责人010102020303040405050606目录引言与背景多模态模型的混合检索架构GPU加速的数据处理与模型优化 LLM辅助的检索结果筛选与优化引导式数据标注与自动化数据洞察未来与展望引言和背景大模型时代企业面对的数据需求和挑战构建一个自动杠杆收购(LBO)智能体,用于从非结构化的10-K文件和收益报告中自动提取并填充结构化数据。某金融行业从已有文档中快速提取知识,并依赖结果构建AI智能体。某销售行业CRM从海量元器件图样中抽取部件信息,作为结构化数据存储,构建自动化的元器件数据录入和管理系统制造业IoT
2、场景在海量用户数据基础上,快速依据用户场景对数据进行分类,标注,构建Prompt-tuning数据集。构建智能家居多模态控制智能体某智能家居应用需求的爆发大模型落地需要”知识”02通过指令引导,企业可以教会大模型如何对特定的场景和数据做出反馈,提高模型的适用性和效果。企业需要根据业务需求设计有效的指令和Prompt,以引导大模型进行正确的学习和应用。03训练数据的质量和多样性直接影响大模型的思考宽度和深度。SFT(Supervised Fine-Tuning)技术可以帮助大模型更好地理解和执行特定任务。企业需要收集和整理大量的行业相关数据,以训练和优化大模型,使其能够更好地适应特定的业务场景。
3、01通过指令引导,企业可以教会大模型如何对特定的场景和数据做出反馈,提高模型的适用性和效果。企业需要根据业务需求设计有效的指令和Prompt,以引导大模型进行正确的学习和应用。训练训练数据数据Prompt高 质 量高 质 量“知 识知 识”的 重的 重要 性要 性I n-C o n t e x t大模型应用落地的鸿沟我们有几十PB的历史媒体素材库,散放在各种系统、硬盘、网盘等空间里,有历史报刊的数字化文件,采访的音视频,大量的图片等等。我们的产线正在由多种设备实时生成各种格式的文件,包括csv、txt、pdf、word、jpg和mp4,这些都是我们产线实际情况的体现。但是目前只有结构化数据被自
4、动处理,其他类型的数据必须通过大量的人工作业来处理。我们的先进产品是精密的医疗器械,需要相当的专业知识才能操作。我们拥有过去很多年留存的的培训材料,包括介绍视频,实际操作说明甚至各种问题案例。来自某医疗器械公司来自某大型传媒集团来自某电子制造公司非结构化数据的广泛存在非结构化数据的广泛存在在企业中,非结构化数据如历史报刊数字化文件、音视频采访资料和图片等占据了大量存储空间。这些数据形式多样,难以直接用于分析和决策,需要通过人工方式进行处理和转化。非结构化数据的广泛存在增加了数据管理和分析的复杂性,限制了企业对数据价值的挖掘和利用。非结构化数据的价值挖掘非结构化数据的价值挖掘非结构化数据中蕴含着
5、丰富的信息和知识,如通过自然语言处理技术可以从历史报刊中提取社会变迁的脉络,从音视频中分析情感和趋势。企业需要开发和应用先进的技术,如多模态模型,来挖掘非结构化数据的价值,以支持决策和创新。结构化与非结构化数据的处理差异结构化与非结构化数据的处理差异结构化数据如CSV、TXT等可以通过自动化工具进行处理和分析,而非结构化数据则需要更多的人工干预,这不仅增加了成本,也降低了数据处理的效率。企业需要投入大量资源来处理非结构化数据,这在一定程度上阻碍了大模型技术的应用和落地。基于多模态的混合检索架构传统索引,向量索引以及标准化挑战多源数据的融合与标准化处理的挑战不同模态数据的清洗与分离特征提取和向量
6、化处理特定模型的数据增强数据预处理如何统一多模态信息检索性能与延迟优化存储的可扩展性和效率数据版本管理系统集成方案多跨模态语义对齐结果重排序策略检索结果的相关性评估检索结果的相关性反馈检索效果优化多源数据的融合与标准化处理的挑战混合多模态数据存储,统一元数据管理,数据向量化及HTAP能力支持统一数据源接入、存储和索引统一数据源接入、存储和索引多端数据源的数据连接器,AI驱动的新型数据ETL能力,包括切片、清洗、打标签和转换。AIAI驱动的数据治理工作流驱动的数据治理工作流多端流式数据辅助优化RAG或者精调模型效果。模型迭代优化模型迭代优化跨模态及格式的,混合语义检索,全文检索和结构化查询的混合