《阿丘 工业领域视觉大模型落地实践.pdf》由会员分享,可在线阅读,更多相关《阿丘 工业领域视觉大模型落地实践.pdf(17页珍藏版)》请在三个皮匠报告上搜索。
1、阿丘科技工业领域视觉大模型落地实践戴维(VP)2025 Aqrose Technology Co.,Ltd.All rights reserved.目录一、大模型 vs 小模型二、大模型落地难点在哪里三、如何解决落地难点四、阿丘在结构件领域落地实践2025 Aqrose Technology Co.,Ltd.All rights reserved.大模型 VS 小模型参数规模数据处理能力泛化性能算力要求小模型百万级(M)1、数据量和数据多样性上有一定限制2、对数据质量和预处理要求相对较高学习不到通用知识,仅能用于定义好范围特定场景:人脸识别、车牌识别、文本翻译.极低大模型十亿级(B)1、可从大
2、规模的文本、图像、音频等多模态数据中学习知识2、对数据中的噪声和不一致性有较强的鲁棒性具有很强的泛化能力,在未见数据和新任务上往往能表现出较好的适应性:既能识别人脸又能识别车牌中大模型:参数量更大,性能更好,通用能力更强2025 Aqrose Technology Co.,Ltd.All rights reserved.大模型分类按应用领域通用大模型L0:适用于多种任务和领域。例如DeepSeek-R1,Qwen-VL行业大模型L1:专为特定行业设计,增强专业性。例如煤矿大模型,工业结构件大模型垂直大模型L2:聚焦于具体任务或应用场景。例如磁材检测大模型,玻璃检测大模型按技术类型分单模态大模型
3、LLM语言大模型:主要处理文本数据;例如ChatBot对话机器人:ChatGPT、豆包;代码生成:Cursor视觉大模型:主要处理图像数据,可用于图像识别、图像生成、图像分割等任务;例如VIT、StableDiffusion音频大模型:以处理音频数据为主,实现语音识别、语音合成、音频分类等功能;例如OpenAI的Whisper 多模态大模型:结合多种不同类型的数据模态共同输入,如文本-图像、文本-音频、文本-视频等,实现更强大和全面的理解与生成能力VLM视觉语言大模型:输入图像+语言,输出语言、图像或目标相关信息;例如SAM、Qwen2.5-VL、DALL-E视频生成大模型:输入文本,输出视频
4、;例如OpenAI的SORA.2025 Aqrose Technology Co.,Ltd.All rights reserved.大模型引领工业视觉的下一代技术革命小模型时代做法大模型时代做法检测场景【跨型号能力】单一型号训练模型单一型号使用【缺陷收集方式】当前场景数据从0开始收集缺陷样本【模型迭代方式】现场持续迭代模型,稳定周期2周+【跨型号能力】基于有限型号训练模型,所有型号复用【缺陷收集方式】复用所有同缺陷类型工业数据,无需从0收集【模型迭代方式】打造L2场景模型后,现场无需迭代OCR场景【预置模型能力】泛化性能差,复杂背景或字符变化导致识别率下降【模型迭代方式】现场持续迭代模型,且由
5、于OCR场景生产连续性和多变性,迭代需要持续进行【预置模型能力】泛化性强,复杂背景及字符变化兼容【模型迭代方式】无需迭代,即插即用厂内视频监控场景【跨场景能力】单一场景训练模型单一场景使用【抗干扰能力】背景或操作对象变化会导致指标下降【样本收集方式】操作工协助拍摄有限视频【模型迭代方式】现场持续迭代,稳定周期2周+【跨场景能力】具备跨场景的通用对象识别能力【抗干扰能力】对背景或操作对象变化有极高的容忍度【样本收集方式】基于海量自然场景数据+复用含相同对象场景数据【模型迭代方式】无需迭代,即插即用2025 Aqrose Technology Co.,Ltd.All rights reserved
6、.大模型在工业视觉领域的应用接近爆发的临界点然而,落地往往困难重重2025 Aqrose Technology Co.,Ltd.All rights reserved.工业视觉大模型落地痛点:算力、数据不足大模型算力要求高训练高性能视觉大模型需要GPU集群,成本过高未看到应用成效前很难高投入做基础算力建设视觉大模型算力普遍要求高端机房企业数据质量差工业视觉大模型应用需要高质量的工业图像数据支撑当下企业的工业图像数据分布在各个独立设备上,无法汇总企业数据保密性强关键工艺数据不可泄露关键质量数据不可泄露2025 Aqrose Technology Co.,Ltd.All rights reserv