1、机器视觉与类人认知廖理心DaoAI 具身智能研究院 人工智能科学家从一张图像学习,仅凭一张图像就能识别新对象一窥即知语言驱动通过语言描述问题,例如缺陷定位,目标检测等错误驱动持续改进通过错误进一步学习第一次未察觉 被指出 后续识别更精准人类认知是什么?机器视觉技术的发展传统计算机视觉 人工特征工程 局部描述子 分割与部件模型人工神经网络 感知机与反向传播 多层感知机和早期巻积网络深度学习(CNN时代)深层巻积、循环、对抗生成网络 端到端学习、迁移学习与微调视觉大模型 Transformer&自注意力 大规模自监督/弱监督预训练 多模态&Prompt工程视觉大模型推动AI视觉迈向泛化与多模态应用
2、第一个Transformer架构视觉模型图文语意对齐零样本分割范例 1-零样本图像分类模型无需样本也能识别新类别2-通用图像分割无需针对特定任务微调3-异常检测无需定义缺陷,也能精准识别4-开放集目标检测无需预定义类别,也能识别全新目标5-多模态检索与理解图文联动、跨模态理解打破视觉与语言的边界 视觉大模型正在迈向类人感知迈向泛化与理解驱动AI走进真实生产环境模型数量数据需求任务适用框架接口部署维护视觉智能的跃迁每个任务一套模型:分类、检测、分割、姿态、配准、深度大量标注数据,针对场景反复收集 单一任务专精 各模型独立 APISDK部署多份模型,迭代成本高少量基础模型统一模型一次预训练多任务可
3、用零少样本微调,Prompt 驱动新场景跨任务&多模态:图文、分割、检测、深度、异常统一 Prompt 或多模态接口一次部署,多场景复用,运维成本低手工特征工程SIFT、HOG、Gabor浅层分类器SVM、决策树、KNN强依赖先验知识设计+调参耗时分阶段流水线提取 选择 分类自动特征学习端到端卷积网络深度神经网络多层感知机/CNN少预设假设大量数据驱动统一流水线输入 网络 输出深度学习深度学习(专用模型)视觉大模型传统方法视觉智能的跃迁场景1大量资料收集模型训练模型训练模型训练基础模型训练模型部署场景2场景3运行模型1模型部署模型部署模型部署场景1统一模型运行模型2运行模型3深度学习-专用模型
4、场景2场景3视觉大模型工业质检中的AI变革工业质检的价值与挑战 核心应用场景:机器视觉在质量控制中的关键作用 样本稀缺:缺陷种类繁多且样本数量极度有限 传统方法局限:全监督模型难以实现高效、稳健的检测视觉大模型的创新优势 预训练优势:在海量数据上学习,具备卓越的泛化能力 专家级识别:多模态深度理解,像人一样洞察细微缺陷 零微调部署:无需针对新任务额外调优,即可应用于新领域CLIP 在工业质检中的应用 统一语义空间:将图像与文本映射到同一向量空间 Prompt 驱动:灵活设计提示,实现零样本/少样本下的精准定位 异常分类:实时识别生产线上的各类异常现象CLIP驱动零样本异常检测通过组合提示以及窗
5、口级特征与文本对齐 实现零样本异常检测零样本+WinCLIP:Zero-/Few-Shot Anomaly Classification and Segmentation.(Jongheon Jeong,et al.2023.)多语义文本提示待测图像输入图文相似度计算异常得分异常区域CLIP驱动少样本异常检测通过组合提示以及窗口级特征与文本对齐 实现少样本异常检测+WinCLIP:Zero-/Few-Shot Anomaly Classification and Segmentation.(Jongheon Jeong,et al.2023.)+多语义文本提示图文相似度计算文本特征异常得分少樣
6、本图像输入图像相似度计算视觉特征异常得分异常区域专家知识:颜色缺陷,孔洞,黑斑,灯芯孔,污点,蜡烛Segment Any Anomaly without Training via Hybrid Prompt Regularization.(Yunkang Cao,et al.2023.)+开放集目标检测模型(GroundingDINO)TopK 异常区域通用分割模型(SAM)目标描述:图像中包含四个外观相似的蜡烛,最多只有一个蜡烛存在异常。异常区域的面积不超过该蜡烛整体面积的 30%。+融合专家知识与开放集模型利用专家知识和上下文信息提供可靠的文本提示 实现广泛的异常检测无异常样本实现建模与判