《2020年终大会-计算机视觉:11-2.pdf》由会员分享,可在线阅读,更多相关《2020年终大会-计算机视觉:11-2.pdf(53页珍藏版)》请在三个皮匠报告上搜索。
1、胡瀚 微软亚洲研究院 视觉计算组 https:/ancientmooner.github.io/ 2020.12.20 DataFun年终大会 计算机视觉中的自监督学习 与Transformer注意力建模 2020年计算机视觉研究的三大突破 自监督学习:首次超越有监督预训练 TransformerTransformer应用于主流视觉问题(物体检测): CV和NLP在建模上有望统一 用于视图合成的神经辐射场:低层视觉的突破性进展 视觉中的自监督学习 Yann LeCun的“蛋糕” 一个关于蛋糕的故事(2019年图灵奖演讲) Credit by Yann LeCun 自监督学习为什么重要? 婴儿就
2、是这么学到这个世界是怎么工作的 Credit by Yann LeCun Linda Smith, Michael Gasser. The Development of Embodied Cognition: Six Lessons from Babies, 2005 一个关于ImageNet的故事 AlexNet (NIPS2012) ImageNet竞赛 40% 一个关于ImageNet的故事 AlexNet 有监督有监督预训练+微调的范式(2014年) 下游任务微调 语义分割 物体检测 细粒度识别 基于ImageNet图像分类的特征预训练 两个故事的结合 Facebook AI Rese
3、arch MoCo 2019.11 在7个下游任务上,无监督预 训练首次超越有监督预训练 无监督预训练+微调 自监督学习时代! 能利用无限的训练数据 向人类视觉靠近 是如何到达这里的? Deep Clustering Rotation Prediction Gidaris et al, ICLR2018 Caron et al, ECCV2018 Credit mostly by Andrew Zisserman Image GPT Chen et al, ICML2020 是如何到达这里的? FAIR MoCo 2019.11 Exemplar 2014.6 德国弗莱堡大学 Memory bank 伯克利 2018.5 图片1图片2图片3 任务:训练网络去区分每一个图片 在7个下游任务上,无监督预 训练首次超越有监督预训练微软亚研 Deep metric transfer 2018.12