1、视频云+人工智能阿里巴巴-iDST 刘扬计算机视觉和机器学习在消费级视频中的应用Alibaba iDSTAlibaba iDSTinstitute of Data Science and Technologies“数据科学与技术研究院”,成立于2014年,由一批杰出的科学家及工程师组成,分布在杭州、北京、西雅图、硅谷等地,是阿里巴巴负责人工智能技术研发的核心团队,打造涵盖图像视频、语音交互、自然语言理解、智能决策等的人工智能核心技术,是阿里巴巴NASA计划的人工智能大脑起点消费级视频视频AI技术VENUS平台未来展望2 3 4 51Starting PointConsumer VideoVid
2、eo Ai TechnologiesVENUS PlatformThe FutureAI 人工智能技术Cloud 云计算Media 媒体大数据User 海量用户视频AI的起点机器学习模式识别计算机视觉存储分布式计算流媒体处理广播电视视频网站短视频视频直播直播主播视频网站用户短视频达人新闻从业者生成编辑分发体验消费级视频生命周期专业设备 手机专业剪辑 特效、滤镜、美颜节目单 推送、个性化观看 交互视频人工智能技术分类视频理解视频分类视频标签视频多模态分析视频搜索视频指纹视频相似性跨媒体视频检索视频编辑视频结构化分析视频摘要视频植入视频内容理解技术视频分类语音识别人物识别OCR视频标签视频多模态分
3、析物体识别场景识别视觉语音音频运动ACM多媒体大会斩获视频分类竞赛冠军在ACM MM17大规模视频分类竞赛中,平均准确率(mAP)达到87.41%,获得冠军。借助于阿里云ODPS,我们可以实现大规模的视频分析处理能力,日处理规模为百万视频。VideoOcr:0:contents:吴,敏,霞,美,翻,众,人,count:7,pt:227,295,381,295,381,321,227,321 ,contents:工,作,室,晒,图,count:5,pt:110,295,225,295,225,321,110,321 ,contents:高,“,清,“count”:3,“pt”:554,32,59
4、9,32,599,48,554,48 OCROCRVideoAsr:begin:0,11625,23250,end:11625,23250,27016,result:退役之后,吴敏霞越来越多的出现在我们的视野当中,出席活动参加春晚离开了热爱的赛场,霞姐也在生活中寻找着新的方向。,昨天我们家工作室发布的第一条微博,一波美照的流出,别让人不禁感叹,没想到你是这样的家姐,不管是帅气的一字马,还是,ASRASRAcousticAcoustic1.多模态信息分析MotionMotionMotion pic from Wang et al.Action Recognition with Improved
5、Trajectories.ICCV 20132.物体识别与定位支持1000+物体的检测,5000+物体识别Hollywood Head数据集,mAP=80.41%,the state-of-art 7.7%Brainwash数据集,mAP=88.47%,the state-of-art 10.5%Tags:人物 学校 教室 青年 教育 房间 小孩3.目标跟踪 跟踪采用DCF框架,结合颜色模型 使用BACF进行候选区域扩充,解决目标快速移动的问题 采用Log-Polar进行尺度估计Classification+regression4.事件/行为/动作/场景识别THUMOS14数据集,mAP=26
6、%(IoU=0.5),the state-of-art 2.7%整视频处理不用采样,多尺度多任务学习,加速比20:15.视频同款商品检索技术创新:定义视频同款匹配为一个 sequence-to-single asymmetric matching 问题,通过LSTM对物体时序appearance进行encoding,有效克服人体姿态、camera 移动、视频近景、遮挡 等影响“Video2Shop:“Video2Shop:ExactlyExactly MatchingMatching ClothesClothes inin VideosVideos toto OnlineOnline Shop