1、110机器感知2 中科院研究员山世光:从看脸到读心:基于视觉的情感感知技术整理:智源社区张鲁洋中科院计算所研究员山世光的报告主题是从看脸到读心:基于视觉的情感感知技术。在报告中,山世光提到:“人脸识别已近尾声,世间一切尽在脸上,我们能够从脸上看到更多的内容,若干年后我们很可能从“看脸时代”进入到“读心时代”。读心对于我们打造有温度、有情商的 AI 是至关重要的。”所谓读心,即通过人的外显语言或行为来推测、估计出人的内在心理和精神状态,从情感角度对一个人进行评估。使用机器解决“读心”问题,可以更好地预知危险、评估风险,帮助警务人员破案等。山世光在报告中介绍了他所带领的团队在该领域的一系列研究成果
2、。包括精神疾病辅助诊断技术、人脸表情识别、面部动作检测、自监督学习以及基于视频的遥测式生理信号的测量等。当然,现阶段让机器像人一样具备察言观色的能力,还有很长的路要走;山世光认为,我们不能操之过急,而需要先立足于解决现存的问题,比如弱信号检测、数据匮乏等。以下为山世光的演讲正文:图 1:人脸识别研究已接近尾声在过去的八年中,人脸识别技术取得了非常大的进步。但从某种意义上说人脸识别研究已经接近尾声。但这并不意味着我们已经把人脸上的信息读完了我们人类本身除了识别人脸,还能够从脸上得到更多的信息。例如中医可以望、闻、问、切,其中的望就是通过看脸来诊病;普通人也都具备察言观色的能力,这是我们在人3类社
3、会中生存的基本能力。因此,人脸技术的下一步也许将从“看脸时代”进入到“读心时代”。读心,对我们打造有温度、有情商的 AI 至关重要。但什么是读心?本质上就是通过人的外显语言或行为推测、估计出人内在的心理和精神状态的技术,从情感角度对一个人进行评估。其内涵和外延有三个层次:1)瞬态特征,即生理指标,包括身高、体重、心律、呼吸、血压、血氧、眨眼率、视线等。2)短期特征,即心理状态,包括疲劳、专注、亢奋、无聊等内心在相对较短时间内的状态。3)长期特征,即精神状况,主要涉及到自闭症、抑郁症、焦虑、狂躁等,甚至是人格特质。AI 如果能够识别出以上三个层次的心理和精神状态,在实际应用中将起到重要作用。比如
4、,在自动驾驶领域,可以通过对司机疲劳状态进行评估,从而可以预防危险的驾驶行为;在精神健康领域,可以通过计算机视觉技术,获取更多客观化的评估;在机器人领域,可以利用这些技术让机器人拥有对人类情感进行理解和反馈的能力,使其能够更好地陪护人类;也可以将这些技术应用于用户画像的评估,比如贷款风险评估、人力资源评估等。在精神性疾病的辅助诊断方面(包括孤独症、抑郁和焦虑等),国内、外已经有很多研究者在进行研究:2018 年,来自澳大利亚几个大学的联合团队采用多模态融合的方法1,将语言特征(Paralinguistic)、头部姿态特征(Headpose)以及眼神特征(Eyegazebehaviors)相结合
5、,对抑郁症与健康人群的分类。融合之后的分类精度达到 88%。2018 年,郭国栋团队也利用深度学习进行了抑郁症诊断的研究2,他们通过融合面部特征(Appearance)和动态特征(Dynamics)进行抑郁状态的评估。在 AVEC2013 数据集(包括 82 个人、150 段视频)上进行实验,结果达到 7.58(MAE)、9.82(RMSE)。虽然误差还不是很理想,但精度却非常得好。李飞飞团队在 2018 年也做了基于 3D 人脸表情和语音的抑郁程度评估工作3,其使用的是 CasualCNN 方法,最终获得了 83.3%Sensitivity 和 82.8%Specificity 的实验结果。
6、国外也有一些人格计算(PersonalityComputing)方面的工作,即通过一个人的照片或视频,对其进行第一印象的分类。今年 6 月,ScienceReport 上发表了一篇来自俄罗斯团队的文章4,他们通过照片评估一个人的 Big-five 人格分类(外向性、亲和性、尽责性、神经质性和开放性)。这类工作在之前也有人研究,但是这篇文章使用了一个大规模的数据集,收集了 12447人的 31367张照片,每个人对自己的人格进行报告。他们用深度神经网络去做评估,结果显示模型的评估精度基本和人的直觉评估吻合。事实上这项工作在国外很早就有研究,2014 年 IEEETrans.onAffective