《浙江大学:物联网安全专题报告语音安全(84页).pdf》由会员分享,可在线阅读,更多相关《浙江大学:物联网安全专题报告语音安全(84页).pdf(84页珍藏版)》请在三个皮匠报告上搜索。
1、物联网安全Internet of ThingsSecurity专题一:语音安全冀晓宇浙江大学目录物联网语音基础知识物联网语音安全定义物联网语音信号感知安全物联网语音内容识别安全物联网语音声纹识别安全物联网语音意图理解安全2语音基本概念什么是语音在语言学中,语音可以被认为是用来表示语言的声音符号,是人的发音器官所发出来的具有一定意义的声音语音是一种有意义的声音信号,它在自然界中以声波形式存在,可转换为电信号,并通过采样等方式以数字信息的形式保存31 https:/zh.wikipedia.org/wiki/%E8%AA%9E%E9%9F%B3语音基本概念语音处理:又称语音信号处理,是研究语音发声
2、过程、语音信号的统计特性、语音的自动识别、机器合成以及语音感知等各种处理技术的总称语音处理的目的:从语音信号中计算出一系列参数,高效传输或存储语音编码,或通过分析计算实现特定用途,如语音合成,说话人辨识等4Q:语音如何传输?语音信号处理的发展阶段一:萌芽阶段1876年贝尔发明电话首次用声电、电声转换技术实现了远距离语音信号传输1939年Bell实验室Homer Dudley发明第一个声码器(vocoder)在发送端,从话音中提取参数特征;到接收端,根据参数重新合成,但是合成话语的自然度较差首次提出了话音模型的思想(参数模型)1947年Bell实验室发明了语谱图仪,意味着自动语言识别(Autom
3、atic Speech Recognition,ASR)的开始,不过刚开始时是人工分析完成语音识别的5语音信号处理的发展阶段二:语音合成、识别时代1948年美国Haskins实验室研制成功了“语图回放机”,将语谱图转化为语音,诞生了共振峰语音合成方法1952年BELL实验室Davis等首次研制成功识别十个英语数字的实验装置(根据第一、二共振峰位置特征);1956年Duddley等人将语音分割成元音、辅音等,改进这一识别装置1956年Olson等采用8个带通滤波器提取频谱参量作特征,研制成一台简单的声控打字机1960年Fant发表的开创性工作“语音产生的声学理论“61 https:/zh.wik
4、ipedia.org/wiki/%E5%85%B1%E6%8C%AF%E5%B3%B0语音信号处理的发展阶段三:语音处理腾飞时代1960、1970年代数字信号处理算法的突破1965年快速傅里叶(FFT)算法首次用声电、电声转换技术实现了远距离语音传输1970年代初动态时间规整(DTW),隐马尔科夫模型(HMM)1970年代初美国DARPA启动语音理解系统研究计划此后,人工智能、模式识别、神经网络、机器学习等新技术手段开始进入了语音处理领域7语音在物联网时代的发展技术进展:语音识别解决了语音识别初期面临的三大问题:依赖说话人、连续/断续发音、词汇量大小在安静背景下取得了较高识别性能实现了不同语言
5、环境下不同词汇量的识别语音识别技术取得巨大进展主要原因使用统计学习技术:基于隐马尔科夫模型(HMM)海量语音和文本数据库(语言模型)高速并行计算能力(云计算)8语谱图语谱图:语音信号的傅里叶分析的显示图形,英文为sonogram或者spectrogramX轴时间、Y轴频率、Z轴能量9共振峰共振峰(formant):用来描述声学共振现象的一种概念,在语音科学及语音学中,描述的是人类声道中的共振情形,是区分元音的关键频率最低的共振峰频率称为 f1,第二低的是 f2为什么会有共振峰?10美式英语元音 i i,u,u,的声谱图,图中显示了共振峰f1和 f2梅尔倒谱系数(MFCC)梅尔倒谱:描述人耳对于
6、频率感知非线性,梅尔刻度与线性的频率刻度赫兹(Hz)之间可以进行近似的数学换算:mel=2595*log10(1+f/700)梅尔倒谱系数:mel-frequency cepstral coefficient,MFCC,基于声音频率的非线性梅尔刻度(mel scale)的对数能量频谱的线性变换。是语音识别和声纹识别最常用的特征。在mel频域内,人耳听觉为线性。Demo:http:/ Seitzer)试图用ISDN电话线播放音乐,但速率只有128kbps,Brandenburg博士接受该任务。Psychoacoustics(心理声学)与MP3等响曲线:20-20kHz 范围里不同频率人耳听觉响度