• / 51
  • 下载费用:10 金币  

数字音频处理.ppt

关 键 词:
数字音频处理.ppt
资源描述:
数字音频处理 一.概念1.声音:是物体的振动引起空气的震荡,人耳对这种震荡的感觉。人耳能感觉到的空气震荡频率范围为20~20khz。人能够区分空气震荡频率的组合,当空气震荡频率的组合具有特定含义时,声音即携带信息。如语音。,2.声音的探测: 提取反映空气振荡的波形。,,3.声音的还原: 把I/V波形转化为空气振动。,4.音频的分划:人耳能听见的声音称音频。1)次声波(Subsonic):频率低于20HZ。2)超声波(Ultrasonic):频率高于20khz。5.音频信号类型: 语音、音乐及音效三种。1)语音(Speech):人的发音器官产生的声音。人发音器官产生的声音频率范围为80~3400HZ,人说话的频率范围为300~3000hz(语音信号的频率范围)。2)音乐:乐器发出的规范和确定符号化的声音。3)音效:自源界其它事物发出的声音。,6.声音的三要素: 音调、音强及音色。1)基频与音调:波峰是声波曲线中极大点。每两个相邻极大点决定一个频率的波,音频曲线可能由多个频率的波合成。在一个可区分的音中,幅度最大和波峰间距大约相等的波的频率为基频。基频也称音调。音乐中的音阶也称音调,是一个固定频率的声波。,2)谐波与音色:在一个音的基频上出现的更高频率的波称泛音,也称谐波。谐波就是音色。如果在基频中加入有规则的音色,声音可能更加动听和更有渗透力;但不规则的泛音可能是噪声。3)幅度与音强:声波曲线中信号基线到波峰的高度称幅度。一个音的平均幅度反映了音的强弱,也称音强(音量)。音强的单位一般为分贝(dB),人能够分辨3dB以上的波动。声波曲线中有强波也有弱波。动态范围反映了强弱波音量相对变化范围。动态范围=20×log(最大强度/最小强度) (dB),4)音宽与频带:信号波中变化最快波的频率到变化最慢波的频率区域称频带(差为带宽)。音频信号的带宽称音宽。如语音信号的带宽为3.2khz。频带为0~3.2kHz。,5)信噪比(Signal to Noise Ratio,SNR):是衡量声音质量的一个指标。SNR定义:有用信号的平均功率SNR=——————————噪声的平均功率SNR大,噪声对声音的影响小,声音的质量好。,二.数字音频的获取数字音频获取过程:,1.采样1)模拟信号:在时间轴上任意两点之间有无数的时间点;任意时间点对应的幅度值可能是一个无限不循环的小数。因此要完全无误地用数字表达一小段模拟信号是不可能的。2)模拟信号的离散:我们可以每隔一个时间段t0取一个点的幅度值,模拟信号就成为了离散信号。,,,,,,,3)采样频率采样频率fs=1/t0采样间距t0是确定音频离散信号还原质量的关键问题。 t0大可以减少表示音频的数据量,但有可能使音频失真。,,,采样频率应随曲线变化的快慢也变化。一个曲线的变化频带为fmax—fmin。奈奎斯特采样频率 fs=2×fmax如数字电话系统中,语音最高频率为3.4kHz,采样频率应大于6.8kHz,实际定为8kHz。数字电话语音传输过程:,,数字电话语音传输过程:,A/D(Analog/Digital):模拟值/数值值转换器。 D/A(Digital/Analog):数值值/模拟值转换器。,2.量化设模拟信号的幅值在[-V,+V]之间连续变化,要表示所有的是幅值是不可能的,必须对幅值离散化,既用有限的幅值代表[-v,+v]之间的所有值。对一个采样点来说,就是把该点对应模拟幅值用最接近的离散幅值表示,该过程称为量化。量化分为均匀量化和非均匀量化两种。均匀量化把幅值区间[-v,+v]等距分为L个离散幅值。幅值间距:d=2v/(L-2) (+0,-0各计一个幅值)离散幅值: xi=d×i (i 为正负整数,|i|=(L-2)/2),非均匀量化把幅值区间[-v,_v]分成大小不同的区间,再对每个区间进行均匀量化。目的是使小信号幅值量化引入的量化噪声的信噪比与大信号量化的信噪比均衡。如:均匀量化区间[-3.5v,+3.5v]为16个离散幅值。间距d=2×3.5v/(16-2)=0.5v0.25v 用0.5v表示,引入噪声0.25v,信噪比为: SNR小=0.25/0.25=10.325v 用3.5表示,引入噪声0.25v,信噪比为: SNR大=0.25/3.25=0.077,1)均匀量化: 幅值区间[-3.5,3.5v],16个离散值,间距d=0.5v。,2)非均匀量化:均匀量化的缺点是小幅值量化引入的噪声的信噪比太大,使整体引入的平均信噪比过大。非均匀量化把规格化幅值x(|x|=1)按幅值从小到大划分为区间范围从小到大的不同区域,使用压缩函数F(x)把这些不同区域压缩到区间范围大约相等的区间,再对这些区间进行均匀量化。F(x)的反函数F-1(x)称扩张函数。设:整个信号幅值区间[-v,+v],某信号幅值为X,规格化幅值x=X/v (-1=x=1)。CCITT(Consultative Committee International Telephone and Telegraph 国际电报电话咨询委员会 )国际标准使用u律(u-Law)和A律(A-Law)两种压扩算法。,A律压缩函数:A|x|sgn(x)—————— (0=|x|=1/A)1+lnA FA(x)=1+ln(A|x|)sgn(x)—————— (1/A=|x|=1)1+lnAx为规格化信号幅值(|x|=1),A为压扩参数。,,u律压缩函数:ln(1+u|x|)Fu(x) =sgn(x)—————— (|x|=1)ln(1+u)x为规格化信号幅值(|x|=1),u为压扩参数。在CCITT标准中u=255。,A律压扩算法大小幅值量化噪声信噪比比效:设实际音频信号的区间(-128cv,+128cv)。[0,+128)分划为8个大小不同的量化区间,每个区间按16个值均匀量化,区间分划如下:,1号区间的离散值为[0cv,0.0625cv,0.125cv,0.25cv……,1.9375cv] 该区间的最大量化噪声幅度为0.0625/2。 设实际幅值0.09375cv,量化幅值为0.125cv,引入噪声强度值为0.03125cv。 SNR1=0.03125/0.09375=0.333,8号区间的离散值为[64cv,68cv,72cv,076cv……,124cv] 该区间的最大量化噪声幅度为4/2。 设实际幅值126cv,量化幅值为124cv,引入噪声强度值为2cv。 SNR2=2/128=0.016,3.数字音频的技术指标1)采样频率常有8kHz,11.025kHz,22.05kHz,44.1kHz。2)量化位数量化时如果离散幅值数为L,表示这L个幅值的二进制位为n=log2L,n称量化位数。常有8位,12位,16位,32位。最小幅值1,最大位28=256,8位量化的动态范围为: 20×log(256/1)=48dB。3)通道(声道)个数同时录制和播放的声波数据的组数。音频数据获取时数据传输率:数据传输速率(bit/s)=采样频率×量化位数×声道个数,数据传输速率又称比特率或码率。,例2.1 语音信号的带宽50Hz~10kHz,音乐信号带宽15Hz~20kHz。奈奎斯特采样频率,用12位表示语音信号样值,计算这两中信号数字化后的比特率和一段10分立体声音乐所需的存储器容量。语音信号:比特率=采样频率×量化位数×声道个数=2 ×10000 ×12 ×1=240000bit/s=240kbit/s音乐信号:比特率=采样频率×量化位数×声道个数=2 ×20000 ×16 ×2=1280000bit/s=1280kbit/s=160kByte/s存储器容量= 160kByte/s ×10 ×60s=96000kByte=96MByte,比特率(码率)与音质的关系:采样频率的适当增加,可减少采样噪声而提高音质。一般采样频率为音频最高频率的2~4倍。量化位数的提高,可减少量化噪声而提高音质。一般量化位数位8~64位。总之比特率的提高,增加了存储空间,但提高了音质。,4.数字音频文件格式根据压缩和编码方式的不同,存储数字音频的文件格式也不同。音频文件格式有ASF、AU、AAC、WMA、MP4、AIFF、SND、XM、S3M、WAV、MP3及MIDI等等。常见的有WAV、MP3及MIDI。1)WAV声波文件格式简介wav是Microsoft Windows早期提供的音频文件格式。目前所有的音频播放和编辑软件都支持该格式。由于没有压缩,相对来说文件较大。wav文件由三部分组成:,wav文件由三部分组成:文件头 (说明本文件为wav、文件结构和数据字节数)数字化参数 (如采样频率、量化位数、声道数及编码算法)实际数字波形数据2.MP3文件格式简介mp3是MPEG-1 Player Lay 3中的音频压缩标准,它是一种有损音频压缩编码技术。可实现高达12:1压缩比,压缩率相对较大。采用音频知觉编码技术,削减音乐中人耳听不到的成分。Mp3可根据比特率来调节压缩音频的压缩比。比特率低,压缩后音质差,但压缩比大;比特率高,压缩后音质好,但压缩比小。,3.MIDI乐谱文件格式简介MIDI用乐器操作符号记录声音。播放MIDI时需进行声音合成。作业:看书:P17~23P40~41:思考与练习一、判断题 1.、2.、3.、5.二、选择题 1.、2.三、填空题 1.、2.、3.、4.四、简答题 1.、2.、3.、4.、8.,三.编码与压缩编码:把量化后的幅值用二进制数表示。压缩:根据波形各采样点间的关系,把数字音频进行再次编码,以减少数字音频的数据量。编码和压缩分无损和有损两种。无损压缩编码一般用统计的方法对量化的幅值进行统计后重新编码。有损压缩编码会对原数字信号造成失真。编码和压缩分三类:1.波形编码:根据量化后的数字波形变化情况和人耳对不同频率信号的不同敏感性对量化后的数字波形进行编码。如增量调制(DM)、PCM(Pulse Code Modulation)、ADM(Adaptive Delta Modulation)、ADPCM(Adaptive Differential PCM)等等。,PCM是量化后的编码,光盘输出的CD数字音频输出编码为PCM。2.参数编码:把一段音频信号用某种模型表示,根据采样点的值,求出模型中的参数,用参数编码代替该段音频信号。压缩率高,但计算量大。3.混合编码:结合了两种及以上编码方式的编码。教材中P24 2.3.2 编码方法不讲。,四、音频数据标准音频编码标准有电话质量音频压缩编码技术标准、调幅广播质量音频压缩编码技术标准、电视和视频点播中音频压缩编码技术标准。,五、声卡接口1.声卡图,1)电话自动应答设备接口(TAD,Telephone Answering Device): 它与MODEM卡上的相应端口相连接,配合软件可使电脑具备电话自动应答功能。2) 模拟CD音频输入接口(CD IN):是一个3针或4针的小插座,作用是将来自光驱的模拟音频信号接入声卡,并直接由声卡的输出端放出。3)数字输出接口该接口为黄色,用于输出数字音频信号。配合声卡上的AC-3解码功能,就可输出数字音效,令观赏DVD等影片时更加逼真。,4)线性输入插孔(LINE IN):该接口为蓝色,作用是将来自收音机、随身听、或电视机等任何外部音频设备的模拟声音信号输入电脑。可用于录制电视节目伴音、将磁带转成MP3等。 5)话筒输入插孔(MIC IN):该接口为红色,可接连适合电脑使用的话筒作为声音输入设备。用于录音、娱乐及语音识别等。可用来打网络电话、语音聊天和唱卡拉OK等。 6)线性输出插孔(LINE OUT): 该接口为绿色,它负责将声卡处理好的模拟声音信号输出到有源音箱、耳机或其他音频放大设备(如功放)。这是第一个输出孔,相当于普通2.1声卡的扬声器输出插孔(PEAKER)。,7)数字音频输出插孔(SPDIF OUT):Sony/Philips Digital InterFace。8)游戏/MIDI插口用于连接游戏杆、手柄、方向盘等外接游戏控制器,也可连接外部MIDI乐器(如MIDI键盘、电子琴等),配以专用软件可将电脑作为桌面音乐制作系统使用。9)数字CD音频输入接口(CD SPDIF)作用是接收来自光驱的数字音频信号,最大限度地减少声音失真。光驱的Digital Out接口与声卡上的CD SPDIF输入端连接,可以得到比模拟CD音频要更纯净的音质。,10)辅助音频输入口(AUX IN):负责把来自电视卡、DVD解压卡、MPEG编/解码卡等设备的模拟声音信号输入声卡。这样就可使各种设备输出的声音信号都通过声卡送至音箱,避免了反复插拔信号线。 11)声音处理芯片:是整块声卡的核心部分,相当于声卡的大脑。包括WAVE波形的采样与合成、MIDI音乐的合成以及混音器、效果器的功能都在此芯片内部实现。 12)扩展功能插针:通过数据线接出,主要用于扩展卡上的输入输出接口,适合一些比较专业的设备。,2.声卡模块图:,CD SPDIF,六、MIDI音乐合成MIDI(Musical Instrument Digital Interface)是用记录乐器手弹奏乐器的细节来表达声音,如何种乐器,按的乐器键或位、力度及时间。乐器手的每一个动作表示为一个指令,一个乐器的乐段可表达为动作指令的时间序列集合。多乐器的乐段可表达为多组动作指令序列。MIDI优点:码率低。MIDI缺点:只能表示音乐,不能表达语音和自然界的声音。,1.MIDI音乐生成过程,音序器:是编辑、修改及录制MIDI音乐的软件。,2.MIDI乐谱文件格式简介MIDI文件包括一个头文件和多个轨迹块,每个轨迹块包含一组指令序列(相当于一个声道,也称通道)。MIDI规格(GM):GM规定了128种不同音色乐器的音符序列。可提供16个音轨(通道)。3.MIDI音乐合成器MIDI数字音频的每个声道是指令序列,不是二进制幅值,不能通过D/A转换为模拟信号,只能通过Midi合成器产生每个指令所指乐器和音调对应的数字波形。,MIDI合成方式:FM(Frequency Modulation)合成:理论上任意波形可由多个不同频率、幅值及位相的正弦波合成。但实际上由于合成器上最多只有四个正弦波发生器,因而合成的声音失真度太高。波形表合成:把每类指令各音调对应的数字波形存储在ROM中,在合成时根据指令所示音色和音调从ROM中读出对应数字波形,再根据力度和时间调整波形。,七、语音识别语音识别是通过文字产生声音(Text To Speech,TTS)或通过音频波形识别出其中包含的语音对应的文字和含义(Speech Recognition,SR)。1.TTS技术1)基本概念TTS的目的:使计算机能以清晰自然和携带各种各样情绪的声音朗读文本。TTS声音合成分综合和连贯两种。综合合成过程:对文本进行单词分析,确定单词的发声(如单词的音标或拼音),把这些音素送入软件合成器合成声音。这种方式是一个个单词发声,不带感情及机械式发声。,连贯合成过程:对文本进行语义、词法及语法分析,从声音库中读出各单词、词组的录制音频通过修整后合成声音。这种声音连贯自然。如果声音库中没有录音的词和词组,TTS就只能另寻它法合成声音。,2)TTS系统的组成,文本分析:对文本进行语义、词法和语法分析。韵律分析:分清词、词组及句子的声调、语气、停顿方式、时间长短及可能的连读等等。生成韵律格式表达。其生成是基于规则的方法。语音合成:韵律表达,运用综合和连贯合成方式合成语音。,TTS组成图,3)TTS应用领域Speech in speech out ,speech out。见教材p33,2.语音识别(speech recognition)语音识别是从包含语音的音频中识别出语音的含义及对应的文字。用途为speech in。其技术一般通过对语音数字信号处理得到一组特征参数,将其与预存的词及词组语音特征参数比较,确定语音的含义和对应文字。1)语音识别系统分类特定和非特定语音识别系统孤立字和连接字语音识别系统小词汇量、中词汇量、大词汇量及无限词汇量语 音识别系统,2)语音识别系统组成语音特征提取、模式匹配及模式训练三个方面。语音特征提取:对语音信号处理后提取各词的特征,组合为特征模式。模式匹配:根据特征模式与特征模板库中的各模板匹配,得出最好匹配模板及该模板对应的含义和文字。模式训练:根据语音样板和其含义及文字,整理为模板,存入特征模板库中。扩充识别内容和识别能力。语音单元识别:识别出词、音节或音素对应的声波段。,3)Via Voice语音识别系统为非特定人、中词汇量、连接字语音识别系统。具体见教材P34作业:看书:P29~35P40~41:思考与练习一、判断题 4.、6.、7.、8.二、选择题 5.、6.三、填空题 6.四、简答题 7.、9.、10.,
展开阅读全文
  微传网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
0条评论

还可以输入200字符

暂无评论,赶快抢占沙发吧。

关于本文
本文标题:数字音频处理.ppt
链接地址:https://www.weizhuannet.com/p-9819094.html
微传网是一个办公文档、学习资料下载的在线文档分享平台!

网站资源均来自网络,如有侵权,请联系客服删除!

 网站客服QQ:80879498  会员QQ群:727456886

copyright@ 2018-2028 微传网络工作室版权所有

     经营许可证编号:冀ICP备18006529号-1 ,公安局备案号:13028102000124

收起
展开