一、语音中相位的听觉感知实验研究(论文文献综述)
崔智恒[1](2021)在《嵌入式语音识别前端处理的关键技术研究》文中研究表明自二十一世纪以来,随着语音识别技术和嵌入式技术的迅速发展,越来越多基于嵌入式设备的语音识别系统出现在人们的工作和生活中,并发挥着重要的作用。然而在实际语音识别的环境中可能会伴随着各种各样的噪声干扰,影响语音识别系统的性能。因此在语音识别的前端处理过程中,对带噪语音信号进行语音增强,提高语音信号的质量就变得尤为重要。本文针对嵌入式语音识别前端处理中语音增强这一关键技术进行深入研究,提出了一种基于一阶差分阵列的双麦克风语音增强改进算法,并给出了FPGA硬件实现方案。具体研究内容如下:首先,对国内外麦克风阵列语音增强算法的研究现状进行了分析和总结,发现目前的许多麦克风阵列语音增强算法都仅仅停留在实验仿真阶段,且有多数算法的复杂度较高,不易于在资源有限的嵌入式设备实现。为了满足嵌入式设备语音增强的需求,本文选择了一种复杂度适中的基于一阶差分阵列的双麦克风语音增强算法FDM-SS。通过对FDM-SS算法的理论分析和仿真实验,发现该算法依赖于对静音段的估计,当静音段的估计偏差过大时,语音增强的性能会大大下降。针对此问题,提出了一种结合语音活动检测(FDM-SS+VAD)的改进算法,利用语音活动检测来实现对静音段的准确估计,以此来提高语音增强算法的性能。其次,使用Matlab搭建实验仿真环境,在0d B~10d B信噪比范围内,对所提出的改进算法进行仿真测试,并与FDM-SS算法进行性能对比。首先通过时域波形图进行比较,实验结果表明,在咖啡馆噪声和白噪声两种条件下,改进后算法的语音增强效果均有明显提升;然后通过语音感知质量评价PESQ得分进行比较,实验结果表明,在咖啡馆噪声条件下,改进后算法相较于FDM-SS算法,PESQ得分平均提高了13.09%;在白噪声条件下,改进后算法相较于FDM-SS算法,PESQ得分平均提高了12.48%。最后,基于FPGA对所提出的改进算法进行硬件实现。通过硬件资源和性能的权衡,设计了定点—浮点分块的算法硬件实现整体架构;完成了预处理模块、语音活动检测模块和频域语音增强模块的硬件设计;对整体设计进行了功能仿真验证及FPGA板级验证。最终结果表明,FPGA输出的增强语音与Matlab输出相比,PESQ得分下降了1.08%,在误差范围内证明了FPGA实现的结果准确性。另外,本设计处理1s的16Khz语音仅需要1.92ms便可完成语音增强,可以满足实时语音增强的需求。
郑昌艳,杨吉斌,张雄伟,孙蒙[2](2021)在《在波形网络中融合相位信息的骨导语音增强》文中研究表明已有骨导语音增强算法重点关注语音幅度谱增强,在波形合成时会因为相位不匹配导致语音质量下降。为解决该问题,提出了一种融合相位信息的波形网络(WaveNet)模型实现骨导语音增强波形生成。该方法以频带扩展WaveNet为基础,融合骨导语音相位谱信息与增强的语音幅度谱作为模型的条件特征,根据融合特征生成增强语音波形,实现了相位信息的有效利用。仿真实验综合对比了群时延谱和瞬时频率偏差谱相位特征,主客观结果表明,不论是采用串联融合还是卷积融合方式,骨导语音相位信息均有效补充了原有幅度谱条件特征,改善了语音增强效果。利用串联方式融合群时延谱特征可得到最佳结果,相比于原始骨导语音,平均意见得分(MOS)提升了约54.3%。
耿海波[3](2020)在《基于U-Net模型的单声道唱声分离研究》文中指出随着科技进步与多媒体技术的发展,人类对于音乐的追求越来越高。而单声道唱声分离技术作为音乐处理的前端模块,是实现基频估计、歌词识别、歌词同步、歌手识别、音乐检索以及卡拉OK等应用系统的基础。近年来单声道唱声分离取得了重要的发展,主流的分离方法包括传统机器学习方法和基于神经网络的深度学习方法。本文研究了两种基于U-Net结构的深度学习方法:基于嵌套U-Net和时频掩蔽的单声道唱声分离模型以及基于门控嵌套U-Net的端到端单声道唱声分离模型。具体内容如下:本文根据U-Net网络结构、时频掩蔽处理方法以及区分性训练(Discriminative Training)在唱声分离领域中的优势。研究了基于嵌套U-Net与时频掩蔽的单声道唱声分离模型。该模型将二维频谱信息作为特征,通过嵌套U-Net中重构跳跃连接(Skip Connection)结构,减少了编码与解码器(Encoder-Decoder)子网络之间频谱特征的语义差异,简化优化器所解决的优化问题。并通过区分性训练联合不但可以同时估计两个源信号、还能优化一个软时频掩蔽函数来进一步增强分离效果。实验结果表明本文研究的基于嵌套U-Net与时频掩蔽的单声道唱声分离模型相较于Chimera分离模型以及U-Net分离模型在i Kala与MIR-1K数据库取得更好的分离效果。本文在基于嵌套U-Net与时频掩蔽的单声道唱声分离模型的基础上,研究了基于门控嵌套U-Net的端到端单声道唱声分离模型。该模型将一维时域波形作为输入,不但避免了短时傅里叶变换得到二维时域频谱信息依赖许多参数带来的计算,还避免了相位带来的信息丢失。并通过门控线性单元(Gated Linear Units)引入门控机制控制卷积神经网络的输出。将编码与解码过程中通道更迭方式由幂次更迭的方式改为线性更迭,大幅度减小参数量,实验证明没有影响测试结果。通过差异输出层(Difference Output Layer)共同优化网络模型,同时分离输出的唱声与伴奏信号。实验结果表明本文研究的基于门控嵌套U-Net的端到端单声道唱声分离模型相较于基于嵌套U-Net和时频掩蔽的单声道唱声分离模型在i Kala与MIR-1K数据库取得较好的效果。并且在i Kala数据库中的结果已经接近理想二值掩蔽(Ideal binary mask,IBM)。
许清臣[4](2020)在《基于补偿相位谱的单通道语音增强算法改进》文中指出通过语音传递信息是人类生活中最重要、最有效、最方便的一种常用信息交换形式。在这个信息化的时代,语音中所包含的信息量起着至关重要的作用。但是,由于现实生活中周围无时无刻都存在着各种各样的噪声,因此语音增强技术有着举足轻重的地位。语音增强技术在国内、外已经作为语音信号处理中十分重要的研究课题,并且已经做了大量的研究工作。对此,本文在介绍改进的单通道语音增强算法之前,先从语音增强的研究背景及意义、研究现状及发展趋势,还有语音增强研究的分析难点这几个方面进行了阐述,为了使文章脉络更加清晰,还对语音增强的一些理论基础进行描述,例如:语音信号特性、噪声特性、预处理、两种经典的语音增强算法、一种用于实验比较的频带划分方式以及评价语音增强算法优劣的主、客观评价方式等。在以往经典谱减法的语音合成过程中,都是采用原始的带噪语音相位谱与语音幅度谱相结合,然而最新的心理声学研究表明,语音的相位谱与语音的可懂度也有较大的联系,于是传统相位谱补偿算法提出了一种对相位谱进行修正的方式,其是对带噪语音复频谱进行加性相位谱补偿。本文提出了一种利用等效矩形带宽(ERB)尺度划分改进的补偿相位谱语音增强算法,此算法是在传统相位谱补偿算法的基础上进行改进的,算法中的噪声估计幅值是通过使用ERB尺度进行多带谱减法后计算得到的,而改进的补偿相位谱是对初次增强的语音复频谱进行加性计算。与此同时,改进的算法也将ERB尺度划分应用于补偿相位谱中初次增强的语音算法中,本文中的补偿相位谱是在经过基于ERB尺度划分的多带谱减法初次增强后的语音复频谱上进行加性计算。从利用Matlab构建仿真环境进行的改进后算法,在客观评价、主观分析语谱图以及直观听觉感知的主观评价上来看,本文提出的算法都有明显优于四种对比增强算法的地方。除此之外,本文还针对传统的相位谱补偿函数中的补偿常数因子进行了改进。由于对传统补偿相位谱语音增强算法进行了改进,先前传统算法中由实验经验得出的补偿常数已经不再适用,而且使用常数无法对不同情况下的背景噪声进行灵活补偿。于是将原先固定的补偿常数改进成一个根据分段信噪比的变化值而相应改变的补偿因子,这就弥补了无法对带噪语音相位谱进行灵活补偿的问题。本文改进的此算法能够灵活的根据各个频带中噪声不同的变化对带噪语音的相位谱进行补偿,以此与先前得到的利用ERB尺度划分临界频带的改进补偿相位谱语音增强算法相结合。从客观评价的仿真结果和主观评分的结果表明,在特定信噪比与特定噪声的情况下,本文提出的自适应补偿因子的算法处理效果有着明显的提高,其余情况下也有着不亚于原算法的表现。
张文璐[5](2017)在《激光侦测系统中的语音增强技术研究》文中认为激光侦测是一种新型的非接触型侦测技术,具有不需要靠近目标放置侦测器材,操作方便,隐蔽性好等优点,在军用、警用领域情报收集工作中有重要的应用价值。但激光侦测对外界环境条件比较敏感,侦测信号易受环境中的噪声影响,所以实际中激光侦测信号需要经过语音增强技术的处理,才能满足情报收集工作的要求。激光侦测技术的特殊性使侦测信号中的噪声与传统语音信号中的噪声有较大区别,现有算法难以满足其去噪需求。本文以激光侦测信号为研究对象,通过分析信号中的噪声,提出适用于激光侦测系统的语音增强算法。论文的主要内容概括如下:1.对激光侦测信号中的宽带背景噪声进行分析,并着重分析用于处理宽带背景噪声的基于短时谱估计的语音增强算法,在此基础上提出改进的相位补偿维纳滤波法。利用语音活动性检测判断当前帧状态,得到更准确的噪声功率谱估计,并引入改进的相位补偿函数利用相位信息对语音频谱进行补偿,使语音频谱估计更加准确,且保留更多的细节信息。通过仿真实验证明本文算法能提高语音信噪比,有效地改善语音质量,性能优于同类算法。2.详细分析激光侦测信号中高能量噪声,即截断噪声和脉冲噪声的特性,并相应地提出噪声检测和抑制算法。对于截断噪声,通过检测信号差分值确定截断噪声时域分布,然后相应地补偿发生错误的数据段。对由环境原因引起的脉冲噪声,通过检测语谱图中信号在高频率段的能量确定脉冲噪声的时域分布,再利用AR语音模型下的线性预测分析估计出被脉冲噪声干扰的语音。仿真实验结果表明,本文算法对高能量噪声抑制效果显着,很大程度地提高了语音质量。3.分析了激光侦测信号中的背景嘶声(类Hiss噪声),提出改进的模极大值小波变换背景嘶声抑制算法。通过在不同尺度层设定不同阈值的方法,处理模极大值序列,并将阈值的设定与噪声功率谱相联系来得到合适的阈值。仿真实验结果表明,本文算法很好地抑制了背景嘶声,减小了人的听觉疲劳感。4.利用实际激光侦测信号对本文算法进行测试,并讨论了侦测目标距离、激光反射物和周围环境条件对侦测信号质量的影响。
周峰[6](2017)在《易混淆数字语音识别方法研究》文中提出汉语连续数字语音识别是语音识别研究中的一个非常重要的分支,广泛应用于工业控制、智能家居等多个领域。然而,目前的汉语连续数字语音识别系统的性能仍难以满足实际应用的需求。常用的数字识别系统是采用梅尔谱参数结合HMM(Hidden Markov Model)实现的。但是由于汉语数字语音间的混淆程度高的特性,普通的识别系统难以对其中的易混淆数字对进行有效的识别,最终导致整个系统的识别率不高。本文针对汉语数字间易混淆的问题进行了深入的研究,提出了一种多参数、多级识别策略。先采用梅尔谱参数基于HMM进行初级数字语音识别,然后对易混淆的数字对采用不同的参数基于SVM(Support Vector Machine)进行二次分类。在二级识别中引入了一种新的群延时谱参数RRCGD-CC(Reflected Roots Chirp Group Delay-Cepstral Coefficients),其完全由语音信号的相位谱推导而来,与传统的幅度谱参数有着本质上的区别。实验结果表明,RRCGD-CC在易混淆数字对的区分上具有一定的优越性,最后结合多参数多级识别策略,将汉语数字语音识别系统的识别率提高了2.38%。另外,根据易混淆数字对之间声调和元音部分的差异,分别采用基频和共振峰作为特征参数来进行二次识别,最终的识别结果分别提高了2.01%和0.73%。
周群群[7](2013)在《多带激励声码器关键算法的研究》文中提出多带激励(MBE)声码器在理论上支持高质量的语音合成,是目前在低码率范围内研究最普遍的一种语音模型,具有广泛的应用前景。然而MBE声码器在实际参数估计、参数量化、无线传输和语音合成过程中均很有可能会引入误差,进而影响语音质量,尤其在低码率应用和信源信道双重噪声干扰的情况下语音质量存在很大落差,相关算法有待改进。本文主要针对参数估计和语音合成过程所涉及的关键算法进行改进。由于传统双路径基音跟踪算法对约束方程的门限取固定经验值,导致基音估计的鲁棒性差。首先构造全新的差值不等式作为约束方程,以降低建立门限自适应调整模型的难度。然后通过分析标准基音周期及其倍/次基音所对应的单帧拟合误差之间的最大差值关系来研究在单帧意义上的倍/次基音干扰特性,推广得到差值门限过低会降低对倍基音干扰的抑制能力而差值门限过高则会引入更多次基音错误的因果关系。从而提出双门限和全范围两种自适应双路径基音跟踪算法,相应的差值门限分别根据先前帧基音周期长短的统计结果和前一帧的倍基音错误识别信息进行更新。实验结果显示,以上两种算法对应基音估计的严重错误概率(GER)均普遍下降,尤其对于女声,当信噪比(SNR)为-5dB时女声基音估计的GER的平均性能改善分别达到82.13%和82.19%,虽然对应基音估计的一般错误均值(ME)均普遍增加,但是幅度很小,ME的性能损失相对GER的性能改善而言非常微弱。实验结果表明,以上两种算法对不同讲话者和不同程度高斯白噪声干扰均具有较强的适应能力,尤其在严重的高斯白噪声干扰的情况下基音估计准确性的改善更加明显。子带划分不可避免会增加清浊音误判的概率,现有的常用子带划分方式只凭经验进行划分,产生的失真影响较大,因此结合子带清浊音误判所导致的失真影响与子带能量必然有关的性质,提出一种基于谱分布特性的子带划分方式,根据当前帧的谐波结构以及谐波能量分布,按照兼顾各个子带之间的带宽平衡和能量平衡的原则进行划分。另外,背景噪声会降低子带信号的浊音度,传统子带清浊音判决算法存在鲁棒性差的问题,因此提出一种基于相关增强的子带清浊音判决算法:通过对不同背景环境和SNR的带噪语音以及纯净语音的清浊音聚类采用Fisher最佳投影矢量进行映射,得到新的更具可辨识性的清音聚类和浊音聚类,从而增强特征值与清浊音之间的相关性;同时采用以先前帧子带清浊音状态、清浊音状态在时间上的相关系数矩阵作为先验概率输入信息的最大后验概率判决准则,从而引入相邻帧清浊音之间的相关性。实验结果表明,上述优化算法的判决性能从整体上得到改善,在不同背景环境下均具有较强的抗噪声能力,语音听觉质量提高。低码率MBE声码器通常采用线性预测(LP)全极点模型来逼近MBE谱幅度矢量并最终将其等效为线谱频率(LSF)参数形式。当MBE谱密度序列过于稀疏或存在频域采样偏移时不能用于准确估计自相关序列,导致LP谱与MBE谱之间的逼近误差较大,因此提出一种MBE谱密度内插修正方案,将MBE谱密度序列扩展为频域均匀分布且频率充分取样的序列,并校准LP增益以避免由MBE谱密度内插造成的不同语音帧之间总功率不同程度的波动。另外,LSF系数提取算法不能确保实际LSF系数是升序的,因此提出一种LSF系数优化方案,分别在两个方向上进行局部微调,并直接将两者平均作为LSF系数的最终结果。实验结果表明,上述改进算法能够有效降低LP谱包络估计误差并避免合成语音出现局部异常尖峰,语音听觉质量提高。低码率MBE声码器通常采用重新生成方式得到浊音谐波相位信息,现有的相位生成算法容易引起语音波形失衡,相应语音信号的峰均比偏高,从而导致信号饱和失真概率增加或系统待机时间缩短,因此提出一种基于计算机遍历搜索的最佳初始相位设计方法,在假设各次谐波分量均为浊音的情况下为各次谐波分量任意分配一个初始相位,将最小峰值信号波形所对应的一组相位作为最佳初始相位。由此所得到的最佳初始相位能够用于在极少存储资源消耗和不增加额外的复杂度的情况下抑制语音波形出现失衡,具有很强的实用性和应用价值。
周群群,马泳,王盛青,王宏远[8](2012)在《最佳相位设计的MBE声码器语音合成》文中研究指明提出了一种基于最佳相位设计的语音合成技术,能够有效降低MBE声码器合成语音信号由于波形失衡而导致的饱和失真的概率。此外,为了保证合成滤波器的稳定性,对线谱频率(LSF)系数提取进行了优化。实验结果显示,合成语音信号波形近似平衡地分布在零幅度值的上下,语音听起来没有不舒服的感觉。实验结果表明,基于最佳相位设计的语音合成技术能够有效改善合成语音质量。
梁瑞宇,邹采荣,赵力,王青云,奚吉[9](2012)在《汉语数字助听器高频听损增强方法的实验研究》文中研究表明提出采用正弦模型改善患者高频听觉的非线性降频方法。正弦模型语音分解得到的幅度、频率和相位是算法三个主要的处理参数。为了避免谱失真,将语音频谱按倍频程划分为6个部分。最接近并低于患者门限频率的部分,只做幅度放大处理。按照不同频段对于语音理解度的贡献程度,将患者门限频率以上的频率段压缩并转移到患者的可听频段,并将对应相位信息变为最接近的对应低频相位。在本研究中,10个受试者进行了语音理解度测试。测试结果显示,经过训练后,患者的平均理解率至少提高45%。下一步的研究应增加受试者数量,并增加对患者的听损情况的详细分析,从而设计出更合理,更细致的降频助听算法。
徐晨[10](2011)在《语音增强系统的研究与DSP实现》文中提出语音增强是语音信号处理的一个重要分支。随着电子和通信前沿科技的进步,语音增强技术及DSP技术也得到了长足发展,而以此为基础的语音信号处理系统被广泛认可并应用在多种领域,无论是在日常生活还是军事领域。实时语音增强的研究是针对实际的噪声环境,通过算法在软硬件系统平台上的实时实现,尽可能地降低背景噪声,提高语音的质量,从而达到语音增强的效果。论文首先介绍几种经典的语音增强算法进行,包括谱减法、维纳滤波及MMSE,对它们各自的优缺点进行了分析比较。在此基础上,对现有算法进行改进,形成了本文所采用的基于MMSE的改进型谱减语音增强方法。这种算法复杂度较低,易于在硬件系统实时实现,能够满足实时语音增强的要求。仿真验证表明,具有较好的处理效果。最后,介绍了DSP芯片的工作原理和主要特性,重点介绍了作者使用的TMS320VC5510芯片,论文首先是对改进的语音增强算法进行软件设计,之后根据改进算法的特点和系统工作的要求,对论文的算法进行了硬件设计,完成相关片外设备的选型和设计工作,制作出一个语音增强硬件系统,并在硬件平台上成功地运行了改进语音增强算法,实现了语音增强功能。
二、语音中相位的听觉感知实验研究(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、语音中相位的听觉感知实验研究(论文提纲范文)
(1)嵌入式语音识别前端处理的关键技术研究(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 研究背景与意义 |
1.2 国内外研究现状 |
1.3 论文的主要研究内容及章节安排 |
第2章 语音增强算法理论分析 |
2.1 语音信号及噪声信号特征 |
2.1.1 语音信号特征 |
2.1.2 噪声信号特征 |
2.2 语音增强技术概述 |
2.2.1 单通道语音增强 |
2.2.2 多通道语音增强 |
2.2.3 基于深度学习的语音增强 |
2.3 麦克风阵列理论模型 |
2.4 语音质量评价 |
2.4.1 语音质量主观评价 |
2.4.2 语音质量客观评价 |
2.5 本章小结 |
第3章 双麦克风语音增强算法 |
3.1 一阶差分阵列模型 |
3.2 FDM-SS语音增强算法 |
3.3 结合语音活动检测的改进算法 |
3.3.1 语音活动检测 |
3.3.2 改进后算法流程 |
3.4 算法仿真结果对比 |
3.4.1 语音波形图比较 |
3.4.2 PESQ得分比较 |
3.5 本章小结 |
第4章 双麦克风语音增强算法硬件实现 |
4.1 硬件实现总体架构 |
4.2 语音预处理模块 |
4.2.1 信号的分帧加窗处理 |
4.2.2 快速傅里叶变换及Cordic |
4.3 语音活动检测模块 |
4.4 频域语音增强模块 |
4.4.1 增强语音幅度计算 |
4.4.2 相位插入及帧还原 |
4.5 本章小结 |
第5章 实验验证及结果分析 |
5.1 功能仿真 |
5.2 FPGA下板验证 |
5.3 结果分析 |
5.4 本章小结 |
第6章 结论与展望 |
6.1 结论 |
6.2 展望 |
参考文献 |
攻读学位期间取得的研究成果 |
致谢 |
(3)基于U-Net模型的单声道唱声分离研究(论文提纲范文)
摘要 |
abstract |
第1章 引言 |
1.1 研究背景与意义 |
1.2 国内外研究现状 |
1.3 论文的主要内容 |
1.4 论文组织结构 |
第2章 唱声分离相关技术理论基础 |
2.1 特征提取 |
2.2 唱声分离模型 |
2.2.1 基于传统机器学习方法的唱声分离模型 |
2.2.2 基于神经网络深度学习方法的唱声分离模型 |
2.2.3 波形重构 |
2.3 唱声分离模型客观评价指标 |
第3章 基于嵌套U-Net和时频掩蔽的单声道唱声分离模型 |
3.1 引言 |
3.2 相关研究 |
3.2.1 U-Net结构 |
3.2.2 区分性训练网络(Discriminative Training Network) |
3.3 基于嵌套U-Net与区分性训练的唱声分离网络结构 |
3.4 实验设置与性能评估 |
3.4.1 实验数据与预处理 |
3.4.2 实验模型参数 |
3.4.3 实验结果及分析 |
3.5 本章小结 |
第4章 基于门控嵌套U-Net的端到端单声道唱声分离模型 |
4.1 引言 |
4.2 相关研究 |
4.2.1 深度学习中的端到端(End-to-end)模型 |
4.2.2 门控线性单元(Gated linear unit,GLU) |
4.2.3 差异输出层(Difference output layer) |
4.3 基于门控嵌套U-Net的端到端唱声分离网络结构 |
4.4 基于门控嵌套U-Net的唱声分离模型 |
4.5 性能评估及比较 |
4.5.1 实验数据与网络参数 |
4.5.2 实验对比和分析 |
4.6 本章小结 |
第5章 总结与展望 |
5.1 工作总结 |
5.2 研究中存在的问题 |
5.3 研究展望 |
参考文献 |
致谢 |
个人简历、在学期间发表的学术论文与研究成果 |
(4)基于补偿相位谱的单通道语音增强算法改进(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 语音增强的研究背景及意义 |
1.2 语音增强的发展现状及趋势 |
1.3 语音增强研究的难点分析 |
1.4 论文主要工作和章节安排 |
第2章 语音增强的理论基础 |
2.1 语音信号特性 |
2.2 噪声特性 |
2.3 语音增强预处理 |
2.4 语音增强算法基本概念 |
2.4.1 语音增强算法框架 |
2.4.2 经典谱减法 |
2.4.3 Kamath等人的多频带谱减法 |
2.4.4 Bark尺度划分方式 |
2.5 增强算法的质量评价指标 |
2.5.1 客观评价 |
2.5.2 主观评价 |
2.6 本章小结 |
第3章 利用ERB尺度划分对补偿相位谱语音增强算法的改进 |
3.1 引言 |
3.2 ERB尺度划分临界频带 |
3.3 修正补偿相位谱 |
3.4 算法描述及流程框图 |
3.5 单通道语音增强算法结果仿真分析 |
3.5.1 SNR的提高 |
3.5.2 PESQ |
3.5.3 语谱图 |
3.5.4 MOS评分 |
3.6 本章小结 |
第4章 利用补偿因子对相位谱补偿算法的改进 |
4.1 引言 |
4.2 谱减算法的几何分析 |
4.3 传统的相位谱补偿算法 |
4.4 基于补偿相位谱改进的语音增强算法 |
4.5 算法描述及流程框图 |
4.6 单通道语音增强算法结果仿真分析 |
4.6.1 SNR的提高 |
4.6.2 PESQ |
4.6.3 语谱图 |
4.6.4 MOS评分 |
4.7 本章小结 |
第5章 结论与展望 |
5.1 全文总结 |
5.2 研究展望 |
参考文献 |
研究生期间成果 |
致谢 |
(5)激光侦测系统中的语音增强技术研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景与意义 |
1.1.1 语音增强的基本概念及研究意义 |
1.1.2 激光侦测系统中语音增强的重要性 |
1.2 激光侦测研究现状 |
1.2.1 激光侦测技术的发展 |
1.2.2 激光侦测中语音增强算法的现状 |
1.3 本文的主要工作 |
第二章 激光侦测系统及其噪声 |
2.1 激光侦测系统 |
2.2 激光侦测机理 |
2.3 激光侦测信号中的噪声 |
2.4 激光侦测系统中语音增强算法评价指标 |
2.4.1 主观评价方法 |
2.4.2 客观评价方法 |
2.4.3 本文采用的评价方法 |
2.5 本章小结 |
第三章 宽带背景噪声抑制算法研究 |
3.1 宽带背景噪声抑制算法简介 |
3.1.1 信号模型 |
3.1.2 基于短时谱估计的语音增强算法 |
3.1.3 经典维纳滤波算法 |
3.2 改进的相位补偿维纳滤波法 |
3.2.1 语音活动性检测 |
3.2.2 相位补偿 |
3.2.3 改进的维纳滤波法 |
3.2.4 实验结果及分析 |
3.3 本章小结 |
第四章 高能量噪声抑制算法研究 |
4.1 概述 |
4.2 高能量噪声的检测算法 |
4.2.1 截断噪声的检测算法 |
4.2.2 脉冲噪声的检测算法 |
4.2.3 脉冲噪声检测性能评价指标 |
4.3 高能量噪声的抑制算法 |
4.3.1 截断噪声的抑制算法 |
4.3.2 脉冲噪声的抑制算法 |
4.3.2.1 线性预测分析的基本原理 |
4.3.2.2 基于线性预测分析的脉冲噪声抑制算法 |
4.3.3 高能量噪声抑制性能评价指标 |
4.4 算法性能分析 |
4.4.1 高能量噪声抑制算法总结 |
4.4.2 仿真实验与结果分析 |
4.5 本章小结 |
第五章 背景嘶声抑制算法研究 |
5.1 概述 |
5.2 小波变换理论基础 |
5.2.1 小波变换基础知识 |
5.2.2 小波去噪原理 |
5.3 基于模极大值小波变换的背景嘶声抑制算法 |
5.3.1 Lipschitz指数和模极大值 |
5.3.2 小波变换参数分析 |
5.3.3 模极大值小波变换抑制背景嘶声 |
5.3.4 实验结果及分析 |
5.4 实际激光侦测信号实验 |
5.4.1 激光侦测信号质量影响因素 |
5.4.2 激光侦测信号处理流程总结 |
5.4.3 实验结果及分析 |
5.5 本章小结 |
第六章 总结与展望 |
致谢 |
参考文献 |
附录 文中主要英文缩写名词对照表 |
作者简历 |
(6)易混淆数字语音识别方法研究(论文提纲范文)
中文摘要 |
ABSTRACT |
第一章 绪论 |
1.1 语音识别概述 |
1.2 汉语连续数字语音识别 |
1.2.1 汉语连续数字语音识别意义及难点 |
1.2.2 汉语连续数字语音识别研究现状 |
1.3 论文的主要研究内容 |
1.4 论文结构 |
第二章 语音识别系统基本理论 |
2.1 语音信号的线性产生模型 |
2.1.1 激励模型 |
2.1.2 声道模型 |
2.1.3 辐射模型 |
2.2 语音识别基本原理 |
2.3 预处理 |
2.4 特征提取 |
2.4.1 Mel倒谱系数 |
2.4.2 基音频率与共振峰 |
2.5 隐马尔可夫模型 |
2.5.1 HMM基本思想 |
2.5.2 HMM基本算法 |
2.6 支持向量机 |
第三章 数字语音基准识别系统及性能分析 |
3.1 语料库简介 |
3.2 基于HMM的基准识别系统 |
3.3 基准识别系统识别结果分析 |
3.4 汉语数字语音易混淆原因分析 |
第四章 易混淆数字语音识别方法研究 |
4.1 群延时谱参数及其应用 |
4.1.1 相位研究概述 |
4.1.2 RRCGD及其特征提取 |
4.1.3 基于RRCGD-CC的易混淆数字识别 |
4.2 基频在易混淆数字对识别中的应用 |
4.3 共振峰在易混淆数字对识别中的应用 |
4.4 多级识别系统 |
第五章 总结与展望 |
5.1 总结 |
5.2 研究展望 |
参考文献 |
攻读硕士学位期间公开发表的论文 |
致谢 |
(7)多带激励声码器关键算法的研究(论文提纲范文)
摘要 |
Abstract |
1 绪论 |
1.1 研究背景及意义 |
1.2 MBE声码器的基本模型 |
1.3 MBE声码器的研究与发展 |
1.4 本文的创新性及内容安排 |
2 基于自适应双路径基音跟踪算法的基音估计 |
2.1 基于传统双路径基音跟踪算法的基音估计 |
2.2 构造全新的差值不等式形式约束方程 |
2.3 倍/次基音干扰特性研究 |
2.4 双门限自适应双路径基音跟踪算法 |
2.5 全范围自适应双路径基音跟踪算法 |
2.6 本章小结 |
3 子带清浊音判决优化算法 |
3.1 传统子带清浊音判决算法 |
3.2 基于谱分布特性的子带划分方式 |
3.3 基于相关增强的子带清浊音判决算法 |
3.4 本章小结 |
4 谱幅度估计改进算法 |
4.1 谱幅度估计 |
4.2 MBE谱密度内插修正 |
4.3 LSF系数优化 |
4.4 本章小结 |
5 基于最佳初始相位设计的语音合成 |
5.1 语音合成模型 |
5.2 语音波形失衡实验 |
5.3 最佳初始相位设计 |
5.4 实验结果及其分析 |
5.5 本章小结 |
6 总结和展望 |
6.1 本文总结 |
6.2 未来工作展望 |
致谢 |
参考文献 |
附录1 攻读博士学位期间发表学术论文目录 |
(8)最佳相位设计的MBE声码器语音合成(论文提纲范文)
1 引言 |
2 语音合成模型及试听实验 |
3 最佳相位设计 |
4 LSF系数提取优化 |
5 实验及结果分析 |
6 结语 |
(10)语音增强系统的研究与DSP实现(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1. 课题研究背景 |
1.2. 课题研究的目的和意义 |
1.3. 语音增强算法概述 |
1.4. DSP概述 |
1.5. 本文的主要内容及章节安排 |
第2章 语音增强的基础理论 |
2.1. 声学基础理论 |
2.1.1. 语音信号产生模型 |
2.1.2. 语音信号的特征 |
2.1.3. 带噪语音模型 |
2.1.4. 噪声的声学特性 |
2.2. 人耳感知特性 |
2.2.1. 人耳感知特性 |
2.2.2. 语音听觉掩蔽效应 |
2.3. 语音可懂度和增强依据 |
2.3.1. 语音可懂度 |
2.3.2. 影响可懂度的因素 |
2.3.3. 增强依据 |
2.4. 语音质量评价 |
2.4.1. 主观评价 |
2.4.2. 客观评价 |
2.5. 本章小结 |
第3章 语音增强系统总体设计 |
3.1. 系统总体设计 |
3.2. 语音信号预处理 |
3.2.1. 语音信号的短时分析 |
3.2.2. 语音信号的预加重 |
3.2.3. 语音信号的加窗分帧 |
3.2.4. 语音信号预处理的对比仿真 |
3.3. 噪声估计 |
3.3.1. 语音激活检测 |
3.3.2. 最小值跟踪的噪声估计方法 |
3.4. 本章小结 |
第4章 语音增强算法及其改进算法 |
4.1. 语音增强算法的目的和应用 |
4.2. 语音增强算法的历史 |
4.3. 语音增强算法的分类 |
4.3.1. 参数方法 |
4.3.2. 非参数方法 |
4.3.3. 统计方法 |
4.3.4. 其它方法 |
4.4. 几种语音增强技术及其仿真和对比 |
4.4.1. 谱减法 |
4.4.2. 维纳滤波 |
4.4.3.MMSE |
4.4.4. 仿真与对比 |
4.5. 语音增强技术的改进及质量评价 |
4.5.1. 谱减法的改进方法 |
4.5.2. 维纳滤波的改进方法 |
4.5.3. MMSE的改进方法 |
4.5.4. 改进方法的仿真和质量评价 |
4.6. 本章小结 |
第5章 算法的DSP实现 |
5.1. DSP硬件平台结构概述 |
5.1.1. DSP芯片的选择 |
5.1.2. FPGA芯片的选择 |
5.1.3. 直接存储器访问(DMA) |
5.1.4. 多通道缓冲串口(McBSP) |
5.1.5. DSP和FPGA串口通信系统设计 |
5.2. DSP算法的实现及优化 |
5.2.1. 算法在DSP上的实现 |
5.2.2. 算法程序的优化 |
5.3. 本章小结 |
第6章 总结与展望 |
攻读学位期间发表的学术论文 |
致谢 |
参考文献 |
四、语音中相位的听觉感知实验研究(论文参考文献)
- [1]嵌入式语音识别前端处理的关键技术研究[D]. 崔智恒. 西安邮电大学, 2021(02)
- [2]在波形网络中融合相位信息的骨导语音增强[J]. 郑昌艳,杨吉斌,张雄伟,孙蒙. 声学学报, 2021(02)
- [3]基于U-Net模型的单声道唱声分离研究[D]. 耿海波. 新疆大学, 2020(07)
- [4]基于补偿相位谱的单通道语音增强算法改进[D]. 许清臣. 江苏科技大学, 2020(03)
- [5]激光侦测系统中的语音增强技术研究[D]. 张文璐. 解放军信息工程大学, 2017(06)
- [6]易混淆数字语音识别方法研究[D]. 周峰. 苏州大学, 2017(04)
- [7]多带激励声码器关键算法的研究[D]. 周群群. 华中科技大学, 2013(02)
- [8]最佳相位设计的MBE声码器语音合成[J]. 周群群,马泳,王盛青,王宏远. 计算机与数字工程, 2012(09)
- [9]汉语数字助听器高频听损增强方法的实验研究[J]. 梁瑞宇,邹采荣,赵力,王青云,奚吉. 声学学报, 2012(05)
- [10]语音增强系统的研究与DSP实现[D]. 徐晨. 北京邮电大学, 2011(09)