基于GMM的说话人分类自适应算法

基于GMM的说话人分类自适应算法

一、基于GMM的说话人分类自适应算法(论文文献综述)

张景宣[1](2021)在《序列到序列的语音生成声学模型研究》文中指出序列到序列模型是一类深度学习统计模型,可以用于对给定输入序列下输出序列的条件概率进行建模。近年来,序列到序列模型在众多领域的应用表现出众,包括语音识别、自然语言处理等任务。随着谷歌研究人员于2017年提出Tacotron模型以后,序列到序列声学模型被广泛应用于语音生成任务中,取得了令人瞩目的效果。序列到序列模型相比于传统模型的主要优势在于模型的框架十分灵活,理论上可以对任意性质的序列对之间的关系进行建模。而且序列到序列模型通过自回归的方式对输出序列的概率进行建模,没有隐马尔可夫模型(hidden Markov model,HMM)等序列模型中对于时间条件独立性的不合理假设。序列到序列模型并没有规定模型的每个部分的细节如何构建。任务可以根据输入数据的性质,使用不同神经网络结构构建序列到序列模型中的不同模块,比如长短时记忆网络、卷积神经网络等。语音生成任务赋予机器灵活地生成语音的能力,是人机交互的一个重要环节,具有广泛的应用场景和重要的研究意义。本文关注的语音生成任务主要包含了语音合成、话者转换和发音特征到语音生成任务。不同的任务虽然输入数据的性质有所不同,但是共享相同的任务目标,即生成自然的语音。本文研究的语音生成任务都可以使用序列到序列模型来解决。近年来,序列到序列模型应用于语音生成虽然有了重大进展,但是仍然存在一些问题需要解决。例如序列到序列模型中的注意力机制存在不稳定问题,会造成生成语音发音错误;序列到序列模型尚未成功应用于平行和非平行话者转换任务中;发音特征到语音生成任务面临数据稀疏的问题,等等。本文针对这些问题,围绕序列到序列的语音生成声学模型开展了相关研究,提升了模型在相应语音生成任务上的性能。本文的主要研究内容包括:第一,本文对序列到序列语音合成中的注意力机制进行了研究。序列到序列模型用于语音合成存在稳定性方面问题,经常出现发音错误、重复发音等现象。受到语音合成任务中文本和语音单调性对齐的特点的启发,本文提出一种序列到序列模型中的前向注意力方法。实验证明前向注意力方法可以有效的提升序列到序列语音合成的稳定性。第二,本文对基于序列到序列模型话者转换方法进行了研究。对于平行话者转换任务,本文提出了序列到序列话者转换模型,该模型可以对输入语音的语速等韵律特征进行转换,有效提升了转换语音的自然度和相似度。对非平行话者转换的问题,本文提出了基于特征解耦的序列到序列模型。提出模型利用对抗学习和文本联合空间学习的策略,可以有效分离语音中的说话人信息和语言学信息。该方法用于非平行话者转换,在自然度和相似度上取得了接近于平行序列到序列话者转换的效果。此外本文还提出了基于对抗学习的识别-合成话者转换方法和直接串联自动语音识别-语音合成系统的话者转换方法。第三,本文对发音特征到语音生成任务进行了研究。该研究使用了超声波舌部图像和口唇图像作为发音特征,任务的目标是恢复自然的语音。针对发音特征数据稀疏的问题,本文提出了一种基于语音合成迁移学习的方法,可以有效的提升恢复语音的可懂度和自然度。

沙淮[2](2020)在《非平行文本条件下基于Multi-Scale StarGAN的共享训练的多对多语音转换研究》文中研究指明语音转换的目标是将源说话人的语音进行转换,使其听起来像是目标说话人发出的声音,语义保持不变。语音转换可分为平行语料的语音转换和非平行语料的语音转换,区别在于用于训练的语料库中源说话人和目标说话人的语音内容和持续时间是否相同。但是,在语音转换的实际应用中,由于获取大量平行语料很困难,在有些情形下甚至不可实现,因此研究非平行语料下的语音转换成为亟需解决的问题。语音转换的评价指标主要包括两个方面:语音的音质和个性相似度。现有的非平行语音转换模型很难在这两个维度同时获得好的性能。本文重点研究了基于StarGAN语音转换模型,并针对上述两个问题提出了一系列改进。首先,为了改善转换后语音的音质,使其听起来更加逼真细腻,本文使用Multi-Scale结构来改进基准系统,提出基于Multi-Scale StarGAN的语音转换方法,提取目标说话人全局特征的不同级别的多尺度特征,增强了转换后语音的细节。通过主观和客观实验来验证改进的语音转换模型的性能,与基于StarGAN的语音转换模型相比,转换后语音的时域波形更加平稳,接近目标说话人,语谱图也更为清晰,平均MOS提高了21.8%,平均ABX提高了5.56%。结果表明,该方法在提高语音相似度的同时也有效提高了合成音质。其次,考虑到StarGAN通过训练鉴别器和分类器来训练生成器实现语音转换,因此通过使用Share-Learning训练鉴别器和分类器的共享模块Share-Block,本文提出基于ShareLearning的StarGAN的语音转换方法,改进鉴别器和分类器的性能,从而改善训练的稳定性和加快收敛速度,提高了合成语音的音质和相似度。充分的主观和客观评价表明,与基于StarGAN的语音转换模型相比,平均MOS提高了15.79%,平均ABX提高了2.38%。进一步,将本文的两个创新点进行结合,将Share-Learning加入到Multi-Scale StarGAN方法中,提出基于Multi-Scale StarGAN的共享训练的语音转换方法,经过主观和客观评价表明,该方法与Multi-Scale StarGAN方法转换后的语音相比,转换后语音的时域波形更加平稳,接近目标说话人,转换后语音的语谱图更加清晰,平均MOS提升了3.57%,平均ABX值提升了3.30%,说明该方法在语音音质和说话人个性相似度方面都有较大的提升。与基于StarGAN的语音转换模型相比,平均MOS提高了28.95%,平均ABX提高了9.03%。充分实验结果表明,该方法在提高语音相似度的同时提高了语音质量。

邹博[3](2020)在《基于融合特征的说话人识别技术研究》文中进行了进一步梳理语音是人类日常生活中获取和传递消息最为便捷的一种主要媒介,它携带着丰富的信息。由于每个人的声道结构在出生时就被决定,并且每个人都是独一无二的,这使得利用说话人的声音来辨别身份的生物技术成为了现实。在生物识别领域中,影响识别结果的两个重要因素分别是分类模型和特征参数,一旦选定了所用的模型,识别性能主要依赖于特征参数的选择。高质量的特征参数不仅可以减少系统的误判概率,并且还能够缩短训练模型和分类所用的时间。因此,从语音信号中提炼出与说话人身份具有高度相关性的特征是一个重要的研究课题。针对上述问题,本文提出了基于深浅层融合特征的说话人识别系统以及基于优化权系数融合特征的说话人识别系统。本文开展的研究如下:(1)首先对说话人识别相关的研究背景以及工作意义进行充分了解,然后阐述了说话人识别的基本知识,主要包括本文所用到的语音预处理技术、声学特征参数MFCC提取的具体流程、SVM分类器的原理。另外,为了去除特征中可能包含的冗余信息,引入了两种特征筛选策略,为后续展开的研究提供技术基础。(2)为了找到一种鲁棒性更强并能够全面对说话人身份信息进行表征的特征,本文在对GMM和DNN深入研究后,提出了一种基于深浅层融合特征的说话人识别系统。传统特征表示的是有关声道结构方面的物理信息,它是一种浅层的表述,而DNN挖掘的是更深层的特征,是一种更为抽象的描述,将它们融合能够使得性能互补。该方法首先提取MFCC参数然后分别利用两个不同分支进行进一步处理。一方面输入到DNN中来提取深度特征并进一步通过GMM获取深度高斯超矢量,另一方面直接通过GMM获得传统高斯超矢量。最后将二者水平拼接组成一种新的特征,基于该特征对SVM进行训练和对说话人身份进行辨认。通过实验仿真发现,所提出的融合特征能够有效地提升识别率。(3)当说话人的个数增加时,系统的识别率将会降低。另外,在基于融合特征的说话人识别系统中,不同特征对最后的识别结果贡献程度不同。为了更加准确对其进行衡量,通过对两种寻优算法进行研究,提出了基于优化权系数融合特征的说话人识别系统。在对三种特征进行融合前,先利用GA或者SA算法对各自的权重系数进行寻优,然后乘以对应的系数进行融合来构建一种新的说话人识别系统。通过实验结果表明,对特征进行加权再进行融合的识别性能要优于直接进行融合时的特征性能。

刘中越[4](2021)在《野外环境下的声目标识别技术研究》文中认为在边防区域的野外环境下,通过对入侵目标声音信号的分析处理,完成入侵目标的探测识别,以实现边防区域的智能化实时监控。传统的目标探测识别方法是使用多传感器进行组合探测,其中,声音传感器易受噪声和其它声源的干扰,导致声目标识别的准确率下降。针对上述问题,本文设计了一个野外环境下的人车识别方案,并对其中的端点检测算法进行优化改进。本文主要围绕基于声音传感器的声目标识别技术进行重点研究,并从以下四部分展开讨论:(1)在野外环境下,采集到的声目标信号难免会受背景噪声的干扰,使目标信号失去原有的特性。因此,需要对采集到的信号进行降噪处理,以提高目标信号信噪比。由于野外环境下的背景噪声复杂多变,所以采用基于RLS与LMS的自适应噪声抵消算法进行降噪处理,并通过仿真实验结果进行对比分析,最终选取收敛速度与收敛精度都更好的RLS算法完成对信号的降噪处理。(2)把采集到的声音信号进行降噪处理后,对出现的声目标信号进行端点检测。当有入侵的声目标出现时,采用基于短时能量的改进端点检测算法对其进行端点检测,通过一次长帧粗检测与一次短帧细检测,精确地定位出目标信号的起止点,进而排除掉无效的背景噪声段。另外,设计一个基于短时平均幅度的门限判决方案,在完成端点检测之后对是否有入侵目标出现做一次预判断。(3)对时频域特征参数提取的基本原理及提取步骤进行简要叙述,并对不同特征参数在声目标识别中的适用性进行对比分析。通过对不同特征参数的分析及后续的实验结果对比,选取梅尔频率倒谱系数作为人车识别的特征参数。(4)为声目标识别系统选取一个合适的分类器,完成野外环境下的人车目标识别。本文根据运动目标的声音信号与说话人类似的特点,以人车声信号的MFCC作为特征,采用基于高斯混合模型(GMM)的分类器完成人车目标识别。最后通过对实验结果和野外环境下的现场测试结果进行综合分析,证明本文设计的识别方案可以完成野外环境下的人车识别,且识别率与识别速度均可满足实际需求。

马超峰[5](2020)在《深度学习框架下鲁棒性说话人识别方法研究》文中研究指明说话人识别,作为生物特征识别的重要组成部分,广泛应用于军队安全系统、公安司法、生物医学工程等领域。目前,在安静的实验室环境下以及语音数据充足的条件下,说话人识别技术已经达到令人满意的效果。然而,实际应用环境无法预测,导致说话人识别系统鲁棒性差。因此,本文以提升说话人识别方法在噪声情况下的鲁棒性为出发点,针对说话人识别中特征表达能力不足、模型区分性不够、传统方法中各个模块相互独立训练的问题,提出以下解决方案:1)基于深浅层特征融合的鲁棒性说话人识别方法;2)基于深度模型的鲁棒性说话人识别后端分类决策方法;3)基于端到端联合优化及决策的鲁棒性说话人识别方法。1)针对说话人识别中特征表达能力不足这一问题,本文提出基于深浅层特征融合的鲁棒性说话人识别方法。该方法将经深度神经网络处理过的分块MFCC特征作为深层特征,将高斯均值超矢量作为浅层特征,随即融合两种特征向量,得到包含更多信息、更具鲁棒性的融合特征。鉴于深、浅层特征从不同层面反映说话人信息,通过实现深、浅层特征之间互补的有效融合,从而可以更加全面地表征说话人。此外,为了更好利用特征块之间的关联性,在决策过程引入“投票法”决策机制,进一步提升系统的鲁棒性。2)针对说话人识别中模型区分性不够这一问题,本文提出基于深度模型的鲁棒性说话人识别后端分类决策方法。在高斯均值超矢量特征的基础上,将不同的深度模型作为说话人识别的后端,探究其对传统说话人特征的分类决策能力,确定最佳的分类模型。利用其优秀的分类能力,有效提炼出语音片段里所蕴含的更深层次、更有价值的信息,从而得到鲁棒性更高的说话人识别系统。3)针对传统方法中各个模块相互独立训练这一问题,本文提出基于端到端联合优化及决策的鲁棒性说话人识别方法。首先,采用自定义的滤波器替代卷积网络中的卷积核。其次,构建基于自注意力机制的深度残差网络。最后,通过将传统说话人识别中的特征提取和模型匹配统一到深度模型结构中,以此实现参数的联合优化,同时提升噪声环境下的系统性能。

尤学强[6](2020)在《基于深度学习的声纹识别语音唤醒系统的设计与实现》文中认为随着人工智能技术的飞速发展,市场上推出了各式各样的智能终端设备,智能语音的发展更是使得语音控制智能终端设备成为各大智能终端设备产品企业的主要技术研究方向,语音唤醒是智能终端设备和用户交互的入口,如何高效、准确地对用户的包含关键字的语音信号的输入给出反应成为这一技术的最重要的目标。而单纯的语音唤醒对的个人信息安全性缺乏保障,作为人机交互的入口需要加入身份验证声纹识别技术,声纹识别是用户对智能终端设备输入语音,通过算法来匹配声纹特征,而语音唤醒是指用户说出特定的语音指令时,设备从休眠状态切换到工作状态,给出指定响应。语音唤醒任务可以看成是一种小资源的关键字检测任务,其在计算资源和CPU占用空间小,因此其关键字检测系统框架与语音识别的系统框架有很大区别。声纹识别任务,通过字面了解到这是一种生物类识别技术的一种,也称为目标说话人识别模型,有两类即目标说话人辨认和目标说话人确认。本文的研究目的是基于深度学习的声纹识别语音唤醒系统的设计和实现,通过将声纹识别和语音唤醒进行了技术创新结合,并对深度神经网络架构进行对比择优,针对声纹识别准确率和语音唤醒的唤醒率提升,所做的主要工作如下:(1)参照端到端的模型架构,对声纹识别模块和语音唤醒模块采用的是分开训练,使得两个模型的准确率和唤醒率达到最优后进行整合,使得提升整个系统的准确率和交互效果。(2)在声纹识识别模块中利用端到端的匹配模型LSTM加DNN的组合,并在其中采用线性和非线性激活函数的结合,使得模型能够对语料有比较准确的匹配过程和较低的参数计算量。(3)在语音唤醒模块中使用端到端的Wave Net模型做语音唤醒的网络架构,其中的迁移学习和扩张卷积以及残差网络,优势在于利用语音识别的初始化参数和扩张卷积的较低参数计算量以及残差网络的剩余信息使输入的预料更好的时序性,整个网络能够保证对模型的低功耗小资源的要求。最后,通过模型网络选取上的对比实验,测试了声纹识别和语音唤醒模型以及网络选择不同的对比效果,本系统通过对声纹识别和语音唤醒两个模块对大量的中英平行语料进行训练,使得模型的准确率能够得到保障,能够准确地进行声纹识别到语音唤醒的准确率和唤醒率,通过对两个模型的整合从而实现了系统的初衷声纹识别语音唤醒。

苏荣锋[7](2020)在《多重影响因素下的语音识别系统研究》文中研究表明由于实际应用的声学环境非常复杂,存在环境噪声、远场、窄带等多种干扰因素,语音信号易受到这些因素的影响而发生变异,导致传统基于听觉模态的自动语音识别(Automatic Speech Recognition,ASR)系统的性能下降,不能满足实际应用需求。人类言语交流行为的研究发现,人类大脑对言语的理解不仅仅依赖于声音,而是会结合视觉通道信息,如嘴唇发音运动轨迹,交互并发处理后得出合理的一致的解释。另有研究表明,视觉信息和听觉信息具有互补性,在复杂声学环境下,视觉信息的互补部分会明显提高语音的感知性能,符合人类的双模态感知方式。此外,大量研究表明,基于双模态的视听语音识别(Audio-Visual Speech Recognition,AVSR)系统在很多实际应用中均优于ASR系统。因此,AVSR系统已逐渐成为研究热点。然而,AVSR系统在实际环境中仍存在应用瓶颈。一方面,建立一个鲁棒的AVSR系统需要大量的视听觉训练数据,而对比广泛可用的语音数据,视听并行数据大量采集代价昂贵。另一方面,使用传统的AVSR系统进行识别时,需要同时输入视听并行数据,但在多数实际使用环境中只有语音数据可用,缺少视觉信息。这些问题阻碍了AVSR系统的广泛应用。因此,本文针对上述问题,构建一种新型的AVSR系统框架,通过在语音识别系统声学建模时加入自动生成的视觉信息,从而提升其在复杂声学环境中的鲁棒性。本文的主要研究成果和贡献如下:(1)提出一种基于卷积神经网络(Convolutional Neural Network,CNN)的视听融合方法。利用独立的CNN结构,实现视听觉的独立建模和异步性信息传递,并获取视听并行数据在高维特征空间中的描述;然后通过紧随其后的共享全连接结构,实现在更高维度中对视听并行数据的长时间依赖关系进行建模。实验表明,对比传统的视听融合方法,使用基于CNN的视听融合方法建立的AVSR系统能获得显着性能提升,其识别错误率相对下降约15%。本文所提出的视听融合方法可针对视听并行数据之间的独立性、异步性以及长时相互依赖性进行建模,对于基于深度学习的视听融合方法的进一步研究具有重要意义。(2)提出一种基于视觉特征生成的双模态建模方法。使用有限的视听并行数据,结合基于双向长短时记忆网络(Bi-directional Long Short-Term Memory Recurrent Neural Network,BLSTM-RNN)的方法,构建听觉特征到视觉特征的生成模型;然后利用该生成模型自动生成大量视觉特征,结合基于CNN的视听融合方法,进行双模态建模。实验表明,当生成模型的训练和测试声学环境一样,只需使用少量的视听并行数据,结合所提出的基于视觉特征生成的双模态方法,可建立一个鲁棒的AVSR系统,其识别错误率较基线系统相对下降约11%。基于视觉特征生成的双模态方法可有效解决实际使用环境中的视觉信息缺失问题。(3)提出一种基于多层级自适应深度网络的跨域自适应方法。实际语音数据与视听并行数据的域不匹配问题将导致不可靠的视觉特征产生,最终引起识别系统性能下降。为此,本文提出一种新型的跨域自适应方法:通过多层级自适应深度网络,获取与实际使用环境匹配的声学特征描述;然后使用这些特征描述作为生成模型的额外输入以缓解域不匹配问题,实现由广泛可用的实际语音数据自动生成大量可靠的视觉数据。实验表明,由于域不匹配问题的存在,视觉特征生成方法直接应用于AVSR系统,并不能提升系统鲁棒性;而结合跨域自适应方法训练得到的语音识别系统能获得显着的性能提升,其识别错误率较基线系统相对下降10%以上。该方法首次应用于AVSR领域,降低了传统AVSR系统对大量视听并行数据的依赖性,使得AVSR系统可在只有语音输入情况下使用,推广其实际可应用性。

周晶[8](2020)在《回放语音攻击检测中特征参数的研究》文中进行了进一步梳理说话人识别技术因与其他生物特征识别技术相比,具有无须身体接触、无须记忆、获取过程快捷等优点,成为目前人们常选用的验证方法。但是,随着各种录音设备的出现,攻击者使用录音回放语音侵入认证系统更为简单。因此,如何防止回放语音的攻击已成为说话人识别技术研究的重点。本文基于ASVspoof 2017挑战赛的数据库,对不同类型的录音设备、回放设备产生的回放语音进行分析,重点对语音特征参数提取进行研究。传统特征提取方法中,语音频谱的特征信息没有得到充分提取和利用,采用了强化低频层频谱信息的方法,影响了攻击检测性能。而实际上,原始语音和回放语音的主要差异体现在高频层上,针对现有技术的不足,提出基于Fisher准则的融合特征检测算法和基于多层滤波的倒谱特征检测算法,从而更好地检测回放语音。本文主要工作内容如下:1.详细分析了预处理对信号的影响,对当前主流的语音特征参数MFCC、LFCC、LPC、IMFCC、CQCC等进行研究和算法实现,为改进特征参数打下基础。研究了三种经典的分类模型:高斯混合模型、支持向量机和高斯混合模型—通用背景模型,并对多种模型进行测试,结果表明GMM模型的识别性能最高。2.从波形、语谱图、频率信息量等多个角度探究两种语音的区分性特征,进一步了解录音产生的语音跟原始语音间的本质性差异,通过实验分析,发现两种语音的差异更多的表现在高频层,低频层差异小,且易受设备类型的影响。3.结合MFCC、LFCC、IMFCC特征参数的特性与Fisher准则,选取区分能力较好的特征分量,提出了一种基于Fisher准则的融合特征检测算法。从不同高斯阶数、不同特征参数及其组合、时间复杂度的角度进行实验对比,证明了该算法对提高系统检测效果与运行效率是有效的。4.针对频谱上的差异,在高频层采用逆梅尔滤波增强说话人信息的提取,突出差异,在低频层采用线性滤波与梅尔滤波组合,避免特征参数的叠加。多层融合,获得L-M-I滤波器组,从而形成新的倒谱特征。探究预加重系数、动态特征、CMVN、高斯阶数对检测结果的影响,证明了算法的可行性和有效性。实验结果表明,分类器为GMM时,多层滤波检测算法检测效果最优,在测试集上,等错误率为2.57%,相比MFCC、CQCC、LFCC、IMFCC、L-I,分别降低12.86%、9.66%、4.51%、3.33%、1.63%。并在SVM、Ada Boost分类器中均有稳定的检测效果。最后与说话人确认系统结合,能够有效抵抗回放语音攻击。

郭晓晨[9](2020)在《面向短时语音的维吾尔语-汉语语种识别方法研究》文中研究指明语音是人们效率最高的沟通交流方式,也是社会交际的载体。语音也是是各个国家和各个民族之间的纽带,让人们交流更快捷方便。近年来,语种识别技术广泛应用在各个领域,例如:作为混合语音识别系统的前端区分混合语音,作为机器翻译中的前端处理,应用于多语种信息服务等。同时,随着一带一路倡议的提出,新疆越来越多的得到各地的关注。因此,本文的研究目标为:面向维吾尔语与汉语的语音,利用底层声学特征对语种识别任务开展相关研究,旨在建立一个能在短时语音条件下具有良好性能的语种识别模型。首先,由于目前还没有一个公用的基于维吾尔语-汉语的语种识别数据集,因此本文构建了一个用于维吾尔语-汉语语种识别的数据集,并对数据集的来源与基本信息、数据集的数据清洗和预处理过程做了介绍。并且提出了一种最大限度的保留语种区分性信息的静音检测处理方法。基于音调扰动方法,提出了一种可以弥补说话人数量过少、说话人男女分布不平衡的数据增强方法,并结合噪声扰动对数据集进行了增强。其次,如何从底层声学信息中更有效的提取语种可区分性特征是语种识别课题中的关键。基于此问题,本文开展了基于GMM-ivector框架的维吾尔语汉语语种识别研究,搭建了基于GMM-ivector的维吾尔语-汉语语种识别系统,通过实验的方式确定了模型的参数以及实现细节。最后基于搭建的GMM-ivector系统,验证了WCCN噪声补偿技术对系统的性能影响,并通过实验的方式对比了CDS、SVM、LDA等主流后端分类方法在短时语音的语种识别系统上的性能优劣。再次,基于GMM-ivector系统在短时条件下的性能不佳问题,开展了基于深度学习的维吾尔语-汉语语种识别系统研究。搭建了基于Resnet-50的深度学习语种识别系统,并通过对比的方式验证了深度学习下的语种识别系统在短时长条件下的性能要优于GMM-ivector系统。针对Resnet-50基线系统存在的问题对模型进行了改进,提出了Resnet-LSTM与Resnet-Attention两个改进模型,并综合不同时长下的测试语音片段对改进模型进行了评估,实验结果表明,改进的Resnet模型提高了短时语种识别任务的分类性能。最后,本文从语音的不同声学特征入手,开展了基于MFCC特征与基音周期特征的组合模型研究。将基音周期特征与MFCC特征直接进行拼接后训练了Resnet语种识别模型,证明了基音周期特征在语种识别任务中的有效性。然后对MFCC特征与基音周期特征分别进行建模,并在后端使用融合分类网络对模型进行了融合,得到了基于多特征的组合模型。实验结果表明,多特征的组合模型可以大大提高短时语音下的维吾尔语-汉语语种识别任务的分类性能。

童琪琪[10](2020)在《防合成语音攻击的声纹识别技术研究》文中进行了进一步梳理声纹识别技术是生物特征识别的一个分支,也是现今人工智能领域的热点之一,在理论研究和实际应用中都取得了快速发展和广泛关注,其在养老金保险系统、身份认证系统、门禁系统和安防等信息安全领域有着广泛的应用。然而随着科学技术的发展,合成说话人的声音变得更加方便精确,使得合成语音对声纹识别系统的信息安全方面产生很大的威胁,也使得声纹识别系统的推广和应用面临很大的挑战,因此研究防止合成语音攻击的声纹识别系统具有迫切需求和重大意义。本文是在Asvspoof2015比赛的基础上,结合实际应用需求及国内外研究现状,对防合成语音攻击的声纹识别算法进行研究,在基于高斯混合-通用背景模型(GMM-UBM)的声纹识别系统基础上,结合了防合成语音攻击检测系统,得到一个既能判别是否为合成语音,又能判定语音是否为目标说话人的融合系统。并在特征提取上引入了梅尔频率倒谱系数(MFCC)和线性频率倒谱系数(LFCC)特征融合方法,以及将深度神经网络中获得的新型学习滤波器组应用到传统的高斯混合模型系统中的方法,最终设计实现了防合成语音攻击的声纹识别系统。在对经典声纹识别算法的介绍中,从理论和实验分析对比了传统算法和深度学习算法,从结果比较了两者的优劣。为了提高系统的性能,提升识别率,本文对不同特征提取算法进行了分析与实验,通过不同的特征结合,获得了相对优越的性能。在此基础上,进一步阐述了基于深度学习的算法原理和工作流程。在Asvspoof2015的数据集,总共S1S10十种不同方法合成的语音上,基于单个MFCC特征的合成语音攻击检测系统的平均等错误概率(EER)为4.6371%,MFCC与LFCC特征融合后的合成语音攻击检测系统的平均等错误概率为2.5967%,利用深度神经网络学习得到的学习滤波器组所设计的合成语音攻击检测系统的平均等错误概率为1.0089%。从结果上可见,不同特征参数的合成语音检测系统之间具有较强的互补特性,另一方面,具有合成语音检测的声纹识别系统,在性能上明显优于传统声纹识别系统。由于无法区分合成语音,许多合成语音都被识别为目标说话人,没有经过合成语音攻击检测的声纹识别系统的EER为13.5183%,这个系统性能不佳,无法应用于实际场景中,而具有合成语音攻击检测的声纹识别系统的EER为5.1064%,很大程度地提升了识别准确度,这也是体现了本论文的研究意义。

二、基于GMM的说话人分类自适应算法(论文开题报告)

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

三、基于GMM的说话人分类自适应算法(论文提纲范文)

(1)序列到序列的语音生成声学模型研究(论文提纲范文)

摘要
ABSTRACT
第1章 绪论
    1.1 语音生成任务的定义
    1.2 语音生成的研究意义
        1.2.1 语音生成研究的理论意义
        1.2.2 语音生成研究的实用意义
    1.3 语音生成声学模型和语音生成任务的关系
    1.4 语音生成声学模型的研究历史和现状
    1.5 本论文组织结构概述
第2章 语音生成声学模型回顾
    2.1 常用声学特征
        2.1.1 语音发声机理
        2.1.2 语音基频
        2.1.3 语音梅尔域频谱
        2.1.4 梅尔倒谱系数
    2.2 常用声码器
        2.2.1 STRAIGHT声码器
        2.2.2 WaveNet声码器
    2.3 传统统计声学模型
        2.3.1 混合高斯模型
        2.3.2 联合概率密度混合高斯模型
        2.3.3 隐马尔可夫模型
    2.4 神经网络统计模型
        2.4.1 深度神经网络
        2.4.2 深度神经网络的训练算法
        2.4.3 循环神经网络
    2.5 序列到序列模型
        2.5.1 早期的序列到序列模型
        2.5.2 带注意力机制的序列到序列模型
        2.5.3 Tacotron模型介绍
    2.6 当前存在的问题和本文的研究点
        2.6.1 当前存在的问题和挑战
        2.6.2 本文的研究点
    2.7 本章小结
第3章 面向语音合成的前向注意力方法
    3.1 背景介绍
    3.2 语音合成中的注意力模型
    3.3 稳定注意力机制的已有方法
        3.3.1 加入卷积特征
        3.3.2 注意力位置加窗
    3.4 前向注意力方法
    3.5 带转移控制的前向注意力方法
    3.6 实验和结果
        3.6.1 实验条件
        3.6.2 前向注意力机制的稳定性
        3.6.3 合成语音的自然度
        3.6.4 合成语音的语速控制
    3.7 本章小结
第4章 序列到序列的平行话者转换声学模型
    4.1 背景介绍
    4.2 序列到序列话者转换模型
        4.2.1 特征提取
        4.2.2 SCENT的模型结构
        4.2.3 模型损失函数
        4.2.4 实验和结果
    4.3 利用文本监督提升序列到序列声学模型
        4.3.1 多任务学习
        4.3.2 数据增强
        4.3.3 实验和结果
    4.4 本章小结
第5章 基于特征解耦的非平行话者转换声学模型
    5.1 背景介绍
    5.2 基于特征解耦的话者转换模型
        5.2.1 模型结构
        5.2.2 损失函数
        5.2.3 模型训练算法
        5.2.4 实验和结果
    5.3 结合对抗学习的语音识别-合成转换方法
        5.3.1 提出方法
        5.3.2 实验和结果
    5.4 VCC2020参赛系统
        5.4.1 实验和结果
    5.5 本章小结
第6章 基于迁移学习的发音特征到语音生成模型
    6.1 背景介绍
    6.2 多说话人Tacotron模型
    6.3 提出方法
        6.3.1 编码器
        6.3.2 解码器
        6.3.3 模型训练策略
    6.4 实验和结果
        6.4.1 实验条件
        6.4.2 对比基线系统
        6.4.3 改变说话人个数
        6.4.4 消融实验
        6.4.5 静默句子上的表现
        6.4.6 替换说话人编码
        6.4.7 隐层特征可视化
    6.5 本章小结
第7章 总结
    7.1 本文的主要贡献和创新点
    7.2 后续的研究工作
参考文献
致谢
在读期间发表的学术论文与取得的研究成果

(2)非平行文本条件下基于Multi-Scale StarGAN的共享训练的多对多语音转换研究(论文提纲范文)

摘要
Abstract
专用术语注释表
第一章 绪论
    1.1 语音转换的定义
    1.2 语音转换的研究背景和意义
        1.2.1 语音转换的研究背景
        1.2.2 语音转换的研究意义
    1.3 非平行文本条件下语音转换的研究现状
    1.4 本文的主要工作内容安排
        1.4.1 主要工作
        1.4.2 内容安排
第二章 相关背景知识介绍
    2.1 语音转换系统的基本原理
        2.1.1 语音信号分析/合成模型
        2.1.2 语音信号的特征参数
        2.1.3 语音信号的特征转换
    2.2 语音转换挑战任务和数据集
    2.3 语音转换质量评价标准
        2.3.1 客观评价标准
        2.3.2 主观评价标准
    2.4 本章小结
第三章 基于StarGAN的语音转换
    3.1 引言
    3.2 GAN模型的基本原理
        3.2.1 GAN模型
        3.2.2 WGAN模型
        3.2.3 CycleGAN模型
    3.3 非平行文本条件下基于StarGAN的多对多语音转换
        3.3.1 基于语音转换任务的StarGAN网络
        3.3.2 训练与转换流程
    3.4 实验仿真与结果分析
        3.4.1 实验设置
        3.4.2 实验结果
    3.5 本章小结
第四章 基于Multi-Scale StarGAN的语音转换
    4.1 引言
    4.2 残差网络基本原理
    4.3 多级尺度基本原理
    4.4 非平行文本条件下基于Multi-Scale StarGAN的语音转换
        4.4.1 Multi-Scale StarGAN语音转换网络
        4.4.2 训练与转换流程
    4.5 实验仿真与结果分析
        4.5.1 实验设置
        4.5.2 实验结果
    4.6 本章小结
第五章 基于Share-Learning的Multi-Scale StarGAN的语音转换
    5.1 引言
    5.2 共享学习的原理
    5.3 Mish激活函数
    5.4 非平行文本条件下基于Share-Learning的多对多语音转换
        5.4.1 基于Share-Learning的StarGAN语音转换网络
        5.4.2 基于Share-Learning的Multi-Scale StarGAN语音转换系统
    5.5 实验仿真与结果分析
        5.5.1 实验设置
        5.5.2 实验结果
    5.6 本章小结
第六章 总结与展望
    6.1 工作总结
    6.2 工作展望
参考文献
附录1 攻读硕士学位期间申请的专利
附录2 攻读硕士学位期间参加的科研项目
致谢

(3)基于融合特征的说话人识别技术研究(论文提纲范文)

摘要
abstract
专用术语注释表
第一章 绪论
    1.1 研究背景及意义
    1.2 说话人识别的研究现状与发展
    1.3 说话人识别技术现存问题
    1.4 论文研究内容与结构安排
        1.4.1 论文研究内容
        1.4.2 论文结构安排
第二章 说话人识别基本理论
    2.1 说话人识别的基本结构
    2.2 语音信号的预处理技术
        2.2.1 语音信号的采样
        2.2.2 预加重
        2.2.3 分帧和加窗
        2.2.4 端点检测
    2.3 语音特征参数的提取
    2.4 支持向量机
    2.5 常用特征降维策略
        2.5.1 主成分分析
        2.5.2 Fisher系数特征筛选
    2.6 本章小结
第三章 基于深浅层融合特征的说话人识别
    3.1 引言
    3.2 传统语音特征
        3.2.1 高斯混合模型
        3.2.2 传统重组高斯超矢量
    3.3 深度语音特征
        3.3.1 深度神经网络相关理论
        3.3.2 深度重组高斯超矢量
    3.4 基于深浅层融合特征的说话人识别系统构建
    3.5 实验结果仿真分析
        3.5.1 实验环境与语料库
        3.5.2 不同网络参数对系统性能的影响
        3.5.3 高斯分量数对系统性能的影响
        3.5.4 基于深度瓶颈特征和传统特征说话人性能对比
        3.5.5 所提系统与其他方法性能的对比
        3.5.6 不同特征降维方法对比实验
    3.6 本章小结
第四章 基于优化权系数融合特征的说话人识别
    4.1 引言
    4.2 常用寻优算法
        4.2.1 遗传算法
        4.2.2 模拟退火算法
    4.3 基于寻优算法融合特征的说话人识别系统构建
    4.4 实验仿真与结果分析
        4.4.1 不同算法参数对系统性能的影响
        4.4.2 不同权值说话人识别性能对比
        4.4.3 不同特征的性能对比
        4.4.4 不同特征降维方法的性能对比
    4.5 本章小结
第五章 总结与展望
    5.1 总结
    5.2 展望
参考文献
附录1 攻读硕士学位期间撰写的论文
附录2 攻读硕士学位期间申请的专利
附录3 攻读硕士学位期间参加的科研项目
致谢

(4)野外环境下的声目标识别技术研究(论文提纲范文)

摘要
abstract
第1章 绪论
    1.1 研究背景和意义
    1.2 国内外研究现状
        1.2.1 声目标识别技术应用国内外研究现状
        1.2.2 信号降噪技术国内外研究现状
        1.2.3 特征参数提取实际应用现状
    1.3 本文主要工作内容
    1.4 技术路线
第2章 自适应噪声抵消算法研究
    2.1 自适应噪声抵消系统
        2.1.1 自适应噪声抵消系统概述
        2.1.2 自适应噪声抵消系统基本原理
    2.2 自适应滤波算法
        2.2.1 最佳滤波准则
        2.2.2 基于LMS的自适应噪声抵消算法
        2.2.3 归一化LMS(NLMS)算法
        2.2.4 基于RLS的自适应噪声抵消算法
    2.3 仿真结果对比分析
    2.4 本章小结
第3章 端点检测与预判断
    3.1 端点检测
    3.2 预处理
    3.3 双门限端点检测
        3.3.1 双门限端点检测基本原理
        3.3.2 双门限端点检测实现步骤
    3.4 基于短时能量的改进端点检测算法
        3.4.1 检测流程设计
        3.4.2 端点检测结果分析
    3.5 基于短时平均幅度的预判断
        3.5.1 预判断的门限设置思路
        3.5.2 预判断的门限判决方案设计
    3.6 本章小结
第4章 声目标信号特征提取
    4.1 时域特征分析
    4.2 频域特征分析
        4.2.1 短时傅里叶变换(STFT)
        4.2.2 快速傅里叶变换(FFT)
        4.2.3 频域特征参数提取
    4.3 本章小结
第5章 声目标识别方法研究与结果分析
    5.1 常用的声音目标识别方法
    5.2 基于高斯混合模型(GMM)的声目标识别
        5.2.1 基于高斯混合模型的分类算法设计
        5.2.2 数据采集
        5.2.3 实验方案设计
    5.3 仿真实验与结果分析
        5.3.1 不同特征参数下的目标识别结果分析
        5.3.2 端点检测对识别结果的影响
        5.3.3 自适应消噪对识别结果的影响
        5.3.4 基于短时平均幅值的预判断结果分析
        5.3.5 现场实验结果分析
    5.4 本章小结
总结与展望
参考文献
攻读硕士学位期间发表的论文和取得的科研成果
致谢

(5)深度学习框架下鲁棒性说话人识别方法研究(论文提纲范文)

摘要
Abstract
第1章 引言
    1.1 研究背景与意义
    1.2 说话人识别研究发展历程及其鲁棒性问题分析
        1.2.1 说话人识别发展历程
        1.2.2 说话人识别中面临的鲁棒性问题
    1.3 复杂环境下的鲁棒性说话人识别技术研究现状
        1.3.1 基于传统方法的鲁棒性说话人识别技术研究
        1.3.2 基于深度学习方法的鲁棒性说话人识别技术研究
    1.4 主要研究内容和论文结构安排
第2章 鲁棒性说话人识别的研究框架
    2.1 基本的鲁棒性说话人识别研究框架
    2.2 鲁棒性说话人识别研究实验平台搭建
        2.2.1 说话人识别研究数据准备
        2.2.2 基于深度学习的说话人识别实验环境搭建
    2.3 经典的说话人识别算法模型及其鲁棒性分析
        2.3.1 基于GMM-UBM的说话人识别算法
        2.3.2 基于GSV-SVM的说话人识别算法
        2.3.3 基于i-vector的说话人识别算法
        2.3.4 经典算法的鲁棒性实验探究和分析
    2.4 本章小结
第3章 基于深浅层特征融合的鲁棒性说话人识别方法
    3.1 基于深浅层特征融合的鲁棒性说话人识别方法
    3.2 基于深层特征的说话人识别信息表达
        3.2.1 MFCC特征参数提取
        3.2.2 深度特征参数提取
    3.3 基于浅层特征的说话人识别信息表达
        3.3.1 高斯均值超矢量特征参数提取
    3.4 支持向量机及“投票法”决策机制
        3.4.1 支持向量机
        3.4.2 “投票法”决策机制
    3.5 实验设置与结果分析
        3.5.1 数据集
        3.5.2 参数设置
        3.5.3 实验结果与分析
    3.6 本章小结
第4章 基于深度模型的鲁棒性说话人识别后端分类决策方法
    4.1 基于深度模型的鲁棒性说话人识别后端分类决策方法
    4.2 基于深度模型的说话人识别后端决策分类模型
        4.2.1 自编码器
        4.2.2 卷积神经网络
        4.2.3 神经网络模型的训练与识别
    4.3 实验设置与结果分析
        4.3.1 数据集
        4.3.2 参数设置
        4.3.3 实验结果与分析
    4.4 本章小结
第5章 基于端到端联合优化及决策的鲁棒性说话人识别方法
    5.1 基于端到端联合优化及决策的鲁棒性说话人识别方法
    5.2 基于参数化带通滤波函数的自适应特征学习
    5.3 基于自注意力机制的深度残差网络的后端建模和“投票法”决策方法
    5.4 实验设置与结果分析
        5.4.1 数据集
        5.4.2 参数设置
        5.4.3 实验结果与分析
    5.5 本章小结
第6章 总结与展望
    6.1 论文研究的内容总结
    6.2 存在的问题和展望
参考文献
致谢
附录1 攻读硕士学位期间获得的成果奖励
附录2 攻读硕士学位期间参加的科研项目

(6)基于深度学习的声纹识别语音唤醒系统的设计与实现(论文提纲范文)

摘要
ABSTRACT
符号对照表
缩略语对照表
第一章 绪论
    1.1 选题背景及意义
    1.2 声纹识别和语音唤醒国内外研究现状
    1.3 论文研究内容及组织结构
    1.4 本章小结
第二章 声纹识别和语音唤醒相关技术的介绍
    2.1 声纹识别的技术相关介绍
        2.1.1 声纹识别流程
        2.1.2 声纹识别算法评价的技术指标
        2.1.3 影响声纹识别效果的条件因素
    2.2 语音唤醒的技术及相关介绍
        2.2.1 语音唤醒的主流技术和方法
        2.2.2 语音唤醒算法的评价指标
        2.2.3 影响语音唤醒效果的条件因素
    2.3 语音增强在语音唤醒模块上的应用
        2.3.1 语音增强背景
        2.3.2 语音增强算法和发展现状的介绍
    2.4 本章小结
第三章 声纹识别语音唤醒系统的需求分析
    3.1 系统业务陈述
    3.2 系统需求建模
    3.3 数据建模
    3.4 过程建模
    3.5 声纹识别功能的需求分析
    3.6 语音唤醒功能的需求分析
    3.7 本章小结
第四章 基于深度学习的声纹识别语音唤醒的实现
    4.1 语音信号处理和语音声学特征提取
        4.1.1 语音信号处理
        4.1.2 语音特征提取
    4.2 声纹识别模型
        4.2.1 声纹识别模型的选取和应用
        4.2.2 声纹识别的实验设置及结果
    4.3 基于端到端的关键词检索系统
        4.3.1 实验设置及结果
    4.4 本章小结
第五章 声纹识别语音唤醒模块测试及分析
    5.1 系统运行环境
    5.2 测试用例及过程
    5.3 测试结果分析
    5.4 本章小结
第六章 结束语
    6.1 论文工作总结
    6.2 后续工作展望
参考文献
致谢
作者简介

(7)多重影响因素下的语音识别系统研究(论文提纲范文)

摘要
abstract
重要符号说明
第1章 绪论
    1.1 研究背景和研究意义
    1.2 国内外研究现状
        1.2.1 基于听觉模态的自动语音识别系统研究
        1.2.2 基于双模态的视听语音识别系统研究
        1.2.2.1 视听并行数据库
        1.2.2.2 视听融合策略
        1.2.2.3 数据专门性
    1.3 现有基于双模态的视听语音识别系统面临的挑战
    1.4 本文的研究内容和主要贡献
    1.5 本文的章节安排
第2章 基于听觉模态的自动语音识别系统
    2.1 前端处理
    2.2 声学建模
        2.2.1 基于混合高斯隐马尔科夫模型的声学建模
        2.2.1.1 评估问题、训练问题和解码问题
        2.2.1.2 声学建模基元以及参数估计
        2.2.2 基于人工神经网络隐马尔科夫模型的声学建模
        2.2.2.1 神经元
        2.2.2.2 反向传播算法
        2.2.2.3 深层次神经网络的构建
    2.3 语言模型
    2.4 语音识别系统性能评价
    2.5 小结
第3章 基于双模态的视听语音识别系统
    3.1 视听并行数据库设计
        3.1.1 录音语料设计以及说话人选取
        3.1.2 录制环境与录制参数
        3.1.3 三维视觉数据后处理
    3.2 卷积神经网络在语音识别中应用
        3.2.1 声学特征的重构
        3.2.2 卷积层
        3.2.3 池化层
        3.2.4 卷积层参数更新
        3.2.5 预训练
    3.3 基于卷积神经网络的视听融合方法
        3.3.1 网络参数更新
        3.3.2 预训练
    3.4 实验
        3.4.1 实验数据
        3.4.2 系统参数
        3.4.3 结果分析
    3.5 小结
第4章 视觉特征生成方法应用于视听语音识别系统
    4.1 视觉特征生成方法
        4.1.1 循环神经网络概述
        4.1.2 长短时记忆网络概述
        4.1.2.1 遗忘门
        4.1.2.2 输入门
        4.1.2.3 细胞状态输出
        4.1.2.4 输出门
        4.1.2.5 网络参数更新
        4.1.3 双向长短时记忆网络概述
        4.1.4 基于双向长短时记忆网络的视觉特征生成方法
    4.2 基于视觉特征生成方法的双模态建模
    4.3 说话人自适应训练应用于视听语音识别系统
        4.3.1 说话人自适应训练应用于传统双模态建模
        4.3.2 说话人自适应训练应用于基于视觉特征生成方法的双模态建模
    4.4 实验
        4.4.1 视觉特征生成方法应用于视听语音识别系统的实验
        4.4.1.1 系统参数
        4.4.1.2 视觉特征生成方法分析
        4.4.1.3 基于视觉特征生成的视听语音识别系统性能分析
        4.4.2 说话人自适应训练应用于视听语音识别系统的实验
    4.5 小结
第5章 跨域自适应的视听语音识别系统
    5.1 基于多层级自适应深度网络的跨域自适应方法
    5.2 基于跨域自适应的视觉特征生成方法
    5.3 跨域自适应的视听语音识别系统框架
    5.5 实验
        5.5.1 中文广播语音识别任务
        5.5.1.1 系统参数
        5.5.1.2 结果分析
        5.5.2 中文电话语音识别任务
        5.5.2.1 系统参数
        5.5.2.2 结果分析
    5.6 小结
第6章 总结和展望
    6.1 本文工作总结
    6.2 后续工作
参考文献
致谢
作者简历及攻读学位期间发表的学术论文与研究成果

(8)回放语音攻击检测中特征参数的研究(论文提纲范文)

摘要
ABSTRACT
第一章 绪论
    1.1 研究背景与意义
    1.2 回放语音检测技术的研究历史与现状
        1.2.1 研究发展状况
        1.2.2 小结
    1.3 论文的研究内容和章节安排
第二章 回放语音特征参数研究
    2.1 说话人识别系统的框架
    2.2 回放语音的预处理
    2.3 回放语音的特征提取
        2.3.1 基于听觉模型的特征参数
        2.3.2 基于线性模型的特征参数
        2.3.3 基于声门特性的特征
        2.3.4 常数Q变换倒谱系数
    2.4 本章小结
第三章 回放语音识别模型研究
    3.1 高斯混合模型
        3.1.1 GMM模型定义
        3.1.2 GMM的训练
        3.1.3 GMM的识别算法
    3.2 高斯混合模型—通用背景模型
        3.2.1 GMM-UBM模型定义
        3.2.2 MAP自适应算法
    3.3 支持向量机
        3.3.1 SVM算法原理
        3.3.2 LIBSVM
    3.4 本章小结
第四章 回放语音与原始语音特征对比分析
    4.1 回放语音和原始语音的比较
    4.2 实验样本设置
    4.3 时域波形分析
    4.4 语谱图分析
    4.5 频率信息量分析
    4.6 实验结果分析
    4.7 本章小结
第五章 基于特征参数的回放语音检测算法
    5.1 实验语音库与评判标准
    5.2 选取实验特征
        5.2.1 梅尔滤波器设计
        5.2.2 逆梅尔滤波器与线性滤波器设计
    5.3 基于Fisher准则的融合特征检测算法
        5.3.1 Fisher准则
        5.3.2 基于Fisher准则的融合特征提取算法
        5.3.3 实验结果分析
        5.3.3.1 高斯阶数对检测结果的影响
        5.3.3.2 不同特征参数及其组合的对比实验
        5.3.3.3 时间复杂度的对比实验
    5.4 基于多层滤波的倒谱特征检测算法
        5.4.1 多层滤波器组设计
        5.4.2 实验结果分析
        5.4.2.1 预加重系数对检测结果的影响
        5.4.2.2 动态特征对检测结果的影响
        5.4.2.3 特征规整对检测结果的影响
        5.4.2.4 不同特征参数的对比实验
        5.4.2.5 不同检测方法的对比实验
    5.5 防回放语音攻击的说话人确认系统
    5.6 本章小结
第六章 总结与展望
    6.1 本文工作总结
    6.2 展望
参考文献
致谢
攻读硕士期间发表的论文

(9)面向短时语音的维吾尔语-汉语语种识别方法研究(论文提纲范文)

摘要
Abstract
第1章 绪论
    1.1 语种识别简介
        1.1.1 语种识别概述
        1.1.2 语种识别的研究意义
    1.2 语种识别的研究现状
        1.2.1 不同层次的语种区分性信息
        1.2.2 语种识别的国内外相关研究概况
    1.3 本文研究背景
    1.4 本文的主要研究内容与章节安排
第2章 基于维吾尔语汉语的语种识别特征工程
    2.1 数据来源
    2.2 数据清洗
        2.2.1 采样率转换
        2.2.2 数据筛选与音量标准化
        2.2.3 端点检测
        2.2.4 划分数据集
    2.3 数据增强
        2.3.1 语音处理中常用的数据增强技术
        2.3.2 本文采取的数据增强策略
    2.4 声学特征提取
        2.4.1 fbank特征
        2.4.2 MFCC特征
    2.5 本章小结
第3章 基于GMM-ivector的语音语种识别方法研究
    3.1 GMM-ivector的模型架构
        3.1.1 通用背景模型UBM
        3.1.2 最大后验概率准则MAP
        3.1.3 基于因子分析法的i-vector提取
    3.2 后端判别模型
        3.2.1 余弦距离判别CDS
        3.2.2 支持向量机SVM
        3.2.3 线性鉴别分析LDA
    3.3 基于类内协方差规整的噪声补偿技术
    3.4 实验分析
        3.4.1 UBM模型中高斯分量的个数的确定
        3.4.2 噪声补偿补偿性能分析
        3.4.3 后端分类模型构建实验
        3.4.4 实验结果对比
    3.5 本章小结
第4章 基于深度学习的语音语种识别方法研究
    4.1 卷积神经网络概述
        4.1.1 卷积层
        4.1.2 池化层
        4.1.3 全连接层
        4.1.4 激活函数
    4.2 基于Resnet网络的语种识别基线系统
        4.2.1 Resnet网络结构简介
        4.2.2 基于Resnet的基线系统构建
        4.2.3 Resnet基线系统的层次结构改进
    4.3 面向语句级向量编码层的Resnet网络改进
        4.3.1 Resnet结合LSTM的语种识别
        4.3.2 Restnet结合Attention的语种识别
    4.4 实验分析
        4.4.1 实验配置
        4.4.2 Resnet的基线系统搭建实验
        4.4.3 语句级向量编码的Resnet改进实验
        4.4.4 各模型在测试集中的性能对比分析
    4.5 本章小结
第5章 基于特征融合的语种识别方法研究
    5.1 基音周期特征的提取
    5.2 基于MFCC特征与基音周期特征的语种识别融合模型
    5.3 实验分析
        5.3.1 MFCC+pitch融合特征实验分析
        5.3.2 改进的端点检测方法性能分析
        5.3.3 基于MFCC与 pitch特征的组合模型实验分析
        5.3.4 实验结果对比
    5.4 本章小结
第6章 总结与展望
    6.1 研究总结
    6.2 研究展望
参考文献
致谢
个人简历
在学期间研究成果

(10)防合成语音攻击的声纹识别技术研究(论文提纲范文)

摘要
Abstract
英文缩略语表
第1章 绪论
    1.1 课题研究的目的和意义
    1.2 防合成语音攻击的声纹识别技术研究历史和现状
    1.3 论文主要内容和章节安排
第2章 防合成语音攻击的声纹识别系统框架设计
    2.1 系统设计需求
    2.2 系统设计流程
        2.2.1 防合成语音攻击检测方法的设计流程
        2.2.2 声纹识别流程
    2.3 实验平台和实验数据集
        2.3.1 实验平台
        2.3.2 实验数据集
    2.4 本章小结
第三章 基于高斯混合模型的防合成语音攻击检测算法研究
    3.1 语音信号特征提取
        3.1.1 MFCC特征提取
        3.1.2 高阶差分参数
    3.2 模型建立
        3.2.1 EM算法
        3.2.2 K-Means算法
        3.2.3 高斯混合模型
    3.3 系统性能指标
    3.4 实验结果和分析
    3.5 小结
第四章 基于深度神经网络的防合成语音攻击算法研究
    4.1 深度学习相关技术
        4.1.1 神经网络的结构
        4.1.2 神经网络的训练
        4.1.3 模型优化
    4.2 基于DNN的防合成语音攻击算法实现
        4.2.1 学习滤波器组
        4.2.2 滤波器组对比
        4.2.3 模型建立
        4.2.4 分类器设计
    4.3 实验对比
    4.4 本章小结
第五章 声纹识别系统
    5.1 有效语音检测
    5.2 语音特征提取
    5.3 GMM-UBM模型
        5.3.1 GMM-UBM模型训练
        5.3.2 MAP自适应
        5.3.3 GMM-UBM似然比得分
    5.4 实验结果及分析
    5.5 小结
第六章 总结和展望
    6.1 本文总结
    6.2 研究展望
参考文献
攻读学位期间取得的研究成果
致谢

四、基于GMM的说话人分类自适应算法(论文参考文献)

  • [1]序列到序列的语音生成声学模型研究[D]. 张景宣. 中国科学技术大学, 2021(09)
  • [2]非平行文本条件下基于Multi-Scale StarGAN的共享训练的多对多语音转换研究[D]. 沙淮. 南京邮电大学, 2020(02)
  • [3]基于融合特征的说话人识别技术研究[D]. 邹博. 南京邮电大学, 2020(03)
  • [4]野外环境下的声目标识别技术研究[D]. 刘中越. 沈阳理工大学, 2021(01)
  • [5]深度学习框架下鲁棒性说话人识别方法研究[D]. 马超峰. 湖北工业大学, 2020(04)
  • [6]基于深度学习的声纹识别语音唤醒系统的设计与实现[D]. 尤学强. 西安电子科技大学, 2020(05)
  • [7]多重影响因素下的语音识别系统研究[D]. 苏荣锋. 中国科学院大学(中国科学院深圳先进技术研究院), 2020(07)
  • [8]回放语音攻击检测中特征参数的研究[D]. 周晶. 南京财经大学, 2020(04)
  • [9]面向短时语音的维吾尔语-汉语语种识别方法研究[D]. 郭晓晨. 新疆大学, 2020(07)
  • [10]防合成语音攻击的声纹识别技术研究[D]. 童琪琪. 上海师范大学, 2020(07)

标签:;  ;  ;  ;  ;  

基于GMM的说话人分类自适应算法
下载Doc文档

猜你喜欢