2023年度语音识别技术【五篇】【完整版】

时间：2023-06-27 18:30:07 来源：晨阳文秘网

使用智能手机的朋友们都会对语音助手产生极大的兴趣，不管是微软的Cortana，还是苹果的Siri，都是将语音识别融入现代技术的典范。Z音识别是解决机器“听懂”人类语言的一项技术，也是人工智能重要部分。下面是小编为大家整理的2023年度语音识别技术【五篇】【完整版】,供大家参考。

语音识别技术【五篇】

语音识别技术范文第1篇

【关键词】语音识别语言模型声学模型人工智能

使用智能手机的朋友们都会对语音助手产生极大的兴趣，不管是微软的Cortana，还是苹果的Siri，都是将语音识别融入现代技术的典范。Z音识别是解决机器“听懂”人类语言的一项技术，也是人工智能重要部分。

语音识别技术（speech recognition），也被称为自动语音识别（ASR），其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同，后者尝试识别或确认发出语音的说话人而前者的目标是语音中所包含的词汇内容。

探究语音识别技术的框架、应用与发展有利于全面了解语音识别。本文将从语音识别简介、主流语言识别框架以及语言识别近年来的发展三个方面探究语音识别。

1 语音识别简介

1.1 传统语言识别技术发展

对语音识别技术的研究可以追述到上世纪五十年代，1952年贝尔研究所Davis等人研究成功了世界上第一个能识别10个英文数字发音的实验系统，开创了语音识别的先河。上世纪六十年代，人工神经网络被引入了语音识别。上世纪七十年代以后，大规模的语音识别在小词汇量、孤立词的识别方面取得了实质性的进展。传统语音识别技术最大突破是隐式马尔可夫模型的应用，这一模型极大提高了语音识别的准确率[1]。

1.2 语言识别的应用

作为智能计算机研究的主导方向和人机语音通信的关键技术，语音识别一直受到各国科学界的广泛关注。如今，随着语音识别技术的研究的突破，其对计算机发展和社会生活的重要性日益凸现出来。在现实生活中，语音识别技术的应用相当广泛，它改变了人与计算机交互的方式，使计算机更加智能。和键盘输入相比，语音识别更符合人的日常习惯；
使用语言控制系统，相比手动控制，语音识别更加方便快捷，可以用在工业控制、智能家电等设备；
通过智能对话查询系统，企业可以根据用户的语音进行操作，为用户提供自然、友好的数据检索服务。

2 语音识别框架

目前主流的语音识别框架可以分为以下几个模块：信号处理，特征提取，声学模型，语言模型，解码器。

2.1 信号处理

信号处理模块是对语音文件进行预处理。声音是一种纵波，在识别语音时，输入为WMV，MP3等格式的文件会被转换成非压缩的纯波文件wav格式。然后在进行语音识别前，需要检测该文件中的语音信号，该技术被称之为语音活性检测[2]。使用语言活性检测技术可以有效降低噪音，去除非语音片段，提高语音识别的准确率。经典的语音活性检测算法由如下步骤组成：

（1）使用spectral subtraction等方法对语言序列进行降噪。（2）将输入信号的分成区块并提取特征。（3）设计分类器判断该区块是否为语音信号。

2.2 特征提取

特征提取目的是提取出语音文件的特征，以一定的数学方式表达，从而可以参与到后续模块处理中。在这一模块，首先要将连续的声音分成离散的帧。每一帧的时间既要足够长，使得我们能够判断它属于哪个声韵母的信息，若过短则包含信息过少；
每一帧时间也要尽量短，语音信号需要足够平稳，能够通过短时傅里叶分析进行特征提取，过长则会使信号不够平稳。分帧时使用如下改进技术可以有效提高识别准确率：相邻的两帧有所重叠减少分割误差，将与临近帧之间的差分作为额外特征，将多个语音帧堆叠起来。通过分帧处理，连续的语音被分为离散的小段，但还缺乏数学上的描述能力，因此需要对波形作特征提取。常见的方法是根据人耳的生理特征，把每一帧波形变换成一个多维向量。因此，这些向量包含了这些语音的内容信息。该过程被称为声学特征提取，常见的声学特征有MFCC、CPE、LPC等。

MFCC是目前最常用、最基本的声学特征，提取MFCC特征可以分为如下四个步骤：首先对每一帧进行傅里叶变换，取得每一帧的频谱。再把频谱与图1中每个三角形相乘并积分，求出频谱在每一个三角形下的能量，这样处理可以减少数据量，并模仿人耳在低频处分辨率高的特性。然后取上一步得到结果的对数，这可以放大低能量处的能量差异。最后对得到的对数进行离散余弦变换，并保留前12～20个点进一步压缩数据。通过特征提取，声音序列就被转换为有特征向量组成的矩阵。

2.3 声学模型

声学模型是语音识别中最重要的组成部分之一，其用于语音到音节概率的计算。目前主流的方法多数采用隐马尔科夫模型，隐马尔可夫模型的概念是一个离散时域有限状态自动机。

隐马尔可夫模型HMM如图2所示，是指这一马尔可夫模型的内部状态x1，x2，x3外界不可见，外界只能看到各个时刻的输出值y1，y2，y3。对语音识别系统，输出值通常就是从各个帧计算而得的声学特征，输入是由特征提取模块提取的特征。用HMM刻画语音信号需作出两个假设，一是内部状态的转移只与上一状态有关，另一是输出值Y只与当前状态X（或当前的状态转移）有关，这两个假设大大降低了模型的复杂度。HMM的打分、解码和训练相应的算法是前向算法、维特比算法和前向后向算法。

早期的声学模型使用矢量量化（Vector Quantification）的方法，使其性能受到VQ算法的极大影响。对于连续取值的特征应当采用连续的概率分布如高斯混合模型或混合拉普拉斯模型等。为了解决模型参数过多的问题，可以使用某些聚类方法来减小模型中的参数数量，提高模型的可训练性。聚类可以在模型层次，状态层次乃至混合高斯模型中每个混合的层次进行。

2.4 语言模型

语言模型音节到字概率的计算。

语言模型主要分为规则模型和统计模型两种。相比于统计模型，规则模型鲁棒性较差，对非本质错误过于严苛，泛化能力较差，研究强度更大。因此主流语音识别技术多采用统计模型。统计模型采用概率统计的方法来揭示语言单位内在的统计规律，其中N-Gram简单有效，被广泛使用。

N-Gram基于如下假设：第N个词的出现只与前面N-1个词相关，而与其它任何词都不相关，整句的概率即为各个词出现概率的乘积。词与词之间的概率可以直接从语料中统计N个词同时出现的次数得到。考虑计算量和效果之间的平衡，N取值一般较小，常用的是二元的Bi-Gram和三元的Tri-Gram。

2.5 解码器

解码器是语音识别系统的核心之一，其任务是对输入信号，根据声学、语言模型及词典，寻找能够以最大概率输出该信号的词串。在实践中较多采用维特比算法[3]搜索根据声学、语言模型得出的最优词串。

基于动态规划的维特比算法在每个时间点上的各个状态，计算解码状态序列对观察序列的后验概率，保留概率最大的路径，并在每个节点记录下相应的状态信息以便最后反向获取词解码序列。维特比算法在不丧失最优解的条件下，同时解决了连续语音识别中HMM模型状态序列与声学观察序列的非线性时间对准、词边界检测和词的识别，从而使这一算法成为语音识别搜索的基本策略。

维特比（Viterbi）算法的时齐特性使得同一时刻的各条路径对应于同样的观察序列，因而具有可比性，Beam搜索在每一时刻只保留概率最大的前若干条路径，大幅度的剪枝提高了搜索的效率。Viterbi-Beam算法是当前语音识别搜索中最有效的算法。

3 语音识别技术的发展

近几年来，特别是2009年以来，借助机器学习领域深度学习研究的发展，以及大数据语料的积累，语音识别技术得到突飞猛进的发展。

在模型方面，传统语音识别模型逐步被神经网络替代，使用神经网络可以更好地提取特征，拟合曲线。使用人工神经网络来提高语音识别性能的概念最早在80年代就提出了，但当时高斯混合模型在大词汇语音识别上表现得更好，因此人工神经网络并没有进行商业应用。随着相关技术的进一步发展，微软研究院利用深度神经网络建立了数千个音素的模型，比传统方法减少了16%的相对误差。其在建立起有超过660万神经联系的网络后，将总的语音识别错误率降低了30%，实现了语音识别巨大的突破[4]。

同时目前多数主流语言识别解码器采用了基于有限状态机的解码网络，该网络将语音模型、词典、声学共享音字集统一为大的解码网络，大幅度提高了解码速度。

在数据量上，由于移动互联网的急速发展，从多个渠道获取的海量语言原料为声学模型和语言模型的训练提供了丰富的资源，不断提升语音识别的准确率。

4 结语

语音是人们工作生活中最自然的交流媒介，所以语音识别技术在人机交互中成为非常重要的方式，语音识别技术具有非常广泛的应用领域和非常广阔的市场前景。而随着深度神经网络发展，硬件计算能力的提高，以及海量数据积累，语音识别系统的准确率和实用性将得到持续提高。

参考文献：

[1]S基百科编者.语音识别[G/OL].维基百科，2016（20160829）[2016-08-29].

[2]维基百科编者.语音活性检测[G/OL].维基百科，2016（20160629）[2016-06-29].

[3]维基百科编者.维特比算法[G/OL].维基百科，2016（20160920）[2016-09-20].

[4] Dahl G E， Yu D， Deng L， et al. Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition[J]. IEEE Transactions on Audio， Speech， and Language Processing， 2012， 20（1）：30-42.

语音识别技术范文第2篇

论文摘要近20年来，随着信息技术的不断发展，语音识别技术也逐步的发展成熟。语音识别技术研究让人更加方便地享受到更多的社会信息资源和现代化服务，对任何事都能够通过语音交互的方式。本文就对语音技术的发展及趋势作了简单的阐述。

语音识别是一门交叉学科。语音识别研究经历了50多年的研究历程，经过50多年的积累研究，获得了巨大的进展。特别是近20年来，语音识别技术取得了显着的进步，并逐步的走向市场。在未来的日子里，语音识别技术将应用更为广泛。本文就语音识别的发展及趋势作简单的阐述。

1 语音技术的发展历史

50年代，研究人员多数致力于声学和语音学的基本概念。1952年，在AT& T Bell实验室实现了一个单一发音人孤立发音的10个英文数字的语音识别系统，方法主要是度量每个数字的元音音段的共振峰。1956年，RCA Lab 开展了另外一项独立研究，试图识别单一发音的10个不同的音节，同样采用了度量共振峰的方法。1959年，英国University College的研究人员开始尝试另外一种思路，用谱分析和模板匹配方法构建音素识别器，用来识别4个元音和9个辅音。60年代，相继出现并发表了语音识别的几个重要的思想。1962年，东京大学进行了另一个音素识别器的硬件实现的尝试。它使用过零率方法分离语音信号的不同部分，并进行识别。1963年，日本NEC Lab对数字进行语音识别的尝试可以算得上最值得注意的工作，因为它不仅是NEC研究语音识别的开端，还导致一个长期的和卓有成效的研究计划。在60年代中，3个研究项目的开展对其后20多年的语音识别研究和开发产生了重大影响。第一个研究项目在RCA Lab开始于60年代后期，目的是研究语音事件在时间刻度上不均匀性的现实解决办法。在能够可靠检测出语音事件的始末点的基础上，发展了一套时间归正的基本方法。

2 语音识别技术的发展现状

语音识别技术通过全球科学家的共同努力，经历半个多世纪的研究，目前已经发展到了接近实用的阶段。在实验室环境下，大词汇量的朗读式连续说话的宽带语音信号的平均识别率可以达到90%以上。正式有了如此高的识别率之后，语音识别技术慢慢地从实验室演示系统逐步走向实用化商品。以IBM Via Voice和Dragon Dictation为代表的两个听写机系统的出现，使“语音识别”逐步进入大众视线，引起了广泛的社会关注。

由于校对和更正识别的错误很麻烦和浪费时间，这样便降低语音识别的优势。同时，由于使用的环境或讲话口音习惯等因素的影响，语音识别的内容大大降低，识别的内容不能达到100%的正确，所以很多人认为目前的语音识别系统还无法满足实用要求。

目前，AT&T和MIT等将语音识别技术应用在一些有限词汇的特定任务上，如电话自动转接、电话查询、数字串识别的任务中，当讲话的内容是系统所存储的内容存在的，且使用环境的声学特性与训练数据的声学特性相差不太大时，语音识别的正确识别率可以接近100%。但是，在实际使用中如果这些条件被破坏，则会对识别系统造成一定的影响。

3 语音识别技术发展趋势

虽然语音识别在过去的20年里有了很大的发展，但是，仍然存在很多的不足，有待于进一步的探索，具体可分为以下几个方面:

1)提高可靠性。语音识别技术需要能排除各种声学环境因素的影响。在比较嘈杂的公共环境中，人的意识会有意识的排除非需要的声学环境因素，这对语音识别系统而言，是很难做到的。另外，在日常生活中，人类的语言常常具有较大的不确定性，比较随意，并带有明显的言语习惯。这同样会给语音识别系统很大的识别麻烦。目前，在提高语音系统在不同环境中的可靠性，同时要应用现代技术让语音识别系统更加智能化，掌握人们语言随意性的部分规律，以达到最佳的识别效果。

2)增加词汇量。系统可以识别的词汇的数量是系统能够做什么事情的一个重要度量。一个语音识别系统使用的声学模型和语音模型如果太过于局限，当用户所讲的词汇超出系统已知的范围时，则语音识别系统不能准确的识别出相应的内容，比如，当突然从中文转为英文、法文、俄文时，计算机就会常常输出混乱奇怪的结果。但是，随着系统建模方法的不断改进、搜索算法效率的提高以及硬件资源的发展，未来的语音识别系统可能会做到词汇量无限制和多种语言混合，这样用户在使用的时候可以不必在语种之间来回切换，这样就能大大减少词汇量的对语音识别系统的限制。

3)应用拓展。语音识别技术可以用于把费脑、费力、费时的机器操作变成一件很容易很有趣味性的事，比如，当人们出现手忙、手不能及以及分身无术的场景时，通过语音识别系统的模型构造，则能够在象驾驶室、危险的工业场合、远距离信息获取、家电控制等各个方面，语音识别技术可能带动一系列崭新或更便捷功能的设备出现，更加方便人的工作和生活。其应用的范围和前景非常广泛。不仅能够应用于日常生活，更重要的会带来生产方式的革命，是下一代智能化控制的基础。

4)降低成本减小体积。微型化是语音识别技术商业应用的另一个重要途径，其推广程这取决于语音识别技术本身进步的程度，同时与微电子芯片技术的进一步发展关系密切。将具有先进功能和性能的语音识别应用系统固化到更加微小的芯片或模块上，可以大幅度降低产品成本和体积，产品必然受到消费者的青睐，语音识别系统和微电子芯片技术的发展是会引领我们的信息技术革命到一个新的台阶。

21世纪是信息和网络的时代，Internet和移动通信、固话通信的网络把全球各地连接起来。自然口语对话、电子商务、信息索取、数字图书馆、语音翻译、远程教育等一系列的人类活动都可在网络上实现。语音识别系统的出现，会让人更加自由的沟通，让人在任何地方，任何时间，对任何事都能够通过语音交互的方式，方便地享受到更多的社会信息资源和现代化服务。这必然会成为语音识别技术研究和应用的重要发展趋势。

参考文献

语音识别技术范文第3篇

其实,人工智能语音早在本世纪初就已经进入人类的生活,并有了相当规模的商业化应用。语音合成在这方面普及得最早,由电子合成的语音报读在公共交通报站、证券、通信等领域的信息查询应答获得了成功,并且获得了人们的接受和认可。这标志着人工智能语音已经获得进入人类生活的许可证和通行证。

人工智能语音的时代已经开始了,但它能走多远,可能会超出我们的预料。人工语音技术的普及应用是从人工语音合成后开始的。最初的语音合成是将真人讲的语句、语词片段录音存储,根据需要合成的语句叠加而成。目前还有许多场合使用这种技术,比如公交报站、轨道交通自动报站。如北京的公交车或者地铁(如4号线、13号线)就在使用语音合成技术,你会发现,报出的每个站名(地名)都比较自然,但语词连接语气有点怪。日前,笔者到北京某医院治病,在候诊的时候听到“XX号XXX请到2号诊室就诊”。初听之下,以为是人工叫号分诊,但仔细一听发现原来真是全人工合成的语音。若非仔细辨别,几乎会把它当作是真人讲的。

语音识别:对搜索应用的语音想象

2009年是一个不平常的年份,这一年全世界的人们都在茫然和期冀中躁动不安。世界经济到底会呈现出什么样的走势?无论是悲观论者,还是乐观主义者,心中的期冀其实都是一样的――人心向好。谷歌、微软、英特尔、摩托罗拉这些信息技术巨头们的选择是坚持不懈地推进人机交互技术的进步,这个选择代表了他们对未来的态度。

在人机智能交互领域,与微软和摩托罗拉依然看重书写不同的是,谷歌把交互重点放在了语音上。当然,作为搜索技术的领袖企业,谷歌的语音技术应用重点也主要是在搜索上。不过,我们依然看得很清楚,语音只是人机接口,不过智能交互性得到了极大的加强。

去年,谷歌在美国了英文语音搜索服务Voice Search,应用于Android、诺基亚S60、黑莓、iPhone等多个系列的手机。不过它的竞争对手微软也没有闲着,微软的布局并非刚刚开始,而是远远早于谷歌。

对于语音识别技术和人工语音技术市场而言,有一个场景应当被记住,那就是2009年11月27日的美国纽约时代广场。这是感恩节后的第一个星期五,是通常所说的“黑色星期五”。这一天,纽约时代广场上的两块大型LED显示屏上,并没有像往常那样播放路透社和纳斯达克的标识广告,而是如同接收外太空信号一般,不停地滚动着手机号码和没有任何逻辑联系的词句。神奇的是,这些是人们拨打888-376-4336后对着话筒任意说出来的,经过号码背后的语音识别系统处理后同步显示在屏幕上的词句,每个词句下面还有似曾相识的搜索结果网页――这是谷歌为旗下的语音搜索进行的一项推广活动。

谷歌将成为处在语音技术应用“风眼”上的企业?

别在意谷歌宣称的退出中国,它不会放弃中国这个市场。几乎是在它“退出”中国的同时,谷歌全球副总裁维克・甘多特拉(Vic Gundotra)也在北京向中国媒体展示该公司刚刚推出的中文版语音搜索。“纽约最好的意大利餐厅!”维克・甘多特拉拿出手机放在耳朵上,操着并不熟练的中文大声说道,然后笑眯眯地把手里的手机转向大家。是的,不到一秒钟的时间,屏幕上已经显示出了搜索结果。请记住,他讲的是中文,机器上识别出来的也是汉字。

权威的IT经理人杂志《IT经理世界》对于语音识别给出了一个生动的描绘:“不需要再噼里啪啦地敲击键盘了,一个并不陌生的语音时代难道已经来临?”

也许这还不是一个肯定的结论,但手机这个精灵让一切都变得清晰起来。手机将是这场语音化浪潮的中心。“在小小的手机键盘上输入文字搜索信息并不容易,”谷歌中国产品经理许裴说,“一些较长的词,键盘输入不仅速度很慢也容易拼错,而我们正在开车的时候是没有办法停下来用手打字的。”

据微软移动高级总监帕祖斯基(Dariusz Paczuski)统计,使用智能手机搜索一个餐厅需要按键盘超过20次,发短信则需要按更多次键盘。而只需张嘴的语音搜索则能提供更方便、快速和简单的搜索服务,大大降低人们使用手机搜索的门槛。

手机的演化也为语音搜索的实现提供了硬件基础。现在,几乎所有的手机都拥有录音、照相等功能,智能手机的出现则让手机从一个单纯的通话装置变成一台小型的计算设备。按维克的话说,麦克风和摄像头跟互联网相连之后,变成了“云端的耳朵和眼睛”。

谷歌在成功地击败对手微软,以搜索框超越了操作系统占领了用户的桌面之后,把重点放在了语音搜索上。这是谷歌又一次巨大的跨界战争。去年,谷歌在美国了英文语音搜索服务Voice Search,应用于Android、诺基亚S60、黑莓、iPhone等多个系列的手机。

其竞争对手微软也在早些时候就进行了语音技术的布局。比起谷歌的发展上市速度可以说并不逊色多少。早在2007年,微软就收购了领先的手机语音识别服务厂商TellMe,组成了微软现在的语音团队。TellMe一直在为包括411商务搜索、1-800-555的信息搜索以及美国航空在内的企业提供语音服务平台。微软新的语音团队的首要任务就是把语音搜索技术与Windows Mobile整合起来,移动版Bing搜索在三星手机上已经实现与谷歌类似的语音搜索功能。

在桌面上,微软早就通过输入法提供语音识别功能了,包括中文语音识别,遗憾的是真正的使用者却是寥寥无几。如果分析原因的话,除了识别准确率还有待提高之外,关键是使用场景问题。在桌面上,使用键盘和手写输入就很方便,而使用语音则显得怪怪的,而且也不是很方便。如果把使用场景换做手机上,情况就大不相同了。这是谷歌的聪明之处,它选择了手机。在可以预期的一段时间里,手机将会成为语音化浪潮的中心。谷歌将又是处在语音技术应用“风眼”上的企业。

语音技术将无处不在

自计算机诞生以来,让电脑认识人们写的字,听懂人们的说的话,就一直是人类的一大心愿和预期。早在上个世纪的六七十年代,计算机语音识别技术就开始了探索。IBM是最早进行语音识别技术研究的企业之一,上个世纪90年代就推出可用于声控打字和语音导航的语音识别输入软件IBM ViaVoice。不仅推出了汉语的标准普通话版本,还推出了四川等方言的普通话版本。用户只要对着电脑讲话即可输入汉字,输入速度能达到每分钟150个汉字,几乎是键盘输入的2倍、普通手写输入的6倍。尽管售价不菲,但这套软件在全球已售出100多万套。汉王科技当年正是基于这套软件,开发出了基于语音和手写识别的读写听产品。实现了人和计算机信息交互的“你听我说,我写你认”,从而也奠定了汉王科技今天在人机智能交互领域的领先地位。

微软在Windows XP之前,就在操作系统中添加了语音识别功能,在新推出的Windows 7里这一功能更为完善。不用键盘鼠标,用户可以通过语音对计算机进行简单的控制,如说一句“打开浏览器”,就可以轻松地打开IE。

刚刚上市的Exchange Server 2010中则有更加先进的语音邮件预览功能,可以自动为语音邮件提供文本预览。在不方便收听语音邮件的情况下,用户可以先通过语音邮件预览来了解邮件的大致内容,也可以通过阅读文本预览来决定邮件的优先顺序。

语音识别技术范文第4篇

【关键词】语音识别；
简单模板匹配；
预处理；
特征提取

1 语音识别技术原理

语音识别是为了让机器“懂”我们的语言，准确无误地识别出我们发出语音内容，并且做出符合语音内容的一系列动作，执行我们的意图。分析人类语言交流通信的过程，可以启发我们的研究思路。对人类语音通信流程[1-2]分析如图1。

由人类语音通信流程框图可以看出，人类发出语音过程如图左半部分，语音理解过程如图右半部分。语音识别包括两种含义，一是：将人类说的话转换成文字，二是：在充分理解口述语音的基础上，不仅仅是将语音转换为文字信息，而且对语音内容也要作出正确响应[3]。在此，本文认为语音识别和语音理解意义等同，所以可用图1右侧部分流程可将语音识别过程。

目前语音识别技术应用中大部分都是小词汇量，词语间相互独立基于简单模板匹配工作原理的识别模式。针对这种典型的语音识别模式，原理流程路线图[4]如图2所示：

1.1 基于发音模型的语音信号产生模型

语音信号的产生是语音识别技术的基石，在语音信号处理的大部分过程中对语音信号产生模型有很强的依赖性。本文研究过程中，首先对人类发音过程进行了解：人类发音流程是首先肺部收缩，迫使气流通过声门和声道引起音频震荡产生[3]。根据人的声道三种不同激励方式，分别对应产生了三种被大家熟知的发音类型，分别是浊音，摩擦音或清音，爆破音。

语音信号可看做由线性系统受到激励信号的激励输出产生。如图3是基于发音模型的语音信号产生模型流程图：

如图3建立的语音信号产生模型中认为浊音是周期为N0的冲激信号，且N0=fs/F0（其中F0是基音频率，fs是采样频率）。清音认为是一个均值为0，幅值是正态分布的波形信号。参数Av，Au分别用来调节浊音和清音的幅值。

从已有语音识别技术研究结果可知，窗函数类型众多，使用不同形式的窗函数对短时分析处理语音信号结果有很大的影响。已知目前应用最广泛的窗函数是汉明窗，结合仿真实验分析可以看出：高斯窗函数的横向主瓣宽度最小，但其纵向旁瓣高度最高；
汉明窗函数的横向主瓣宽度最宽，纵向旁瓣高度是三种窗函数中最低的。

2.3 端点检测

语音信号的起始点是语音信号处理的关键分界点，端点检测的目的就是找到连续语音信号中的信号起始点。常用的端点检测方法有两种，分别是短时平均能量和短时过零率[6]。当下流行的端点检测方法是短时平均能量和短时过零率两者的结合，称这种方法为双门限端点检测算法[7]。

在实际问题中通常采用两者结合解决问题。本文同样是采用两者结合的方法，利用短时过零率方法检测语音信号波形穿越零电平的次数，既代表的是清音；
用短时平均能量方法计算第y帧语音信号的短时平均能量E（y），既代表的是浊音，进而实现可靠的端点检测。

3 特征提取

目前特征是语音信号预处理中的重要步骤。在实际特征提取中，较常采用的参数是线性预测倒谱系数（LPCC）和Mel倒谱系数（MFCC）。二者采用的均是时域转换到倒谱域上，但是出发思路两者不同。线性预测倒谱系数（LPCC）以人类发声模型为基础，采用线性预测编码（LPC）技术求倒谱系数；
Mel倒谱系数（MFCC）以人类听觉模型为基础，通过离散傅利叶变换（DFT）进行变换分析。

其中k表示第k个滤波器，Hm（k）表示第k个mel滤波器组，f（m）为中心频率，m=1，2，…K，K表示滤波器个数。

经过仿真实验分析比较，可以分析得出Mel倒谱系数（MFCC）参数较线性预测倒谱系数（LPCC）参数的优点，优点如下：

（1）语音低频信号是语音信息的聚集区，高频信号相对低频语音信号更容易受到周围环境等的干扰。Mel倒谱系数（MFCC）将线性频标转化为Mel频标，强调语音的低频信息，从而突出了有利于识别的信息，屏蔽了噪声的干扰[8]。LPCC参数是基于线性频标的，所以没有这一特点；

（2）MFCC参数无任何假设前提，在各种语音信号预处理情况下均可使用，但是LPCC参数首先假定所处理的语音信号是AR信号，对于动态特性较强的辅音，这个假设并不严格成立[8]；

（3）MFCC参数提取过程中需要经过FFT变换，我们可以顺便获得语音信号频域上的全部信息，不需要多花费时间处理，有利于端点检测、语音分段等算法实现[8]。

4 训练与识别

训练和识别是语音识别的中心内容，有很多专家学者研究了一系列成果。语音识别实质是模式匹配的过程，而对分类器和分类决策的设计[9]又是模式匹配的核心。在现有的分类器设计[10-11]中，经常使用的有：动态时间规整（Dynamic Time Warping，DTW）分类器、基于人工神经网络（Artificial Neural Networks，ANN）分类器、基于高斯混合模型（GMM）分类器、基于Bayes规则的分类器、基于HMM分类器[12]等。

本文重点讨论语音信号预处理中技术及实现，对训练和识别技术不再做研究描述。

【参考文献】

[1]尹岩岩.基于语音识别与合成的低速率语音编码研究[D].上海师范大学，2013.

[2]伟伟.通信系统中语音质量评价的研究[D].北京邮电大学，2014.

[3]朱淑琴.语音识别系统关键技术研究[D].西安电子科技大学，2004.

[4]王伟臻.基于神经网络的语音识别研究[D].浙江大学，2008.

[5]钟林鹏.说话人识别系统中的语音信号处理技术研究[D].电子科技大学，2013.

[6]周刚，周萍，杨青.一种简单的噪声鲁棒性语音端点检测方法[J].测控技术，2015，（02）：31-34.

[7]薛胜尧.基于改进型双门限语音端点检测算法的研究[J].电子设计工程，2015，（04）：78-81.

[8]惠博.语音识别特征提取算法的研究及实现[D].西北大学，2008.

[9]张宁.基于决策树分类器的迁移学习研究[D].西安电子科技大学，2014.

[10]汪云云.结合先验知识的分类器设计研究[D].南京航空航天大学，2012.

语音识别技术范文第5篇

[关键词]语音识别　期刊编辑出版　应用

[中图分类号]G23[文献标识码]A

在信息化社会里，采用先进的技术与手段进行信息的采集、处理、传播是出版业发展的必然，也是信息化社会对编辑工作者的要求[1]。随着现代科技的迅速发展，编辑出版工作的运行方式正在发生变化，表现为管理的现代化和手段的现代化。作为期刊编辑必须适应这个变化，将科学的方法和先进的技术手段有机地结合起来，紧跟时代潮流，促进期刊编辑工作现代化。

语音识别技术是机器通过对语音信号的识别和理解过程将语音信号转变为相应的文本或命令的技术，是信息技术领域十大重要的新技术之一，其应用已经成为一个具有竞争性的新兴高技术

产业[2]。

科技期刊的编辑出版对语音识别技术的运用，主要是指采用先进的语音识别应用设备、软件和操作平台，对期刊信息进行采集、处理、存储和传播，实现便捷、高效的期刊编辑出版。语音识别技术的应用可使编辑甩掉键盘，通过语音命令对机器进行操作，让编辑记者从事务性劳动中解放出来，将更多的时间精力用于创造性劳动中，更好地从事编辑活动，达到编辑工作的目标[3]。

在网络时代，作为一个期刊编辑，需要随时了解行业动态，把关出版内容，审核信息真实性，根据编辑规范对文章进行加工制作，这一切都离不开对信息、资料、标准的查询检索。互联网搜索引擎，如百度、谷歌等，是目前人们最为常用的一种网络检索工具，编辑记者无时无刻不在使用。通过手写或键盘输入关键字的检索方式，虽然比传统的纸质书报刊查阅有了质的飞跃，但也非尽善尽美：一是不能满足国际上通行的“普遍服务”要求，例如文盲、肢体残障人和老年人无法使用。二是搜索服务精准率不高，搜索引擎提供的结果众多，包含大量广告和无用信息，要找出所需要的知识还需要一条一条打开链接再搜寻。三是音视频搜索存在许多盲点无法检索，例如在数字出版中要搜索电视剧某一片段仍很困难。

通过语音识别技术，可以有效解决这些问题。例如，期刊编辑需要查找某些内容，可以运用iPhone4S智能手机搭载的“siri”的来完成。其先在设置里把siri打开，然后按home键唤出siri，再点一下界面上的话筒，siri开始聆听。语音输入完成，siri就开始识别并且作出回应。因为跳过了谷歌、百度的所有步骤，从而免去了打开链接再收寻的烦恼，而且回答以自然语言的形式呈现，准确度高，可帮助编辑大大提高搜索效率。

又如，编辑需要一段乒乓球比赛的视频，利用“中文电视广播新闻节目识别系统”，编辑只要说出“侧身抢拉”、“前三板”等词，系统就可以找到精确到秒的视频片段。同样，如果想找一部电影的片段，只需记得其中的经典台词，对着系统说出即可精准搜索。编辑需要查找某首歌曲，可以利用哼唱搜索引擎——Midomi，对着麦克风哼唱某段旋律，便可轻松找到想要的歌曲，它甚至可以自动纠正哼唱者曲调的错误。

语音识别技术应用于搜索引擎中，可为期刊编辑工作提供精准、方便、快捷的技术手段，并为所有能发音说话的人提供互联网服务。对下一代搜索引擎来说，语音搜索是未来发展方向。

二、语音识别技术在采访中的应用

采访是编辑记者同采访对象进行语言交流的动态过程。目前，媒体的采访工作受到两大问题困扰：一是访谈采用笔录、摄影及录音、录像等形式，采访结束后，需要将上述素材整理成文字资料，这是一个费时费力的苦差事；
二是许多采访活动会涉及与非母语的外国人士交谈，由于语言不通，不利于交流，影响采访的展开。为解除这两大困扰，科研人员经过长期的努力，提出了许多有效的解决方案，其研究成果也已应用于实际。

利用谷歌的在线文本翻译器，编辑记者在采访过程中，可以使用母语对设备讲话，设备随后将编辑记者的声音转化成被采访者所希望的语言，并以人造合成声音的方式输出；
受访者也可以使用母语与编辑记者对话，该设备会将受访者的语言转化成编辑记者的母语，从而保证了编辑记者与外国人的畅通交流。iPhone4S智能手机应用Lingual后，会将用户的讲话显示在iPhone屏幕上，可供选择的语言达30种。由BBN公司开发的翻译设备TransTalk，也允许使用不同语言的人进行双向对话。

我们可以设想一下这一“语音控制时代 ”的采访和写作，一旦采访者与被采访者的灵思闪现，只需要拿出自己的智能设备，对其发出指令，随意念出所思所想，便将成为媒体选用的作品。

三、语音识别技术在文件输入中的应用