高识别率、高准确率的智能语音识别系统是如何实现语音识别的

作者:udesk 808文章阅读时间:4分钟

文章摘要:语音识别技术是一种高端技术,它使机器能够将声音信号转换成文字,并将其转化为指令。其目标是让机器具有听觉特征,能够理解人类所说的话,并做出相应的反应。在语音识别系统中,语音识别主要包括两个模块:声学...

沃丰科技

语音识别技术是一种高端技术,它使机器能够将声音信号转换成文字,并将其转化为指令。其目标是让机器具有听觉特征,能够理解人类所说的话,并做出相应的反应。在语音识别系统中,语音识别主要包括两个模块:声学识别模型和语言理解模型,并对其进行语音处理。一个智能语音识别系统包括特征提取、声学模型、语言模型、解码等四个方面。

高识别率、高准确率的智能语音识别系统是如何实现语音识别的

(1)过滤——语音输入的预处理模块

对输入的语音信号进行处理,过滤出不必要的信息和背景噪音,然后进行语音信号的端点检测(即发现声音的始末)、语音分帧(大致上可以把一段声音看成是一段由若干帧组成的连续图像组成的视频,可以把声音信号分割成单独的“画面”进行分析)。

(2)特征提取

在剔除了语音信号中多余的多余信息之后,将其作为语音的基本特性加以处理,并以特定的形式表达。即通过抽取重要的特征参数,使其能够反映出语音的特点,从而形成一系列的特征向量,供以后的处理使用。

(3)声学模型训练

声学模型就是对声音的建模,它可以将声音的输入转化为声学表达,或者说,是一个特定的声学符号。通过对语音库的特征参数进行训练,得到了语音模型的参数。在识别过程中,通过对所述语音的特征参数与所述声学模型进行匹配,从而获得所需的识别效果。目前,大多数的语音识别系统都是基于 HMM的隐马尔可夫模型来建立声学模型。

(4)语言模型训练

语言模式是用来对句子发生的概率进行计算的,简而言之,就是对一句话的语法正确与否进行估计。由于句子结构有一定的规则性,在开头的单词通常会在后面出现。它主要是用来判断哪些单词顺序更有可能,当有一些单词出现时,它会预测下一个单词。它可以确定哪个词可以跟随前一个被确定的字(匹配是一个连续的处理程序),从而可以排除某些不可能出现的词。

该模型可以将汉语的语法和语义知识有机地结合起来,通过对词语间的相互关系进行描述,从而提高了识别率,降低了检索距离。通过语法和语义分析,建立了一个基于统计模型的语料模型。

(5)语音解码和搜索算法

解码是语音技术中的一种识别处理。在此基础上,利用经过训练的 HMM声学模型、语言模型和词典,在此基础上构建了一种基于 HMM声学模型、语言模型和词典的辨识网络,并在此基础上通过一种新的搜索算法来找到最优的一条路径,即一条可以将语音信号输出到最大的语段。因此,译码运算是一种搜索算法,也就是利用译码端的检索技术来查找最好的词组。

连续语音识别中的检索就是通过对输入的语音进行一系列的描述,并由此获得相应的译码序列。该搜索基于对语音模式和语音模式评分的公式。在实际应用中,常常需要根据经验对语言模型进行较高的加权,并设定一个较长的单词惩罚得分。

语音识别实质上是模式识别,将未知的声音和已知的参考模式逐个对比,得到最优的参照模式。当今语音识别技术的主流算法,主要有沃丰科技GaussMind语音识别技术,基于上下文语义,采用大数据分析,对内容实时动态纠错,自动过滤敏感词等;提供自定义声学以及语言模型优化。

 

文章为沃丰科技原创,转载需注明来源:https://www.udesk.cn/ucm/faq/19494

ASR语音识别智能语音识别语音识别语音识别技术

上一篇: 下一篇:

高识别率、高准确率的智能语音识别系统是如何实现语音识别的的相关推荐

最新文章推荐

展开更多
 

手机登录下载

 

使用手机登录账号,免费下载白皮书

 
手机登录