语音识别技术的发展历史

作者:udesk 1322文章阅读时间:6分钟

文章摘要:1952年,贝尔学会发明了一种能够辨认10个英文数字的语音识别系统。但是,在六十年代后期和七十年代早期,真正有了实质性的进步,并且把它当作一个主要的主题来进行研究。这主要是由于计算机技术的发展,使得...

沃丰科技

1952年,贝尔学会发明了一种能够辨认10个英文数字的语音识别系统

但是,在六十年代后期和七十年代早期,真正有了实质性的进步,并且把它当作一个主要的主题来进行研究。这主要是由于计算机技术的发展,使得语音识别的软硬件结合起来,尤其是语音的线性预测编码(LPC)和 DTW (Dynamic Transmission, DTW)技术,可以很好地解决语音信号的特征抽取和不等长度的匹配问题。这一阶段的语音识别技术是以模板匹配为基础,研究范围仅限于具体人群,单字单字的识别,并以线性预测倒谱和 DTW技术为基础,建立了一套针对具体人的单字语音识别系统;同时给出了 VQ和 HMM (HumanMulti-Multiple Multimechanism, HMM)两种方法。

由于使用范围的扩展,词汇表、特定人、孤立词等都有必要放松对语音识别的限制,但同时也给人们带来了一些新的问题:

一、词表的扩展,使模板的选择和构建变得很困难;

二、在连续语音中,每个音素、音节和单词之间没有明确的界限,每个音素单元都有一个共同的发音,这是受到语境的强烈影响;

三、在不同的人群中,不同的人说着同样的语言,其音色特点也会有很大的不同,甚至不同的时间,不同的生理,不同的心理状态,不同的人,所说的内容也会有很大的不同;

四、语音识别存在着背景噪音和其它干扰。所以,传统的模板匹配算法已经不能满足要求。

在实验室里,语音识别技术取得了重大突破:在实验室里,人们首先打破了词汇量大、连续语音和非特定人群三大难题,并首次将三种特征整合到一个系统中,其中最具代表性的是卡耐基梅隆大学的 Sphinx系统,该系统是首款针对非特定人群、大词汇量连续语音识别的高性能系统。

在此期间,语音识别技术得到了进一步的发展, HMM模式和 ANN技术的应用成为了一个新的发展趋势。HMM模式的推广,得益于美国 AT& TBell Labiner等人的努力,他们将 HMM的复杂的纯数学模型转化为工程化,让更多的研究者认识和理解,使得统计技术在语音识别中占据了主导地位。

统计分析的视角由微观到宏观,没有刻意去追求精确性,而更倾向于从总体上(统计学)的观点来构建最优的语音识别系统。在语音模型上,基于 Markov链的语音序列建模技术 HMM (Multi-Markov链)能够较好地克服短时稳定、长时变的特点,能够将某些基本的建模单位构建为连续的语句模型,具有较高的准确性和灵活性。在语言层次,采用 N元统计方法,对实际大规模语料库中词语的同现概率进行统计,以区别不同的语音和同音语音。此外,基于语法规则的人工神经网络和基于语法规则的语言加工方法也被广泛地用于语音识别。

20世纪90年代早期, IBM,苹果, AT& T, NTT等知名公司都投入了大量资金用于实际应用的语音识别系统。在20世纪90年代中期和晚期的实验室研究中,语音识别技术具有良好的评价机制。具有代表性的是 IBM公司的 ViaVoice和 DragonSystem的 Nuance语音平台、微软的 Whisper、 Sun的 VoiceTone等。

IBM公司在1997年研发了汉语 ViaVoice语音识别系统,并在第二年推出了ViaVoice'98,该系统具有上海方言,广东话,四川方言等方言。该词典包含32,000字的基础词汇表,可扩充至65,000字。此外,还包含了办公室常用词条,并具备“纠错机制”,平均识别率可达95%。本系统是汉语连续语音识别的典型代表。我国的语音识别技术是从50年代开始的,但是在最近几年里却得到了快速的发展。从实验室到实用化的研究。自1987年实施863计划以来,国家863智能计算机专家小组对语音识别技术进行了专项立项。目前,国内的语音识别技术已基本赶上国外,汉语语音识别技术也具有自身的特色和优越性,处于世界领先地位。中科院自动化所,声学所,清华大学,北京大学,哈尔滨工业大学,上海交通大学,中国科技大学,北京邮电大学,华中科技大学等科研机构,以清华大学电子工程系和中科院自动化研究所模式识别国家重点实验室为代表。

由清华大学电子工程系的语音技术和特殊芯片设计团队研制的汉语数字串连续语音识别系统,其识别准确率为94.8%,固定长度字符串为96.8%。当拒绝率为5%时,该方法的识别率为96.9%,定长字符串为98.7%,其性能已接近实际应用。研制的5000字信封校验非特定人群的连续语音识别系统,其识别率分别为98.73%和99.96%;能区分普通话和四川方言,满足实际需要。

中科院自动化所及其下属的模特科公司于2002年发布了一款“天语”中文语音系统,该系列产品是针对各种计算平台与应用而开发的 PattekASR,终结了1998年以来中文语音识别领域被外国公司垄断的局面。

沃丰科技GaussMind语音识别技术基于自研原心引擎语音语义融合方案,打通业务领域数据,实现业务定制化的效果体验,自然场景识别率超过95%,个性化词汇识别超过97%,同时为语义模块提供丰富的识别结果输出,使语义识别率提升5个点以上。

文章为沃丰科技原创,转载需注明来源:https://www.udesk.cn/ucm/faq/19507

上一篇: 下一篇:

语音识别技术的发展历史的相关推荐

最新文章推荐

展开更多
 

手机登录下载

 

使用手机登录账号,免费下载白皮书

 
手机登录