沃丰科技AI科普｜什么是ASR语音识别？（附ASR技术应用案例）

2022/09/28作者：udesk 3680文章阅读时间：8分钟

文章摘要：在过去的十年里，人工智能驱动的语音识别系统已经慢慢成为我们日常生活的一部分，本篇文章从几个部分科普一下什么是ASR技术，以及沃丰科技在其中的成功案例。

智能客服机器人-7*24小时在线获客点击查看详情>>

AI外呼机器人-企业外呼得力助手点击查看详情>>

智能质检-全量质检，提升人工质检效率点击查看详情>>

本文目录

首先什么是ASR技术？
语音识别过程一般包括三个部分：
ASR技术的发展历程
ASR技术应用中遇到的难点
目前应用的前沿技术是什么？（以沃丰科技相关技术为例）
附录：
想了解ASR技术应用下的语音机器人可直接戳下方图片免费咨询

在过去的十年里，人工智能驱动的语音识别系统已经慢慢成为我们日常生活的一部分，从语音搜索到客服中心、汽车、医院和餐厅里的虚拟助理。许多行业都在使用自动语音识别（ASR）来提高业务生产力、应答效率以及在线业务满意度。

接下来，小编通过本篇文章来讲述一下这背后的技术以及流程。

首先什么是ASR技术？

语音识别技术是一种将人的语音转换为文本的技术。其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同，后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。简单来说，ASR技术就是将人的语言转化为计算机能够识别的文字的过程。

语音识别过程一般包括三个部分：

① 声学模型：描述在给定词的情况下，对应声学信号的概率。

② 语言模型：描述语言序列关系的模型，关注序列产生的概率。

③ 解码器：根据声学模型和语言模型，搜索出最有可能的词序列，其本质是一个动态

规划算法。

语音识别的一般流程为根据输入的语音，提取语音特征，通过解码器融合训练好的语言模型和声学模型，得到最终的词序列结果。字典的作用根据声学模型识别出来的音素（汉语中一般为声韵母），来找到对应的汉字（词）或者单词，用来在声学模型和语言模型建立桥梁，将两者联系起来。

ASR技术的发展历程

语音识别技术在10年以前是统计模型；10年到20年，运用的模型包括了特征提取、声学模型，语言模型等模块，是一个pipeline的系统，而到了20年以后，end-to-end从输入到输出只用一个算法模型，输入是语音信号，输出就是最终的词序列的结果，也叫做端到端技术；另外这一阶段也将图像、翻译技术融入到语音识别中，满足多种场景的需求。

另外模型训练方面，其模型分为通用领域和垂直领域两种。近年来，根据语音识别在不同场景中的应用效果显示，通用模型识别准确率远低于垂直模型的识别准确率，所以许多相关技术公司都在转向垂直领域的模型训练。

ASR技术应用中遇到的难点

在自动语音识别应用场景中，那句“抱歉，我听不懂您在说什么”或者“不好意思，请您再重复一遍”大概是所有使用者以及开发者的噩梦吧。这两句话代表的对话的失败，而导致这种问题出现的原因大概是以下几个方面，这也是ASR技术在落地应用中需要克服的难点问题。

噪音问题

在实际应用中，用户在于语音机器人沟通的过程中，所处的空间是具备多样性的。比如外卖员、快递员在送货的过程中，会有风噪声、喇叭噪声、行驶声等，这对于语音识别就会有一定的影响，比如大促期间，顾客在地铁上、超市中的声音也会对语音识别构成影响。

口音问题

口音问题包含方言以及口音不准的问题。所谓“十里不同音，百里不同俗”。作为一个幅员辽阔的多民族国家，我国56个民族使用的语言分属五大语系，共有80种以上语言。其中，汉语的使用人数最多，分为标准语（普通话）和方言。汉语方言通常分为十大方言，各方言区内，又分布着若干次方言和许多种土语。部分方言之间差异很大，无法通话。为了消除语言隔阂，国家在全社会大力推广普通话。然而，来自天南海北的人们，又赋予普通话五花八门的口音。而对于语音识别来说，这就是一个极其困难的事情。

实体识别

通俗来说，语音识别模型就是一个概率模型，当语音传入语音识别模型中，输出为日常生活中常用到的词语与句子的概率是高于其他稀疏词的，日常生活中人名、地名、机构名、专有名词、药名等，这种在不常用到，所以输出为它本身的人名、地名的概率比较小，因此对这些词的识别准确率是决定该模型识别准确率高低的关键因素。

目前应用的前沿技术是什么？（以沃丰科技相关技术为例）

垂直领域数据训练

相较于通用数据，沃丰科技专注于客服领域，已经为超过60家世界500强、200家中国500强客户提供服务，沉淀了大量的可用于模型训练的客服数据，能够支撑沃丰科技对模型进行深度的优化。

端到端技术方案

与BAT企业相比，沃丰科技率先完成了从pipeline到端到端到技术改进，能将输入语音直接进行转化，而传统pipeline串联过程中会有信息的遗失，信息转化，转化链路长。端到端的技术则转化链路短、速度快，目前沃丰科技在这一过程中也实现了模型深度优化。

语言与声学模型结合

热词优化方面，行业内对词语进行少量的优化的情况下，都会用这个热词的方案，比如优化姓名、地址、药名等无实际意义且不常见的词，这种词用传统的语言模型的方式或者热词方式是无法解决的。而沃丰科技通过语言模型与声学模型结合的方式解决了这种问题，准确率得到大幅提升。

通过上述方式，沃丰科技GaussMind语音识别技术达到了行业先进水平，识别率可达95%。能够进行语音实时转写，边接收语音，边返回文字；识别效果优化，个性化准确率提升

附录：

赠送几个沃丰科技在ASR识别过程中的成功案例，用来佐证其在目前垂直行业中的高识别准确率，也为其他企业相关场景的识别率提升提供一个解决思路。

96123

96123 是北京地铁服务热线，于2021年3月31日上线试运行，业务范围覆盖北京城市轨道交通全路网范围内的运营、票务和站内服务等相关信息咨询等服务，如乘车线路，票价查询等日常乘坐轨道交通伴随的问题。

痛点问题

1.日常咨询量较大，人工处理工单量大、工单流转效率有待提升

2.环境噪音、背景噪音及高地铁站名称相似度，数字与汉字并存，给语音识别带来挑战

3.北京作为首都，人员范围广，五湖四海的人群口音给语音识别带来难度

4.用户表达多样性高，路线信息语义识别困难

解决方案

全面定制化：自研的GaussMind“原心引擎”进行全面定制化识别、理解，快速、高效地打造96123智能语音机器人

ASR（自动语音识别）：“听清”用户说的“是什么”，准确识别来自五湖四海的口音

NLP（自然语言处理）：“听懂”用户说的是“什么意思”，准确理解出发地、目的地

对接业务系统：为用户快速提供查询结果信息，让北京地铁出行查询更加智能、便捷

松果出行

松果出行成立于2017年9月，在全国各县域运营共享电单车（松果电单车）及新能源汽车租赁（松果租车）等业务，已在全国24个省近千个县级区域成功运营，成为县域城市公共交通系统重要组成部分，是下沉市场共享电单车的领航企业。

痛点问题：

1、面对县域用户，需多样化口音支持：面向全国27个省的县域城市，主要集中在三四五线城市用户，各地用户的普通话往往带有当地口音，需要做到支持口音识别。

2、多系统对接：松果出行自有呼叫中心、短信平台、订单管理、车辆管理等系统，需要将机器人与多个系统对接，完成订单、车辆的自动管理，支持特定业务自动生成工单。

3、业务问题广泛且普遍共享电单车在使用过程中遇到的问题比较普遍，涉及问题场景较多，例如车辆问题：车辆故障、停车失败；订单问题：订单费用、订单退费；账户押金问题：账户余额、押金等。

解决方案

定制化识别：松果出行县域城市客户群体规模大，多数客户带有口音，客户极其看重ASR识别转写能力，沃丰科技经过ASR模型定制化，识别准确率远高于讯飞等其他供应商。
多方系统协调对接：基于以往对接其他呼叫中心的丰富经验，语音机器人与松果已有呼叫中心通过IP点对点方式直接对接，同时在机器人话术流程中增加查询订单、车辆自动关锁、创建工单及发送短信等外部接口，触发某些特定业务后自动进行，实现多个系统间的连接。
语音标注及声学模型训练：打通松果问题话术、知识库等行业历史数据，通过原心引擎，输出识别结果，基于深度学习NLU模型，融合ASR输出最优结果，在对话详情中嵌入语音标注，支持录音转写问题标注，不断优化原心引擎，使得三线城市带口音的普通话转写正确率达到95 %以上。同时，基于业务需求标准化，语音机器人系统内置的变量类型支持实体识别，对语义进行定制化识别，实现与客户的良好交互。
想了解ASR技术应用下的语音机器人可直接戳下方图片免费咨询