technologySCM技术

语音识别技术

语音识别技术,也被称为自动语音识别(Automatic Speech Recognition,ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。

随着数据处理技术的进步以及移动互联网的快速普及,计算机技术被广泛地运用到了社会的各个领域,随之而来的则是海量数据的产生。其中,语音数据受到了人们越来越多的重视。语音识别是一门交叉学科。近二十年来。语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件大事之一。很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科拄发展技术之一。语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。

识别.jpg

语音识别技术使得手持式电脑的使用者不需分心留意屏幕。在IT产业提倡开放系统及互操作性的大潮下,目前语音合成/识别功能已经能轻易地融合进多种已有的供应链应用软件里,包括仓库管理、提货及存放、库存、检验、品质监控等,这主要是得利于终端仿真(TE)语音识别技术的面世。根据一项对大批量配送中心所作的调研结果显示,使用条码数据输入方法的准确性比传统语音技术高4%(前者为9%,后者为95%),但使用条码处理需要多26个全职工人。如果采用结合条码和TE语音识别技术的系统,其准确性与单纯使用条码技术相当,但可以少用22个全职工人。

语音识别方法编辑 

语音识别技术常用的方法有如下四种:1. 基于语言学和 声学的方法,2. 随机模型法,3. 利用人工神经网络的方法,4. 概率语法分析。其中最主流的方法是随机模型法。 

基于语言学和声学的方法

基于语言学和声学的方法是最早应用于语音识别的方法,但是这种方法涉及的知识太过于困难,导致现在并没有得到大规模普及。

随机模型法

随机模型法目前应用较为成熟,该方法主要采用提取特征、训练模板、对模板进行分类及对模板进行判断的步骤来对语音进行识别。该方法涉及到的技术一般有3种:动态时间规整(DTW),隐马尔科夫模型(HMM)理论和矢量量化(VQ )技术。其中,HMM 算法相较于其他两者的优点是简便优质, 在语音识别性能方面更为优异。也正因为如此,如今大部分语音识别系统都在使用HMM算法。 

神经网络的方法

(ANN)神经网络方法是在语音识别发展的后期才有的一种新的识别方法。它其实是一种模拟人类神经活动的方法,同时具有人的一些特性,如自动适应和自主学习。其较强的归类能力和映射能力在语音识别技术中具有很高的利用价值。业界将 ANN 与传统的方法进行结合,各取所长,使得语音识别的效率得到了显著的提升。

概率语法分析法

概率语法分析法是一种能够识别大长度语段的技术,主要是为了完成“区别语言的特征”,对于不同层次的知识利用相应层次的知识来解决。这种方法最大的不足就是,建立一个有效、适宜的适用知识系统存在着一定的困难。