基于VXML技术的语音门户研究

时间:2023-04-25 14:36:02 公文范文 来源:网友投稿

摘要:语音门户可以通过电话来浏览网络信息,而VXML是XML语言在语音门户方面的应用。介绍了语音门户系统的结构模型及主要关键技术:VXML技术、自动语音识别技术和语音合成技术,并结合汉语特点研究了单边自相关线性预测法,可以提高噪音影响下的语音识别率。

关键词:语音门户;VXML;自动语音识别;语音合成

中图分类号:TP393文献标识码:A文章编号:1009-3044(2009)34-9779-03

VXML-based Voice Portal Technology Research

JIA Lin, LI Xin-ke

(School of of Computer and Information, Hefei University of Technology, Hefei 230009, China)

Abstract: The Voice Portal can browse through the phone network information, while the VXML is the XML language in the voice portal application of IT. Describes the voice portal system structure model and key technologies: VXML technology, automatic speech recognition technology and speech synthesis technology, combined with Chinese characteristics was studied sided autocorrelation linear prediction method, the noise can improve the speech recognition rate under the influence of.

Key words: voice portal; XML; ASR; TTS

随着信息技术的发展和普及,人们希望通过电话获得更多的信息;基于VXML技术的语音门户(Voice Portal)是由一组互相关联的应用组成,用于帮助电话用户通过语音访问因特网上大量的内容。使用先进的电话系统,语音识别和文本转语音技术,用户能够从任何一个普通电话机上获取基于互联网信息。使用语音门户,不但可以拨打电话,还可以在一次连续的通话过程中获取互联网上的有关内容。这项在语音技术发展基础上产生的新的交流方式,充分显示了语音合成和语音识别的强大功能,使用户通过电话或移动设备访问Internet,获取信息和进行交易成为可能。

1 语音门户关键技术

1.1 VXML技术

VXML(Voice eXtensible Markup Language)是W3C(World Wide Web Consortium万维网联盟)定义的可扩展标记语言(XML)的一种扩展,简单来说是可以通过电话访问Internet网络的协议标准,定义了一套在设计上与网页编写标准相类似的标记语言,以规范应用程序的语音问题,并根据播放的提示信息、口述命令、要记录和识别的语音或按键音输入,实现人和计算机之间的交互对话,使人们能够通过语音和电话访问网站上的信息和服务。

建立在XML数据机制基础之上的VXML语音浏览是语音门户的核心。它可以与数据库、HTML以及其他文档处理系统无缝结合,实现互联网与电话网的融合。

标准的VXML的结构模型[1]一般分为三个部分:用户终端、VXML服务器(解释器)、文档服务器,如图1所示。

文档服务器(WEB Server):用于存放VXML脚本文件,和事先录制好的音频文件等一切有关的文档。VXML Server通过HTTP请求从该文档服务器获取各种需要的文件。在处理一个来自终端应用的请求时,这一请求经过了VXML解释组件处理,作为响应,文档服务器产生出VXML文档,在回复当中,要经过VXML解释组件的处理。

VXML服务器(VXML Gateway):用于接收和识别用户的输入,解释和执行VXML脚本文件,并把结果转换成语音输出给用户。它一般具备下列组件:VXML解释器组件(VXML Browser),呼叫控制组件(CCXML Browser),自动语音识别组件(ASR),语音合成组件(TTS)等。这些组件共同组成了VXML的解释和执行平台。

VXML系统结构的工作过程如下:

1) 和互联网用户通过键盘输入某个WEB页面的地址(URL)来访问WEB应用类似,VXML用户通过电话或者VoIP终端拨打某个应用对应的电话号码来访问该应用程序(图中的步骤1)。

2) VXML服务器收到用户的呼叫后,根据用户拨打的号码去文档服务器查找对应的VXML文件(图中的步骤2)。

3) 通过HTTP请求把文件下载到本机执行,根据特定应用的需要,VXML服务器可能会发出多个HTTP请求获取和应用有关的其他文件,比如需要播放的语言文件等(图中的步骤3)。

4) 然后由 VXML解释器组件(VXML Browser)解释和执行VXML脚本语言并把结果转换成语音传送给用户(图中的步骤4)。

在执行过程中,用户可能需要通过语音和VXML服务器进行交互,比如菜单选择或者对查询结果进行过滤等。VXML服务器通过呼叫控制组件(CCXML Browser),自动语音识别组件(ASR),语音合成组件(TTS)来实现这些交互。

1.2 自动语音识别技术

自动语音识别[2](Automated Speech Recognition,ASR)技术是让机器"听懂"人类口述的声音。这里听懂有两种含义,第一种是将这种口述语言逐词逐句的转换为相应的书面语言(即文字),第二种是对口述语言中所包含的要求或询问作出正确的响应,而不拘泥于所有词的正确转换为书面文字。在人机交互系统中主要是第二种,能使得应用系统能够识别电话用户的语音输入,将这些声音以波形的形式缓存起来,然后用专用的切割算法将波形切割为一个个音素,再将这些音素的特征值提取出来,与系统中存放的标准(经过训练)的参数进行比较,如果相似(当然要定一个最大似然比),则识别成功,否则失败。目前,最好的ASR系统能够在一定范围内达到自然语言的识别。虽然由于技术的局限和中国多方言多口音的特征,使得ASR系统的应用受到一定的限制,但是ASR技术仍然在不断地走进人们的日常生活,人们也在开始使用语音的方式与电话语音应用系统进行交流。

1.3 语音合成

语音合成[3] (Text To Speech,TTS)又称之为正文~语音合成,是将文本数据流转化为人类语言的过程。TTS先对文本数据流进行分解和分析,根据分析的结果从原始语音库中取出相应的语音基元,然后使用特殊算法将语音基元合成语音。TTS的播放请求在一个TTS通道上被接收,文本以数据流的形式顺序存人该通道上的一个缓冲区。文本数据流被转换成语音表达形式后,便可以通过电话传递给最终用户。

TTS技术和ASR技术相反,TTS是先将要求输出的文本进行规范化,然后进行基于规则的文本标注,将文本解析为基于匹配基元的程序可识别的标准文本,再根据这些标注检索这些基元的发音,按照一定的拼接算法将一个个基元进行拼接,对韵律进行修饰后达到一定的自然度,然后输出合成语音。

TTS技术相对于ASR技术来说在实际应用中显得更成熟。目前,较好TTS系统已经可以达到比较好的可懂度和自然度。TTS技术是使互联网信息流向公用电话网的关键技术,它可以将诸如及时新闻等的文本信息转换成语音格式并通过电话播放给用户,从而摆脱了电话用户只能收听到预先录制好的录音的传统使用方式。

2 语音门户的应用架构

语音门户主要由VXML浏览器、语音识别引擎、语音合成引擎和语音通道组成,其结构框图如图2所示[4]。

2.1 VMXL语音浏览器

VMXL语音浏览器是驻留在网络上的一种应用程序,它位于语音、电话和因特网组件之上,负责将VXML应用程序传递给用户。语音浏览器由负责解析VXML文档的VXML翻译器以及连接语音和电话组件的界面组成。

与传统浏览器一样,语音浏览器也是位于终端设备上,上面说的"前端"是一种相对概念,其实功能就相当于IE等浏览器,最明显的区别就是浏览界面,传统浏览器是正规的基于视觉浏览,而语音浏览器是基于听觉的流程浏览界面。

VXML解析器是整个语音浏览器的核心,提供了对VXML页的元素和属性的翻译功能。元素和属性经过翻译而产生的操作。最终将驱动ASR、TTS和电话资源的运行。

当接收到一个启动事件(例如从外面拨入的电话呼叫)时,浏览器通常首先使用HTTP协议提取该应用程序的第1个VXML文档。第1个VXML应用程序文档被浏览器安装到内存中,以便解析器进行解析。解析器通过网络协议(如HTTP等协议)建立应用和会话,获取VXML脚本语言所描述的包含控制命令的应用文档,解析该应用文档,根据文档中的标志建立对话,从而解释各个对话,产生相应的控制命令,控制语音识别、语音合成引擎以及语音通道的触发、开启和关闭、挂起等,实现与用户的交互式会话,并根据对用户反应的识别结果进行导向判断、进行文档之间的转移和应用之间的跳转。

2.2 语音识别引擎

语音识别引擎[5]使计算机能理解用户的语音命令,产生相应的文字结果,送回VXML解析器做处理。语音识别引擎不仅能听懂用户的语音,还能完成语言理解、语法分析、对话(包括人机对话和流程)控制和语音输出等工作。语音识别引擎根据有限的语法来识别用户的语音信号,产生对应语法定义的识别结果。语法决定了用户能说什么、如何说。一个优秀的语法设计能带给用户良好的交互感觉,也能从逻辑上提高语音识别引擎的识别率,使整个语音应用的浏览流畅而自然。语音识别引擎不仅能够处理对用户语音信号的识别,同时还可以处理对用户按键的识别。按键和语音以同样的机制被处理和传递。语音识别引擎可以包含1个双音多频(DTMF)系统。DTMF系统通过对按键式电话的键盘输人进行翻译,实现音频播放。每个按键都能够产生惟一一个可被识别的音频。该系统使得用户可以使用电话键盘将数字信息输人VXML应用程序,并且由程序负责接收和理解这些数字信息。

只要有语音库支持,识别引擎就可以识别不同的语言。为了给用户提供方便完善的服务,提高语音识别引擎的识别率,识别引擎应尽可能抑制传输中的回声和消除噪声干扰,以提供良好的语音中断功能和自然语言处理功能。

2.3 语音合成引擎

语音合成引擎处理VXML解析器将文字转换为语音信号并通过语音通道播放给用户。可以将文字转换成语音文件,也可以转换成语音数据流,或者直接将事先录制好的语音文件直接播放或以流的方式播放给语音通道,它提供了系统向用户输出的语音界面。

传统的数字录音回放方式需要人工进行录音。录音需要大量的人力且不能实时提供信息,对海量录音数据的存放、查询和维护的工作量较大。而语音合成使绝大多数工作可以用计算机来完成,人们只需提供现成的文本信息即可输出声音信息。语音合成可以实现对实时性要求很高的信息实时转换。将信息以文本形式存储在计算机中可节约大量系统资源,且维护和修改也容易得多。通过语音合成技术只需对文本信息进行修改就可以完成信息内容的更新和维护。

2.4 语音通道

语音通道是在VoiceXML语音门户中用于传输用户的语音数据信号和语音合成引擎所产生的声音数据信号的传递通道。它连接物理上的语音采集和播放设备、语音识别引擎的语音输入端、语音合成引擎的语音输出端。在基于电信平台的语音应用系统中,语音通道的物理设备主要是语音卡、语音信道或以数字编码形式存在的虚拟通道。而在PC平台上,声卡则成为主要的语音通道。

3 语音门户的完善

目前的语音门户在技术上仍需要一些完善的地方,比如:语音门户的核心引擎——语音识别系统都面临环境噪声干扰的问题,而且不同应用环境的噪声有不同的特征,如何有效地将语音信号很好地分离出来或过滤噪声,目前还没有一个通用的方法。

本文参考国外研究成果并结合汉语特点研究了线性预测误差法[7] 和单边自相关线性预测法[8](One-Side Autocorrelation Sequence LPC,OSALPC),即用单边自相关序列的LPC倒谱系数作为语音特征参量,可以大幅度提高噪音影响下的语音识别率[8]。在低频噪声环境下,信噪比为0dB时,识别率可达81%(16阶)和86%(18阶)[3]。

R(m)是自相关序列,则单边自相关序列为:

(1)

(2)

其中X(n)是语音信号的时间序列。如果在噪声环境下得到的语音可表示为X(n)=S(n)+N(n),式中S(n)为语音信号,N(n)为噪声信号,代入(2)可得:

(3)

在一般情况下,噪声和语音、噪声自身都是不相关的或是相关性不强,所以(3)式可以近似成

(4)

用抗噪性能强的单边自相关序列替代有噪声的语音信号。

然后对该方案进行了实验,实验用语音材料采用汉语的10个数字。语音信号的采样率为10kHz,12bit量化,帧长25.6ms,帧移12.8ms。识别语音带有低频噪声(包含微弱的女声发音),信噪比分别为25,20,10和0dB四个等级。此噪声在1kHz附近的能量比较大,高频部分相对较小,与通常的语音信号的频谱分布很接近,对识别影响较大。

得到的实验结果(语音识别正确率)分别如表1,表2(倒谱系数分别为16阶和18阶)。

OSALPC法是识别时实时采集噪声信号和含噪声的语音信号。根据它们的特征从噪声信号和含噪语音序列中计算出受噪声影响不大的参数序列来替代含噪语音信号序列。再对这一序列提取特征参量(可选用不同种类的有效特征参量)进行识别,较好地改善了由于噪声的影响导致的识别率降低。

4 结束语

基于VXML的语音门户技术是网络技术、语音技术、人工智能等多学科交叉的一项新技术,当前正成为计算机应用技术学科的热门课题。随着人们对网络技术和人工智能技术的更深入研究,语音门户技术可以为用户提供更方便、更完善的服务,揭开了语音应用的新篇章!

参考文献:

[1] Yu Yi-biao. Zhao He-ming. Speech recognition based on estimation of mutual information[C].Proceeding of ICSLPt PII.Beijing: China Military FHendship Pulish,2000:1046-1049.

[2] 张贤选.现代信号处理[M].北京:清华大学出版杜,1995:101-103.

[3] Gales M J E. Cluster adaptive training of hiddenMarkov models[J]. IEEE speech audio processing,2000.8(4):417-428.

[4] Beasley R. VoiceXML语音应用程序开发[M].王建华,王卫峰,译.北京:机械工业出版社,2002:10-80.

[5] 俞一彪,袁保宗.汉语语音理解系统BJI的声学语音处理[J].信号处理,1987,3(4):206-213.

[6] 黄新宇,吴淑珍.基于单边自相关线性预测噪声中汉语语音识别[J].北京大学学报:自然科学版,2000,36(5):672-680.

[7] 冯成林,吴淑珍.一种噪声环境下语音识别方法(线性预测误差法)研究[J]. 北京大学学报:自然科学版,2000,36(5):665-671.

[8] 董林,袁保宗.一种基于神经网络的语音识别方法[C].第九届信号处理学术年会论文集.北京信号处理学会,1999,200-203.

推荐访问:语音 研究 技术 门户 VXML