通信百科

什么是语音识别

时间:2023-01-31 13:44 作者: 世讯电科融合通信系统

语音识别定义

语音或说话人识别是机器或程序接收和解释听写或理解和执行语音命令的能力。随着人工智能(AI)和智能助手(如亚马逊的Alexa和苹果的Siri)的兴起,语音识别获得了突出和使用。语音识别系统让消费者只需与技术交谈即可与技术进行交互,从而实现免提请求、提醒和其他简单任务。
语音识别可以使用自动语音识别(ASR)软件程序识别和区分语音。某些ASR程序要求用户首先训练程序识别其语音,以实现更准确的语音到文本转换。语音识别系统评估语音的频率、口音和语音流。
尽管语音识别和语音识别可以互换使用,但它们并不相同,必须进行关键的区分。语音识别识别说话人,而语音识别评估所说的话。

语音识别的工作原理

计算机上的语音识别软件需要将模拟音频转换为数字信号,称为模数转换(A/D)。对于破译信号的计算机,它必须有一个单词或音节的数字数据库,以及将这些数据与信号进行比较的快速过程。语音模式存储在硬盘驱动器上,并在程序运行时加载到内存中。比较器根据A/D转换器的输出检查这些存储的模式-这种操作称为模式识别。
显示语音识别如何工作
 
语音识别将模拟音频转换为数字信号,然后由模式识别和语音识别软件进行解释。
实际上,语音识别程序的有效词汇量的大小与安装它的计算机的RAM容量直接相关。与在硬盘驱动器中搜索某些匹配项相比,如果可以将整个词汇加载到RAM中,则语音识别程序的运行速度要快很多倍。处理速度至关重要,因为它会影响计算机在RAM中搜索匹配项的速度。
 
为了清晰起见,还必须处理音频,因此某些设备可能会过滤掉背景噪音。在某些语音识别系统中,音频中的某些频率被强调,以便设备可以更好地识别语音。
语音识别系统通过两种模型之一分析语音:隐马尔可夫模型和神经网络。隐马尔可夫模型将口语单词分解为音素,而递归神经网络使用前面步骤的输出来影响当前步骤的输入。
随着语音识别技术用途的增长和越来越多的用户与之交互,实施语音识别软件的组织将有更多的数据和信息输入语音识别系统的神经网络。这提高了语音识别产品的功能和准确性。
 
智能手机的普及为将语音识别技术添加到消费者口袋中提供了机会,而家用设备(如GoogleHome和AmazonEcho)则将语音识别技术带入了客厅和厨房。

语音识别用途

随着人工智能、机器学习和消费者接受度的成熟,语音识别的使用迅速增长。如何使用语音识别的示例包括:
  • 虚拟助手。Siri,Alexa和Google虚拟助手都实现了语音识别软件来与用户进行交互。消费者使用语音识别技术的方式因产品而异。但他们可以使用它来将语音转录为文本,设置提醒,搜索互联网并回答简单的问题和请求,例如播放音乐或共享天气或交通信息。
  • 智能设备。用户可以使用语音识别软件控制他们的智能家居,包括智能恒温器和智能扬声器。
  • 自动电话系统。组织在其电话系统中使用语音识别,通过说出特定号码将呼叫者定向到相应的部门。
  • 会议。语音识别用于为说话者提供实时字幕,以便其他人可以实时跟随所说的文本。
  • 蓝牙。现代汽车中的蓝牙系统支持语音识别,以帮助驾驶员将视线集中在道路上。驾驶员可以使用语音识别来执行命令,例如“呼叫我的办公室”。
  • 听写和语音识别软件。这些工具可以帮助用户听写和转录文档,而无需使用物理键盘或鼠标输入文本。
  • 政府。国家安全局使用可追溯到2006年的语音识别系统来识别恐怖分子和间谍或验证任何说话者的音频。

语音识别优缺点

语音识别提供了许多好处:
  • 消费者可以通过直接与语音助手或其他语音识别技术交谈来进行多任务处理。
  • 视力有问题的用户仍然可以与其设备进行交互。
  • 机器学习和复杂的算法帮助语音识别技术快速将口语转换为书面文本。
  • 这项技术可以比某些用户打字更快地捕获语音。这使得记笔记或设置提醒等任务更快、更方便。
但是,该技术的一些缺点包括:
  • 背景噪音会产生错误输入。
  • 虽然准确率正在提高,但所有语音识别系统和程序都会出错。
  • 听起来相似但拼写不同且含义不同的单词存在问题-例如,听到和这里。使用存储的上下文信息可以在很大程度上解决此问题。但是,这需要更多的RAM和更快的处理器。

语音识别的历史

语音识别技术在过去五十年中呈指数级增长。追溯到1976年,计算机只能理解略多于1个单词。随着IBM继续开发语音识别技术,这一总数在000年代跃升至约20,000。
1952年,贝尔实验室发明了AUDREY——自动数字识别器——它只能理解数字1970到1。在011年代早期至中期,美国国防部开始为语音识别系统的开发做出贡献,资助国防高级研究计划局语音理解研究。由卡内基梅隆大学开发的Harpy是当时的另一个语音识别系统,可以识别多达<>,<>个单词。
Dragon公司于1990年推出了第一款面向消费者的扬声器识别产品DragonDictate。这后来被NuanceCommunications的DragonNaturalPeak所取代。1997年,IBM推出了IBMViaVoice,这是第一款可以识别连续语音的语音识别产品。
苹果在2011年推出了Siri,它仍然是一个突出的语音识别助手。2016年,谷歌推出了手机谷歌助手。语音识别系统可以在手机,智能扬声器,笔记本电脑,台式机和平板电脑等设备以及DragonProfessional和PhilipsSpeechLive等软件中找到。
在过去的十年中,其他几家技术领导者开发了更复杂的语音识别软件,例如亚马逊Alexa。亚马逊Alexa于2014年发布,还充当响应语音命令的个人助理。目前,语音识别软件可用于Windows,Mac,Android,iOS和Windows手机设备。

声明:优质内容贵在与大家共享,部分文章来源于网络,如有侵权请告知,我们会在第一时间处理。合作交流请加微信。
版权所有:统一通信系统集成:http://www.alloll.com 转载请注明出处