语音识别的原理是什么(录音识别转文字的原理讲解)

语音识别是什么?他有什么价值,以及他的技术原理是什么?本文将解答大家对语音识别的常见疑问。

语音识别技术(ASR)是什么?

机器要与人实现对话,那就需要实现三步:

语音识别的原理是什么(录音识别转文字的原理讲解)

 

对应的便是“耳”、“脑”、“口”的工作,机器要听懂人类说话,就离不开语音识别技术(ASR)。

语音识别的原理是什么(录音识别转文字的原理讲解)

 

语音识别已经成为了一种很常见的技术,大家在日常生活中经常会用到:

  • 苹果的用户肯定都体验过 Siri ,就是典型的语音识别
  • 微信里有一个功能是”文字语音转文字”,也利用了语音识别
  • 最近流行的智能音箱就是以语音识别为核心的产品
  • 比较新款的汽车基本都有语音控制的功能,这也是语音识别

语音识别技术讲解

语音识别技术拆分下来,主要可分为“输入——编码——解码——输出 ”4个流程。

语音识别的原理是什么(录音识别转文字的原理讲解)

 

那语音识别是怎么工作的呢?

首先声音的本身是一种波,就像我们常常用一段段波形来表示音频一样。

语音识别的原理是什么(录音识别转文字的原理讲解)

 

接下来按步骤:

  1. 给音频进行信号处理后,便要按帧(毫秒级)拆分,并对拆分出的小段波形按照人耳特征变成多维向量信息
  2. 将这些帧信息识别成状态(可以理解为中间过程,一种比音素还要小的过程)
  3. 再将状态组合形成音素(通常3个状态=1个音素)
  4. 最后将音素组成字词(dà jiā hǎo)并串连成句 。于是,这就可以实现由语音转换成文字了。

语音识别的原理是什么(录音识别转文字的原理讲解)

 

看看百度百科和维基百科是怎么解释的

百度百科

语音识别技术,也被称为自动语音识别 Automatic Speech Recognition,(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。

维基百科

语音识别是计算语言学的跨学科子领域,其开发方法和技术,使得能够通过计算机识别和翻译口语。它也被称为自动语音识别(ASR),计算机语音识别或语音到文本(STT)。它融合了语言学,计算机科学和电气工程领域的知识和研究。

一些语音识别系统需要“训练”(也称为“登记”),其中个体说话者将文本或孤立的词汇读入系统。系统分析人的特定声音并使用它来微调对该人的语音的识别,从而提高准确性。不使用训练的系统称为“说话者无关” 系统。使用训练的系统称为“说话者依赖”。

版权声明:本文内容由网友提供,该文观点仅代表作者本人。本站(http://www.zengtui.com/)仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 3933150@qq.com 举报,一经查实,本站将立刻删除。

版权声明:本文内容由作者小航提供,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至907991599@qq.com 举报,一经查实,本站将立刻删除。如若转载,请注明出处:http://www.hangzai.com/324761.html

(0)
小航的头像小航

相关推荐