离线语音识别芯片比拟_语音_模子

文章目录 [+]

前端处理

前端处理转换成机器可以读取的数字旗子暗记，并对旗子暗记进行优化。
与前端处理干系的硬件：麦克风、PDM\I2S、音频处理能力（NPU或DSP）下面是前端处理流程的简化。
该模型可以理解为一本字典。
机器收到语音后，将其与模型进行比较，以找到相似的声音和单词。
那么，模板是怎么来的呢？这须要提前网络大量的语音和措辞信息（常日称为语料库网络），通过特定的算法跳出最范例的语音特色。
这称为“模板演习”。
编辑字典。
语音识别系统的模型演习常日分为两套：

离线语音识别芯片比拟_语音_模子离线语音识别芯片比拟_语音_模子智能

措辞模型演习

（图片来自网络侵删）

措辞模型是用于打算句子涌现概率的概率模型。
它是语音识别方面的字典。
它须要整合三个层次的知识。
它们是字典、语法、句法，让机器更好地理解人类的自然措辞。

声学模型演习

声学模型是识别系统的底层模型，也是语音识别系统最关键的部分。
该算法紧张是通过大量的语音采集来优化这部分声学模型，并根据特定的算法规则得到特色值，以供后期识别和比较。
互联网巨子拥有弘大的用户根本和语音采集渠道，比传统企业具有上风。

2.后端识别处理（语音解码）

是指利用演习好的“声学模型”和“措辞模型”对提取的特色向量进行识别，并输出识别结果。
这一步与建模密切干系。
有时，建模被归入后端识别过程，与前端处理相对应。
识别精度和相应速率常日取决于主控的运算速率，以及前端处理和模型的综合性能。
以下是详细的语音识别技能的事理和分支：

3.语音识别技能的发展历史

鉴于语音识别芯片与算法高度干系。
那么，下面大略谈论一下语音识别技能的发展历史。
语音识别技能的核心和发展，紧张集中在声学模型建模（演习）领域，可分为三个阶段。
语音标签（1970 年代）紧张关注小词汇量、伶仃词和特定于人的语音识别方法。
该方法是大略的模板匹配。
分别提取测试语音和参考语音的特色值后，直接比较全体片段的匹配程度。
主流算法有动态韶光规整（DTW）、支持向量机（SVM）和矢量量化（VQ）。
下一个是技能限定。
同一个人的感冒是无法识别的。
匹配方法比较原始，当命令词较多时，识别效率很慢。
第二阶段是概率与统计（1993年～2009年）。
有的厂商称之为与人无关的语音识别，准确的说便是概率统计，主流技能是GMM+HMM。
HMM模型在将语音转换为文本的过程中，增加了两个转换单元：音素和状态GMM是状态的特色，通过概率模型来表达，以提高语音帧到状态的准确性。
基于GMM-HMM框架，提出了许多改进方法，如动态贝叶斯方法、判别演习方法、自适应演习方法、HMM/NN稠浊模型方法等。
在大词汇量语音识别的情形下，识别精度和效率较差。
第三阶段是判别器分类方法。
这常日被称为深度神经网络识别，它是目前最主流的语音识别技能类型，包括：

循环神经网络与高下文建模相结合。
打算繁芜度高于DNN。
下一个是卷积神经网络CNN。
图像识别的主流模型，优化了语音的多样性，减少了硬件资源的摧残浪费蹂躏。
不再须要HMM来描述音素内部状态的变革。
但语音识别的所有模块都被统一到一个神经网络模型中。
海内大厂商的技能选择：科大讯飞-深度全序列卷积神经网络DFCNN）、阿里LFR-DFSMN。

4、语音识别芯片比拟

根据语音识别市场运用的发展方向，我们可以将语音识别芯片分为两类。
在线语音识别是大词汇量的连续语音识别系统。
范例运用有在线翻译、智能客服、大数据剖析、做事机器人等。
离线语音识别是一种词汇量小、功耗低、本钱低的语音识别系统。
范例运用有智能家电、语音遥控、智能玩具、汽车语音掌握、智能家居等。
离线和在线的差异在于语音识别是在本地设备上还是在云做事器上完成。
在线语音芯片只做前端语音处理，后端识别处理放在云端做事器上，以是叫在线。
严格来说，在线语音识别芯片的定义并禁绝确，它更像是“万精油”芯片。
该芯片配备了强大的CPU、海量存储、完全的音视频和通信接口，乃至还内置了PMU、WiFi、PHY等功能。
它可用于语音识别和其他多媒体处理。
是各种精油的主控芯片。
以是这个品类的厂商常日都是最先做平板电脑和手机CPU的。
此类芯片包括士兰微与阿里互助的SC5864、全志与科大讯飞互助的R16和XR872、瑞芯微RK2108、MTK MT8516、炬芯ATS3605D等，范例运用是智能音箱。
根据前两章的内容，结合公司背景等成分，我对语音识别芯片进行了如下分类：

识别间隔——识别率是芯片的两个主要的主导指标，直接关系到消费者的利用体验，但由于每个厂商测试的条件条件不同，且与芯片的市场定位有关，以是并不是一个绝对的指标。
处理器可分为MCU和Audio Core。
前者侧重于芯片与周界合营的掌握器，而后者则比前者更主要的是处理音频旗子暗记和运行识别算法。
后者是直接决定芯片语音识别的相应速率和准确性的主要成分。
下一个是存储。
硬件存储决定了处理器可以调用的资源的大小，以及识别的条款标数量。
语音算法有前端旗子暗记处理算法（降噪、波束成形、相应肃清、VAD静音抑制、麦克风矩阵、远场识别等）和后端识别算法（声学模型算法/NPL自然措辞等）。
这是一个软参数。
音频通道-外设接口是芯片与周边设备之间的通信桥梁。
对付语音识别来说，音频的输入和输出比较主要，单独列出。
音频输入分为仿照输入（ADC）和数字输入（PDM），音频输出常日为DAC。
功耗不能直接比较，而是能耗比，即相同性能下的功耗比较。
还有其他成分，如事情温度、封装等。
以上参数，除了一样平常的硬件参数外，其他定义也略有不同，不能单独比较。
算法模型主流是GMM+HMM，或者说模型匹配（语音标签）。
而且，由于芯片配置大略，不具备降噪等功能，识别间隔为25m，识别率常日在90%旁边。
条款数为 510。