国产离线语音识别芯片比拟_芯片_语音辨认

文章目录 [+]

本文关注的重点是语音识别的硬件载体：语音识别芯片，特殊是离线语音识别芯片。

一、语音识别技能的事理

国产离线语音识别芯片比拟_芯片_语音辨认国产离线语音识别芯片比拟_芯片_语音辨认科学

定义：语音识别技能(ASR Automatic SpeechRecognition)，让智能设备听懂人类的语音。
语音识别的事情流程，可以分为三大步骤：前端语音处理、模型演习、后端识别处理。

（图片来自网络侵删）

1.前端处理

前端处理，即将语音的仿照旗子暗记，转换成机器能读懂的数字旗子暗记，并做旗子暗记优化处理。
前端处理关联硬件：麦克风、Codec/ADC、PDM\I2S、音频处理能力(NPU或DSP)以下是前端处理的流程事理简化：

语音声波转仿照电旗子暗记：麦克风分柱极体和硅麦两种，硅麦又分为仿照和数字。
预处理：静音切除 VAD、分侦加窗、降噪（主动降噪ANC）、预加重等。
特色提取：图中选的是主流的MFCC，其他还有LPCC,PLP等，选取后续可以匹配的特色点。

2.模型演习

模型可以理解为“字典”，机器收到语音信息后，跟模型比对找出相似的语音和单词。

那模板怎么来的呢？这须要通过预先大量地采集语音和措辞信息（常日叫语料网络），并通过特定的算法跳出最范例的语音特色值。
这就叫做“模板演习”，编辑一本字典出来。
语音识别系统的模型演习常日分为两套：

措辞模型演习：措辞模型是用来打算一个句子涌现概率的概率模型，是语音识别中的”字典”它须要综合三个层次的知识：字典，语法，句法，让机器能更好理解人类的自然措辞。

声学模型演习：声学模型是识别系统的底层模型，是语音识别系统中最关键的部分，算法紧张集中优化该部分声学模型是通过大量的语音网络，并根据特定的算法规则得到特色值，用于后面的识别比对。
互联网巨子，拥有大量的用户基数和语音网络渠道，相对付传统公司有上风。

3.后端识别处理（语音解码）

指利用演习好的“声学模型”和“措辞模型”对提取到的特色向量进行识别，并输出识别结果。
该步骤跟模型建立有深度关联，有时将”模型建立”归类到后端识别处理中，与前端处理对应。

识别准确率和相应速率，常日取决于主控运算速率，以及前端处理和模型的综合表现。

以下是详细语音识别技能的事理分支整理：

二、语音识别技能的发展史

鉴于语音识别芯片，是与算法有着高度关联。
以是以下大略磋商了语音识别技能的发展史。

语音识别技能的核心和发展，紧张在声学模型的建模(演习)的领域上，可以分为三个阶段：

第一阶段模型匹配法 / 语音标签（70年代）

紧张集中在小词汇量、伶仃词、特定人语音识别方法，方法是大略的模板匹配模板匹配：测试语音与参考语音分别进行特色值提取后，直接整段比对吻合度。
主流算法：动态韶光规整（DTW）、支持向量机（SVM）、矢量量化(VQ)。
技能局限：同个人感冒就识别不了，匹配方法原始，命令词多了识别效率很慢。

第二阶段：概率统计型（1993年~2009年）

部分厂家称为非特定人语音识别，准确来说是概率统计型，主流的技能是GMM+HMM。
HMM模型将语音转换文本的过程中，增加了两个转换单位：音素和状态

GMM 是将状态的特色分部，用概率模型来表述，提升语音帧到状态的准确率。

基于GMM-HMM框架，后续又提出了许多改进方法：动态贝叶斯方法、区分性演习方法自适应演习方法、HMM/NN稠浊模型方法等 GMM+HMM模型，在大词汇量的语音识别情形下，识别准确率和效率均比较c差。

第三阶段：辨别器分类方法（2009年至今）

常被成为深度神经网络识别，是当下最主流语音识别技能类型，包括：

1、深度神经网络/笃信度网络-隐马尔科夫（DNN/DBN-HMM）。

2、递归神经网络RNN——>LSTM&BLSTM：结合高下文建模，打算繁芜度会比DNN增加。
3、卷积神经网络CNN：图像识别的主流的模型，优化语音的多样性，减少硬件资源摧残浪费蹂躏。

下一代语音识别技能：端到端CTC？

不再须要HMM来描述音素内部状态的变革，而将语音识别的所有模块统一成神经网络模型。
海内大厂的技能选择：科大讯飞–深度全序列卷积神经网络DFCNN）、阿里LFR-DFSMN、

百度SMLTA、Kaldi。

三、语音识别芯片的比对

按照语音识别的市场运用的发展方向，我们可以将语音识别芯片分为两大类：

在线语音识别：即大词汇量连续语音识别系统范例运用：在线翻译、智能客服、大数据剖析、做事机器人等。
离线语音识别：即小词汇量、低功耗、低本钱的语音识别系统。
范例运用：智能家电、语音遥控器、智能玩具、车载声控、智能家居等。

离线和在线的差异在于：语音识别的事情是放在本地设备端还是云端做事器。

在线语音识别芯片：

在线语音芯片只做前端语音处理，后端识别处理都放在云端做事器，以是才称为在线。
在线语音识别芯片，严格来说定义也不大对了，它更像个”万精油”型的芯片。
芯片配置强大的CPU、大容量存储、完全的音视频和通讯接口，乃至会内置PMU、WiFi、PHY等功能。
它可以被运用于语音识别，也可以运用于其他多媒体的处理，是个万精油型的主控芯片。
以是该类别的厂商，常日都是像的MTK、瑞芯微、全志这类最早做平板和手机CPU的。

该类芯片包括：士兰微和阿里互助的SC5864、全志与科大讯飞互助的R16和XR872、瑞芯微 RK2108、MTK MT8516、炬芯ATS3605D等，范例的运用便是智能音箱。

（注：本文关注重点是离线语音识别，在线的就不展开详细阐述和比拟了。
）

离线语音识别芯片

根据前两个篇章的内容，结合公司背景等成分，我将语音识别芯片分类如下：

芯片比对参数解释：

识别间隔&识别率：属于芯片的两个主要显性指标，与消费者的体验直接干系，但由于每家厂商测试的条件条件各自不同，也跟芯片的市场定位有关，以是并非绝对指标。
处理器：分为MCU和Audio Core，前者偏芯片与周边期间协同互助的掌握器，后者偏处理音频旗子暗记和跑识别算法，后者相对付前者更主要些，是直接决定芯片的语音识别的相应速率和准确率的主要成分。
存储：硬件存储决定了处理器可调用的资源大小，也决定了识别词条数量语音算法：分前端旗子暗记处理算法（降噪\波束成形\回应肃清\VAD静音抑制\麦克风矩阵\远场识别等)和后端识别算法（声学模型算法/NPL自然措辞等）。
这个是偏软的参数音频通道&外设接口：芯片与周边器件的通信桥梁，对付语音识别来说，音频的输入和输出更主要，单独提列出来。
音频输入分仿照输入(ADC)和数字输入(PDM)，音频输出常日是DAC。
电源功耗：功耗不能直接比对大小，而是要比能耗比，即同样性能下的功耗比拟。
其他成分：事情温度、封装等，以及分外备注。

以上参数，除了通用的硬件参数，别的的各家定义也略微有些不同，不能单独比拟。

1.0&2.0时期：传统型

算法模型主流是GMM+HMM，或者模型匹配(语音标签)的。
而且，由于芯片配置大略，不具备降噪等功能，识别间隔在2~5m，识别率常日在90%旁边。
词条数5~10条。
每家的芯片有基本的ASR功能，但各自都有”性能短板”：不带主控、不带存储、语音指令和算法外挂、OTP固定词条、性能低端、接口单一等等，这些短板，都是为了降落本钱，在低端市场须要有本钱上风。

厂商剖析：台湾新塘、凌阳

台湾系早几年前曾是离线语音识别领域最生动的，包括芯片厂新塘和凌阳，以及台湾赛维这类算法公司。
本人就曾推广过新塘ISD9160，当时在家电领域运用挺多，但因识别率差等缘故原由，消费市场反馈差，需求下滑很快。

都是曾经非常通用的语音识别芯片，有现成的动态指令库，开拓大略好用。

ICRoute 上海音航

根据以上表格，这家公司的LD3320除了没有MCU，别的语音识别功能都比较完全，以是识别率达到95%和命令词50条。
再看其官网（http://www.icroute.com/) 的开拓资源和技能先容非常完全，也有方便用户定制指令的软件工具。
如果不考虑价格，个人觉得他们家在传统型中，该当算是最棒的。

其余，该公司的大股东孙放，也是北京雷动云合的联合创始人，雷动云合是做视觉识别产品的。
果真，大佬们都盯着未来AI人机的两大入口：视觉 & 语音识别。

广州九芯\深圳唯创

除了语音识别，都有做语音芯片(常见于儿童玩具)，在网上很生动，本钱该当很低。

同类的还有深圳盛矽和深圳捷通等，都是集中在广东区域啊，广东的汕头澄海盛产的玩具产品等可是遍及环球呢，家当的发达果真是能带动起周边干系行业的发展啊。

3.0时期：互联网型

互联网公司最近几年纷纭生动于互联网行业之外，探求新的增长点或加深企业护城河纵深。
语音识别和视觉识别作为人机交互两大入口，自然也就得到互联网企业的青睐。
但互联网公司自身没有芯片设计能力，每每须要借助外力，计策互助和\收购控股\购买成熟IP等是常见手段。

互联网公司推出的语音识别芯片，纷纭专注于用上高配置的DSP（功耗自然不低），而且拥有丰富的外设接口，芯片可以实现离在线一体化的功能。
紧张技能特点侧重于后端识别算法，但前端旗子暗记处理能力也不弱。

互联网型还有个广为人知的特点，以低价杀穿市场，快速获取用户增长。
这个我们看在近年来互联网行业大规模烧钱竞争即可知。
只是我个人以为，所谓的互联网思维对付须要长周期精耕细作的芯片行业来说，是否利大于弊还是搅散一锅粥大家都受饿？

厂商剖析：

互联网巨子：阿里巴巴和百度两家互联网巨子本身都有各自成功的智能音箱产品：天猫精灵和小度，各自也分别选择多家芯片原厂互助推出在线和离线芯片，实现自产自销。
阿里平头哥将IP卖给互助公司，百度则是购买Candence HiFi4 IP（话说这个IP最近看了至少有三家在用或即将用）在线语音识别巨子：讯飞、思必驰、云之声三家在线语音识别巨子，纷纭从云端幕后往前台站出来，将已有的语音识别算法技能上风，进一步下沉到端侧的离线语音识别芯片，打通线上和线下。
三家各自市场侧重点都不同，讯飞侧重教诲行业、思必驰侧重车载行业、云之声侧重家电行业，当然这个划分也非绝对，各自肯定有交叉竞争关系。
语音算法公司：互问、华镇比较讯飞等三家，互问和华镇的技能更”硬”一些，技能也更偏硬件侧。
两家各自都找第三方芯片公司，互助推出自家命名的芯片产品。

3.0时期：纯芯片型

纯芯片型大部分属于初创新公司，拥有完全得芯片设计到算法开拓的能力，比较于传统型，纯芯片型算法技能更优；比较于互联网型，纯芯片型更专注芯片硬件技能。

芯片语音处理核心，多为专用的NPU。
同等资源下，NPU算力和能耗比远高于通用DSP。
而且该类芯片多具有强大的前端旗子暗记处理能力，能真正做到降噪\原唱识别等功能。
加上不断优化的声学算法模型和语料定制，识别率常日在95%以上。

厂商剖析：

探境 & 清微 & 知存三家北京系的公司，在NPU(网络神经处理器)上有各自的技能特点和上风，语音识别的处理能力最优，能耗比很高。
个中探境较早实现量产，以及踏实的技能持续优化，在高噪音语音识别率和原厂识别表现上，在市场上一枝独秀。
其余还有一家北京公司：承芯卓越，暂未查到资料。
启英 & 人麦两家是最早一批进入3.0时期的厂商，产品均已迭代至第二代，产品经由几年的市场验证较为成熟，也有一定的客户群体。
杭州国芯国芯成立于2001年，芯片行业的老兵。
业务分为两大块：卫星数字电视方案和AI语音识别方案。
语音识别的芯片较多，个中刚推出的GX8002A主打”高集成度和小体积”特点，主攻TWS耳机和可穿着运用。
普林芯驰：该公司暂时理解不多

总结：

市场角度看，语音识别市场当前还远不成景象，仍旧属于比较序言的领域。
无论是纯芯片型还是互联网型，各自没有真正意义上誓不两立的竞争关系，由于与其争夺现有的小饼干，还不如一起拱成大蛋糕分而食之。
增量市场阶段，互助共赢更符合各自利益。

产品角度看，语音识别技能仍旧有很大的技能进步空间，实际消费者的体验也有待优化，包括像自然措辞、非连续性覆信肃清、端到端技能运用等。
也有人说，语音识别芯片加上无线通讯技能，实现离在线一体，兼顾相应速率和识别灵巧度。

家当链角度看，从我整理的海内射频芯片原厂开始，到这篇语音识别，有名的厂商都更多集中在北京和上海，深圳虽然有着发达的电子企业和成熟的芯片供应体系（华强北），但芯片制造等家当配套是比不了北上。
而且半导体本身属于长周期的投入，可能也不能兼容快节奏的深圳？

离线语音识别模块：可直接用于空调、冰箱、洗衣机、油烟机、饮水机、风扇等。

特点：1、长间隔和高噪音下的高识别率；2、超高性价比，绝对不玩高大上

声明：本文原作者为龙洋师长西席，以上所有内容均已征得龙洋师长西席赞许后转载。