首页 » 通讯 » 这颗芯片或让手势交互进入主流_语音_毫米波

这颗芯片或让手势交互进入主流_语音_毫米波

雨夜梧桐 2024-08-27 19:43:21 0

扫一扫用手机浏览

文章目录 [+]

新硬件形态须要新的交互办法

上周谷歌的硬件发布会是比来一系列互联网公司硬件发布会的延续。
在谷歌之前,亚马逊和微软也发布了其新硬件。

这颗芯片或让手势交互进入主流_语音_毫米波 这颗芯片或让手势交互进入主流_语音_毫米波 通讯

如果我们仔细剖析这些互联网公司发布的硬件,我们首先看到的是互联网公司希望从传统智能硬件格局中突围的决心。
这些互联网公司发布的新硬件更看重智能化,每每会利用一些非传统的硬件形态(例如亚马逊的智能眼镜)合营人工智能来实现让用户线人一新的效果。
互联网公司做硬件的终极目标还是希望用户能通过硬件作为入口来利用自己的互联网做事,因此纵然每个硬件的出货量都不大,但是只要能带来一定的流量就算成功。
因此,我们会看到亚马逊和谷歌都采取了类似散弹枪的打法,即一次发布许多款不同的硬件,而并非集中所有资源去开拓一两款重点硬件。

这颗芯片或让手势交互进入主流_语音_毫米波 这颗芯片或让手势交互进入主流_语音_毫米波 通讯
(图片来自网络侵删)

如前所述,这类互联网公司开拓的新硬件拥有全新的形态,而其终极目的是希望和用户做交互并且把用户接入到互联网公司的做事中去。
那么,如何在这些新的硬件形态上搭配新的用户交互界面就变得非常主要。
目前主流的触摸屏交互方案已经无法知足新形态智能硬件的需求,因此探索下一代用户接口以及干系的硬件芯片就势在必行。

终端语音交互

在新的用户接口中,目前最广为接管的是语音交互。
语音交互正式进入大规模消费运用始于苹果推出Siri,之后亚马逊的Echo系列智能音箱的发布则真正点燃了全体消费语音交通商场。
谷歌也不甘掉队,在推出Google Home系列智能音箱之后,这次发布会上发布的Pixel 4手机、Pixel Bud 2智能耳塞和Nest Mini都拥有最新的语音交互接口,同时拥有干系的机器学习芯片支持。

那么,谷歌最新发布的硬件中的语音交互与之前的语音接口有什么不同呢?我们认为,其最大的不同便是强调终端打算,将语音交互的打算尽可能都放在终端完成,而无需传输到云端。
从功能上来说,利用终端打算的语音交互接口可以知足在无网络连接的时候也能完成基本的交互,从而大大拓宽了实用的场景。
从性能上来说,网络传输会引入很大的能量花费和延迟,因此如果能在本地做大部分语音交互运算,则可以大大延长智能设备的电池利用韶光并在更短韶光内就完成用户需求相应以提升用户体验。
末了,从合规角度来看,目前对付互联网公司对付用户数据的监管越来越多,因此把语音交互运算在本地完成而非上传到云端就可以尽可能避免陵犯用户隐私的嫌疑。

从打算繁芜度来说,本地语音交互接口可以分成两类,一类是低繁芜度打算(例如关键词识别),这类打算的繁芜度不高,但是须要能花费尽可能低的能量,且延迟须要尽可能小。
另一类打算繁芜度较高(例如实时语音转录成笔墨以及Assistant类须要对用户的语音输入做一定语义理解的任务)。
在这次发布会中,Pixel Bud 2的语音交互接口就属于前一种。
Pixel Bud 2语音交互的紧张特性是可以根据用户的指令去完成发送短信、阅读短信、播放音乐等功能。
根据谷歌的说法,Pixel Bud 2内部包含了一块专用的机器学习芯片以完成这类语音接口。
仔细剖析Pixel Bud 2这些智能助手的实现办法后我们认为Pixel Bud 2的语音助手紧张浸染是识别用户的语音指令,并且通过蓝牙连接的手机来完成干系指令的需求。
例如,如果用户通过语音给出“阅读短信”的指令,则智能耳机里的语音助手首先须要识别出用户是不才语音指令,其次须要识别出语音指令的大致内容(“阅读短信”)并且将指令发送给手机,之夹帐机真个TTS算法把短信转换成声音再通过蓝牙传送给耳机并播放。
在这样一个过程中,耳机真个语音接口关键词识别算法须要完成较传统单一关键词唤醒更繁芜的功能。

除了Pixel Bud 2之外,谷歌在Nest Mini和Pixel 4上也利用了离线语音模型来支持语音接口。
按照谷歌官方的说法,在Nest Mini上的专用机器学习加速芯片可以让Google Assistant更快完成相应,而在Pixel 4手机上的离线语音模型则可以完成更繁芜的语音交互,例如离线语音转录成笔墨,繁芜的多轮语音指令等等(例如可以让assistant去查找一张图片,并且把它发送给某个联系人)。

从技能上来说,第一类低繁芜度的语音关键词识别算法目前常日会利用卷积神经网络来实现。
相较于利用在打算机视觉运用中的卷积神经网络,语音接口中的卷积神经网络对付性能的需求较低,然而由于运用处景对付硬件的限定(例如耳机中的芯片不太可能搭配DRAM),如何在硬件本钱最低、功耗最小的条件下完成高精准度的关键词识别仍旧具有寻衅性。
例如,为了最小化功耗,会须要芯片中的干系模组事情在非常低的电源电压下,乃至比Fab供应的最低电压还要低,这就给低功耗设计流程带来了寻衅。
此外,由于这类运用中无法搭载DRAM,因此对付神经网络模型带来了不少寻衅,如何在模型尺寸和精确度之间达成一个较好的平衡须要很多事情。
总体而言,这类设计须要做软硬件结合设计以担保合理的精确度和尽可能低的功耗。
根据现有的,我们估计Pixel Bud 2中利用的机器学习专用芯片很可能是在传统TWS无线耳机芯片上再集成了一块DSP或者谷歌自己的IP来完成这样的低功耗打算。
由于对付本钱和硬件尺寸的限定,我们认为未来针对该方向的超低功耗语音关键词交互芯片方案最有可能因此IP的形式存在,或者集成在耳机的主控芯片中,或者和前端麦克风集成在一起。

而Pixel 4手机上的语音交互属于范例的高繁芜度语音模型(第二类打算),这类模型每每会须要利用循环神经网络而非卷积神经网络。
虽然循环神经网络的打算紧张还是矩阵打算,但是如何优化模型和片上内存以只管即便减少内存访问带来的花费仍旧是最关键的设计要点。
与卷积神经网络不同,循环神经网络中的数据复用程度并不高,因此如何开拓和优化相应的模型/硬件必须要利用和卷积神经网络不同的方法,这也是目前循环神经网络打算硬件的紧张寻衅。
相较于传统的卷积神经网络,循环神经网络的硬件支持在业界目前还处于较早期的研发阶段,但是相信随着这类繁芜离线语音交互运用的遍及,会有越来越多的设计方案和芯片办理方案涌现。
我们估计未来可能的办理方案有几种形态:首先是对付功耗和性能哀求并不严格的场合,通过把循环神经网络的模型设计成非常小的尺寸,可以通过类似DSP或者NEON这类支持矩阵加速的IP模块去做打算。
这种方法的好处是可以快速支配,只须要设计软件即可,硬件上不用做太大改动,但是问题是没法优化循环神经网络对付内存访问。
在对付性能和功耗有更高需求的场合,则可望会涌现更专用的硬件架构以完成加速。
例如,目前用于语音运用的循环神经网络每每稀疏度较高,因此通过设计支持稀疏矩阵存取和运算的专用加速器可望能实现更高的性能和更低的功耗。

总而言之,随着语音接口的遍及,我们可望在更多语音干系的硬件上看到DSP类IP的涌现,同时随着离线语音繁芜交互的遍及,我们可望会看到专用的语音加速芯片/IP。

隔空手势操作

除了语音交互之外,谷歌这次发布的Pixel 4手机上的另一个亮点是利用毫米波雷达来实现隔空手势交互。

Pixel 4上的毫米波雷达芯片系原谷歌前辈研究项目(ATAP)project soli的商业化,该毫米波芯片利用60GHz频段,并且可以用雷达的方法去检测到目标与手机之间的间隔变革,从而实现隔空手势操作。

详细来说,雷达传感器芯片的技能事理是首先发射出电磁波,而发射的电磁波经由用户手的反射回到传感器端,就能根据回波来检测用户手的位置和动态,并借此完成三维非打仗手势检测。

Pixel 4上雷达芯片利用的是57-64GHz的频段,理论上可以实现毫米级别的分辨精度。
根据之前Project Soli发布的毫米波雷达传感芯片(属于这次利用在Pixel 4中雷达芯片的原型版本),芯片大小约为8mm x 10mm, 芯片上还有天线阵列(绿色框内)用来实现波束成型,根据官方信息该芯片上集成了四个发射机和两个吸收机,利用波束成形来提升分辨率。

利用毫米波雷达也有局限性。
紧张问题便是硬件对付尺寸和功耗的需求——毫米波雷达如果须要做高精度高分辨率检测须要利用繁芜的天线和/或多个雷达收发阵列。
在60GHz频段上,繁芜的天线阵列的体积很大,而如果利用多个雷达收发阵列则会大大增加系统功耗。
本次媒体对付Pixel 4中毫米波雷达的测评等分辨率并不高,听说也是由于Pixel 4硬件设计中留给雷达的空间过小以至于无法安顿下能实现高分辨精度的雷达收发机阵列和天线阵列。
当然,这个问题可望在之后能通过优化硬件设计来办理。

事实上,利用手势操作智能设备一贯是业界开拓的方向。
传统的方法是利用摄像头结合机器视觉的方法。
2D摄像头难以检测得手势在深度方向的变革,因此限定了交互。
微软 Xbox的Kinect利用ToF 3D摄像头的方法来支持手势操作,但是3D摄像头的利用环境会受到限定:机遇构造光的方案速率太慢,而基于ToF的方案在通亮的环境中性能会打折扣。
除了视觉方案之外,超声波也是一个可行的方案。
超声波方案与毫米波方案事理相似,只是超声波方案利用的是超声波而不是电磁波。
超声波方案的上风是功耗较小(可以小于1mW而毫米波方案的功耗在10-100mW),缺陷是必须利用CMOS工艺无法实现的超声波元件,而毫米波方案可以完备利用CMOS电路实现,集成度较高。
因此,在智能设备的隔空交互领域,毫米波雷达和超声波在详细技能指标上可以说是各有千秋。
如果把视角拉远一些,我们则认为基于电磁波和毫米波的方案有更大的可扩展性。
我们认为,在手机中加入毫米波雷达只是这类交互的第一步。
基于电磁波(包括毫米波)的交互将在未来几年内涌如今更多的智能电器中。
除了手势交互之外,电磁波还可以检测房间内的职员情形和物体识别,并且有望能无缝与WiFi设备相衔接,因此省去了安装摄像头的麻烦和对付隐私问题。
因此,用于交互运用的射频芯片有望成为未来几年内的一个新品类。

展望未来,用于人机交互的毫米波雷达紧张须要战胜模组尺寸和功耗的瓶颈,为此必须优化雷达本身设计提高信噪比,从而可以在减少天线尺寸/阵列中收发机数量的情形下仍旧能实现分辨精度;或者优化天线设计,以知足在小尺寸下仍旧能供应很低的衰减。
我们认为,随着这些技能瓶颈被逐渐打破,我们有望看到更多基于毫米波的交互方案涌如今智能设备中。

免责声明:本文由作者原创。
文章内容系作者个人不雅观点,半导体行业不雅观察转载仅为了传达一种不同的不雅观点,不代表半导体行业不雅观察对该不雅观点赞许或支持,如果有任何异议,欢迎联系半导体行业不雅观察。

标签:

相关文章

介绍4G通信协议,多层架构下的通信奥秘

随着科技的飞速发展,移动通信技术日新月异。4G作为第三代移动通信技术(3G)的升级版,凭借其高速率、低时延、大连接等特点,已经成为...

通讯 2025-01-04 阅读0 评论0