ISSCC 2020：高速串口解析_速度_时钟

文章目录 [+]

1、业界开始冲刺单通道112Gbps的高速串口；

2、这个方向非常吃前辈工艺；

ISSCC 2020：高速串口解析_速度_时钟 ISSCC 2020：高速串口解析_速度_时钟互联网

3、受工艺、本钱限定，学术界没有办法跟工业界在同一层面竞赛；

（图片来自网络侵删）

4、56Gbps的接口架构稳定，基于DSP的方案占主导。

一年过去了，这些趋势依然是成立的。

今年这个session有八篇论文。

从分布来看，五篇来自工业界、三篇来自学术界，学术界的论文可以说是另辟路子，没有在主流路线上竞争更高的速率。
从工艺来看，三篇7nm、一篇10nm、一篇16nm，这五篇均来自于工业界，还有来自于学术界的两篇40nm、一篇65nm。
从速度来看，有三篇112Gbps，个中两篇是完全的TRX，一篇是TX。
去年的ISSCC还没有达到112Gbps的RX，今年一下出来两篇，都是Long Reach，再考虑到博通、Cadence、以及我前雇主eTopus这些已经有112Gbps的产品或demo但没有揭橥论文的公司，可以推测出工业界在这个方向的武备竞赛是多么的激烈！
这次我们来看第一篇论文，来自Xilinx的112Gbps Long Reach PAM4 TRX。

这一页PPT对近几年高速串口的发展状况做了很好的汇总，信息量不小。
至少可以看出三点：一、基于移相器（PI）的经典双环构造依然耸立不倒，这种构造的紧张上风是把PLL带宽和CDR带宽解耦，以及可以多个收发通道公用一个PLL，节省面积和功耗。
二、基于ADC-DSP的RX构造是绝对的主流。
一样平常来说，analog的RX功耗较低、CDR的带宽可以做的更宽一点，但在稳定性上不如DSP的构造，而且更主要的是，analog的构造从工艺升级上的好处要远小于DSP的构造。
三年多前我有次跟老板谈天，他说随着工艺升级，DSP构造和analog构造的性能会有一个交点，他判断这个交点发生在差不多发生在16nm这一代工艺，之后DSP构造会成为主流。
这也是为什么我前雇主一开始就瞄准了DSP的构造。
本日再转头看，这个判断还是很精准的。
第三、对112Gbps第一代高速串口，TX选择CML构造的要多于SST构造的，CML构造更利于高速设计一点。

1、TX设计

这一页给出了TX的整体构造。
我们设计高速串口TX的时候，首先要考虑的是时钟速率，是选用1/2速的时钟还是1/4的时钟。
像我上篇文章总结到的，56Gbps的TX险些都采取1/2速的时钟。
到了112Gbps这一代大都选择了1/4速的时钟，这一篇也是，以是末了一级MUX是4:1的MUX。
这种选择通情达理。
一样平常来讲，对付前辈工艺，大家会认为实现更繁芜较准功能的本钱比把极限速率推高一倍的本钱低。
这一页的另一个亮点是输出匹配网络，从56Gbps到112Gbps，对付输出节点带宽哀求变大一倍。
我在之前讲宽带匹配的文章里提到过，带宽优化的一个思路是把寄生电容打散，用电感进行隔离。
这里采取的便是这种思路，两个diode之间用电感隔离开，得到更高的带宽。

2、RX设计

这一页是RX的构造，从框图上都大家都差不多，CTLE用来做均衡、PGA掌握增益，接下来韶光插值的ADC，进DSP之后再去做DFE/FFE/PD等操作。

在RX前端最大的亮点是全部采取了Inverter进行设计。
刚看到这种做法的时候，我第一反应是居然能这样做，仔细一想，又以为有迹可循。
不能不说做的很牛。
佩服！
Amazing！
112Gbps的CTLE实在非常非常难做，不仅须要担保带宽、可配的peaking强度，好须要担保一定的线性度。
一样平常的CTLE都是线性放大器的设计，有为电流源、放大管、共模反馈等等，堆叠的晶体管多了，每个晶体管所占的电压空间变小，线性度变差。
那怎么办呢？我们要减少堆叠晶体管的数目，减少到末了不就变成了反相器么？那么问题就来了：

反相器怎么去掌握它的增益？反相器本身的增益是极不稳定的。
没紧要，我再给它加一个diode接法的反相器作为负载，这样反相器的增益变成了两个gm的比值，虽然不如电阻的比值，但也比较精确了。

要怎么去做peaking呢？传统的做法是在放大管源端做电容负反馈，但反相器的源端已经接地了，没法在做负反馈。
没紧要，我们可以在diode接法的反相器栅端加一个RC低通滤波，这样也可以实现peaking，相称于active inductance，这种做法在去年的ISSCC也有用到过。

怎么实现peaking可配？我可以改RC低通滤波的电容值或电阻值，从而改变等效active inductance的值，也就改了peaking的值了。

这样一步步推理过来，全反相器的设计已经是成立的。
而且一个额外的好处是，这种做法肃清了电容和电阻，全体版图会非常工致，这一点对付7nm这样的前辈工艺很主要，等到过DRC的时候自然会懂！

PPT中给出的测试结果，CTLE的性能很好，最大17.5dB的peaking，带宽超过30GHz，而且仿真和测试结果之间只相差了不到0.5dB。
这也仿的太准了！
Amazing！
根据前面的剖析和这里的测试结果，全反相器的RX前端在账面上效果非常不错，至于有没有一些量产方面的坑，我没有做过测过，不敢妄加评判。

在基于DSP的RX设计中的一个关键点是插值构造的选择。
我在去年的总结里提到：

从技能上来说，56G的高速接口架构已经较为稳定，主流选择是：RX基于DSP，Time Interleaved ADC，一样平常先4到8的Track/Hold，每个Track/Hold带多少个ADC的Slice，TX采取Half Rate。
均衡方面差不多都是CTLE、1-TAP DFE、多少TAP的FIR，以及TX-FFE。
那56G接下来的技能寻衅便是低功耗、以及更强大的Adaptive功能。
对付112G的高速接口，我以为现在大家追求的目标是先做出来再说，功耗什么的留给往后再优化，在架构选择上可以看到一些趋势，但还没有稳定下来。

如果我们用16nm做了一个56 Gbps的RX，个中有四个Track Hold，每个带8个ADC Slice。
现在我们要用7nm去做112 Gbps的RX，该当选什么构造呢？

第一种做法是还是4x8的构造。
这样每个ADC slice的速率须要提高一倍，而且Track Hold的带宽也要提高一倍。
这样相称于把速率压力大部分都给了ADC。
从16nm到7nm，速率也就增长了30%旁边，而这里ADC的速率须要提高两倍！
做起来不随意马虎。
第二种做法是选择8x8的构造。
这样每个ADC Slice的速率保持不变，但整体数目变多了一倍。
Track Hold的数目也变多了一倍，对前一级的电容负载变大了不止一倍。
想想不太合理，这种做法相称于把速率压力全部都丢给前级，ADC一点儿也不分担，尽监工艺速率变快了。

这篇论文里给了第三种选择，6x6的构造，这样ADC和前级给自都分担一点速率的压力，彷佛是一个更好的折中选择。

但6x6的构造会导致时钟网络很啰嗦。
4和8都是2的倍数，时钟相位产生起来更直接。
6x6的构造第一级须要6UI的时钟来使能Track Hold，而从PLL打进来的是4UI的时钟，相称于须要一个1.5倍的分频器来产生各个相位。
这篇论文里采取多相注入锁定倍频器来实现的。

又一次，xilinx判断，6x6的构造带来的功耗和面积的上风，要超过了多相时钟产生带来的啰嗦。
但我想，这个结论并不是普适的，有可能xilinx之前在时钟方面有丰硕的积累，做这样一个时钟网络对他们来说不仅随意马虎，而且风险很低。
其他组不具备这样的条件，就不一定能做这样的决定。

3、总结

在这篇论文的剖析里，我无数次提到了系统架构的选择，不是啰嗦，而是想传达这样一个不雅观点：系统架构的选择至关主要。
比较起来，调一个详细的电路随意马虎多了，你能很快的扫描参数，很快的看到结果，无非是谁扫描的更细心一点或更高效一点。
在选择系统架构的时候，这些电路都还没有呢，性能怎么样也不知道，难度有多大也不知道，只能依据过往的一些履历拍板。
等实现到一大半创造构造选的不得当已经晚了，资源已经投入在里面，想调头非常不随意马虎。
而且架构选择还不仅仅是技能，还要考虑公司已有的技能积累、承担风险的能力、这款产品的定位、项目的工期等等商业和政治成分。
由于试错本钱高，以是对履历的哀求非常高。
那怎么才能快速增长履历呢？无他，平常多思考多积累，多剖析别人的事情，以及，多来看看我的文章。

末了，我们再来看看这款芯片精良的测试结果吧！

精良的眼图：

精良的Long Reach BER：

祝大家早日发上ISSCC。

免责声明：本文由作者原创。
文章内容系作者个人不雅观点，半导体行业不雅观察转载仅为了传达一种不同的不雅观点，不代表半导体行业不雅观察对该不雅观点赞许或支持，如果有任何异议，欢迎联系半导体行业不雅观察。

本日是《半导体行业不雅观察》为您分享的第2233期内容，欢迎关注。

★半导系统编制造企业开启武备竞赛

★高通射频，前景几何？

★康佳回应“1亿颗芯片”质疑揭示了哪些信息？

“芯”系疫情｜功率半导体｜TWS｜华为｜存储｜Fab｜MCU｜小米