(1.北京理工大学 信息与电子学院,北京100081;2.北京无线电丈量研究所,北京100854;3.南瑞集团通信与用电技能分公司,北京100192)
: 针对MIMO雷达多通道回波旗子暗记处理的同步性和实时性需求,在剖析MIMO雷达旗子暗记处理的特点及多核DSP硬件构造的根本上,提出了一种基于多核处理器TMS320C6678的并行实现方法,并办理了利用过程中的诸多关键技能。该方法实现了多任务并行处理和高效通信。实验结果表明,该方法在较小规模的硬件平台上实现了较低功耗且高实时性的运用。
: 多核DSP;MIMO雷达;并行处理

: TN492文献标识码: A文章编号: 0258-7998(2014)09-0004-03
MIMO雷达是近十年来发展起来的新系统编制雷达,与普通相控阵雷达比较,MIMO雷达具有低截获概率、高速率分辨能力、高角分辨力、可同时识别多个目标等优点[1]。国内外学者们在MIMO雷达技能的诸多方面进行了深入而全面的理论研究,个中以美国麻省理工学院林肯实验室和贝尔实验室的研究尤为深入[1],但涉及工程实现方面的文献很少。
由于软硬件发展水平的限定,MIMO雷达理论的研究领先于雷达系统的运用[2],而普通的雷达旗子暗记处理机的设计相比拟较成熟,这方面的文献中实现的详细路子紧张有两种办法,一种是基于FPGA+DSP的架构[3-4],另一种是基于FPGA+PowerPC的架构[5],以第一种的运用为主流。MIMO雷达旗子暗记处理须要吸收多个通道的数据,在多波束采集后的雷达回波数据量非常大,实现多波束雷达回波数据旗子暗记处理的关键是并行同步和实时处理。近几年来,DSP生产商纷纭采取多核架构来知足日益增长的系统实时处理性能哀求,实现更快速的数据旗子暗记处理。TI公司于2010年推出了基于KeyStone架构的、集成了RISC和8核DSP的高性能旗子暗记处理器TMS-
320C6678(简称C6678),初始设计背景为图像领域的运用,现在已经推广到视频处理、语音识别等领域[6-7]。
本文以C6678为平台,研究了MIMO雷达旗子暗记处理的实现方法。首先,先容了MIMO雷达旗子暗记处理的基本事理以及基于C6678多核芯片的系统架构和编程开拓特点,并基于算法给出了并行实现中的关键技能及办理方法,然后给出实验评估并进行了测试性能等方面的比拟剖析,末了得出基于多核DSP的MIMO雷达旗子暗记处理方法,实现了在降落本钱和提高性能等方面的有效性。
1 MIMO雷达旗子暗记处理的事理
本设计的MIMO雷达是基于正交波形双基地集中式MIMO而构建,发射端各子通道发射相互正交的旗子暗记,形成低增益宽波束;对付吸收端,为规复出各个发射端子通道内由单个发射旗子暗记形成的回波,需对每个发射波形进行匹配滤波,再根据发射阵列的阵元支配,进行吸收端等效发射波束形成,最后进行动目标检测、点迹提取[8]。根据参考文献[8]的剖析,先DBF再匹配滤波处理的办法较先匹配滤波再DBF的办法更节约打算资源,因此本文采取了前辈行DBF再匹配滤波的处理办法,如图1所示。
2 MIMO雷达旗子暗记处理的硬件架构
2.1 核心平台先容
C6678是基于KeyStone构架的高性能多核DSP,片内集成了8个C66x处理器核,每个核都支持定点和浮点处理功能。其紧张性能指标是单核最高事情频率1.25 GHz,基于C66x 定点/浮点处理器核,累计处理速率高达10 GHz,单核最高可达40 GMAC的定点打算能力和20 GFLOPS的浮点运算能力;存储器空间为每个核32 KB L1P、32 KB L1D、512 KB L2、4 096 KB多核共享存储区MCSM、8 GB可寻址的DDR3存储地址空间;在处理器内部支持高效EDMA3传输办法,可在处理器内部存储空间L2、共享MCSM、外部DDR3之间进行高效的数据传输;集成了x4 Serial RapidIO、x2 PCIe、x4 Hyperlink、x2 ethernet等浩瀚高速通信接口,许可与其他处理器节点进行高效的数据交流;支持多种基于旗子暗记量的通信机制进行核间通信[9]。C6678的多核构造不仅缩小了硬件规模,而且还降落了整体功耗,其核间任务调度及高性能程序优化器、8级并行流水指令集[10]等条件为实现并行旗子暗记处理算法供应了有效支撑。
2.2 硬件架构设计
本文设计了基于VPX总线的数据采集板和旗子暗记处理板组成的旗子暗记处理系统平台,核心芯片均为C6678芯片。数据采集板集成了Xilinx Virtex-7系列的高性能FPGA和1片C6678,接口设计为光纤、网络等多种办法,用于数据的吸收和预处理。旗子暗记处理板采取8片C6678构成打算密集型构造,用于完成MIMO多通道并行的旗子暗记处理算法。系统构造示意图如图2所示。
3 算法的并行实现
3.1 算法映射模型
3.1.1 基本模型先容
运用多核处理器的第一个步骤便是确定任务并行性,并选择一种最得当的处理模型。两个最紧张的模型分别是主/从模型和数据流模型。主/从模型是集中掌握,分布式实行,主核卖力把任务分配到其他核,从核之间没有通信;数据流模型便是分布式掌握和实行,任务分级流水实行,核之间有相互通信[10]。本系统采取了两种办法结合的办法,个中各个板卡内部采取了主/从处理模型,板卡之间采取了数据流模型。
3.1.2 算法分割及映射
本实验系统采取8个发射天线和8个吸收天线分置的构造,吸收波束为7个方位,发射波束为7个方位。数据量为4K点,相关处理周期为8,动目标处理时的FFT点数为16,脉冲重复周期为2 ms。功能模块实现吸收波束形成、匹配滤波、等效发射波束形成、动目标处理、目标搜索和目标跟踪的处理功能,进而得到目标的间隔、角度和速率信息。图3为处理流程框图。
任务的分解是:Task A为公共数据收发和准备及同步掌握触发;Task B为数据格式的预处理及吸收DBF;Task C为公共数据收发和准备及同步掌握触发;Task D为匹配滤波、发射DBF杂波抑制、相参积累、目标搜索或者目标跟踪。
详细的算法映射如图4所示,数据采集板上DSP的所有核加载同样的一个工程 ,完成Task A和Task B;旗子暗记处理板所有的核加载同样的一个工程,完成Task C和Task D。数据流向是数据采集板的DSP0-Core0完成Task A,Core1~Core7 分别完成Task B,然后通过板间IPC把数据传送到旗子暗记处理板的DSP0~DSP6,通过Task C之后进行Task D,然后再把数据送回数据采集板的Core0。
3.2 关键技能及方法
3.2.1 通信与同步
在进行吸收DBF和发射DBF之前须要进行多核同步。TI供应了多种成熟的IPC接口,本设计中采取了效率比较高的Notify Module 进行同步。Core0循环吸收外部传输过来的原始数据存储到DDR3之中,每次吸收到的数据分别向Core1~Core7发送一个Notify,Notify并不在多核之间进行数据的拷贝,仅进行共享内存数据的所有权转移,极大地节省了多核间通信的韶光。每个Core的TaskB任务收到Notify后,直接从对应的DDR3共享内存地址中读取数据即可。
在板间传输数据须要进行板间的通信和同步,TI没有供应DSP节点之间的IPC,因此在本系统中自行开拓了DSP间IPC。首先开拓了RapidIO底层驱动,然后通过RapidIO接口进行系统路由配置,之后完成IPC驱动的搭建,它完成的功能是进行DSP的DDR3之间的数据拷贝。
3.2.2 核内数据传输
每个核内部采取了DMA办法实现MCSM存储区和DDR3之间的通信,这种办法传输速率比较稳定。C6678处理器内部集成了3个高速的EDMA掌握器,许可在处理器内部的存储区之间进行不须要处理器参与的高速数据通报。本旗子暗记处理算法中,每个核启动独立的EDMA3传输通道分次将DDR3中的数据传输到MCSM/L2中进行打算,之后再将打算结果通过EDMA3传输通道从MCSM/L2传输给DDR3。
L2、MCSM和DDR3之间的EDMA3通信性能在采取查询办法下的测试结果如表1所示,测试结果为100个周期的均匀值。
3.2.3 高速缓存同等性考虑
C6678处理器核设计了二级Cache。当处理器核访问内存中的一段地址时,存在两种可能,即Cache命中或Cache缺失落。Cache命中时处理器核可以快速直接从Cache中获取内存数据进行处理。Cache缺失落时,处理器核就须要花费较长的韶光先将数据从内存调入到Cache中,再从Cache中获取数据进行处理。处理器的这种内存访问机制就带来了Cache和内存的数据同等性问题。在本旗子暗记处理算法中,Cache同等性问题发生在以下情形:(1)多处理器核对MCSM或DDR3中一段数据进行共享访问;(2)有EDMA3参与的对MCSM或DDR3中一段数据的访问。当发生此两种情形时,须要实行Cache同等性操作,以确保数据访问的精确性。
3.2.4 基于平台的算法优化
设计中除了采取了常日的代码优化准则外,基于平台的优化紧张包括以下几个方面:数据存储区采取兵乓构造,使得数据传输和算法打算可以同时进行;算法模块采取细粒度设计,通过CCSV5供应的高性能编译优化参数,并见告编译器更多关于数据的信息;利用内联指令做SIMD的处理;存储区和Cache 优化设计。这些优化方法的综合利用比不进行优化的效率提高达约50倍。
4 实验评估及剖析
ADSP-TS201S险些是ADI公司的最高性能旗子暗记处理器,也是当前雷达旗子暗记处理领域主流的硬件平台的核心,采取其搭建的平台(1块带有4个DSP的预处理板,8块带有8个DSP的旗子暗记处理板)与TMS320C6678的搜索处理关键算法的测试性能比拟如表2所示,测试结果为100个周期的均匀值。首先是TMS320C6678降落了硬件规模从而降落了本钱,其次提高了效率,还有便是共享存储区的利用减少了传输延迟。整体韶光比为4.5:1。
由实测结果可见,TMS320C6678平台由于其高性能的多核处理办法,适宜MIMO雷达旗子暗记处理这类须要同步进行并且实时处理的场合运用,但也应把稳到C6678的存储区较小,对付大数量的利用(大于4K点)可能达不到预期的加速比,还有待于进一步验证。该MIMO雷达旗子暗记处理系统在工程样机中运行良好,通过小规模硬件系统和较低的功耗达到了旗子暗记实时处理和运算快速准确的哀求。
参考文献
[1] Li Jian.STOICA P.MIMO radar signal processing[M].John Wiley & Sons,Inc.,2009.
[2] 陈浩文,黎湘,庄钊文.一种新兴的雷达系统编制—MIMO雷达[J].电子学报,2012,40(6):1190-1198.
[3] 高广坦.基于TS201平台的雷达旗子暗记处理机设计[J].信息化研究,2010,36(11):17-19.
[4] 周滨,谢晓霞,傅其祥,等.基于多DSP的高速通用并行处理系统研究与设计[J].电子设计工程,2012(17):175-178.
[5] 史鸿声.基于PowerPC的雷达通用途理机设计[J].雷达科学与技能,2011,9(2):140-149.
[6] 彭益智,霍家道,徐伟.一种基于TMS320C6678的JPEG编码算法并行实现方法[J].指挥掌握与仿真,2012,34(1):119-122.
[7] 吉立新,刘伟伟,李邵梅.基于TMS320C6678的语种识别并行算法设计与实现[J].电子技能运用,2012,38(10):37-40.
[8] 叶胜辉.正交波形MIMO雷达技能及其在双基地雷达中的运用[D].成都:电子科技大学,2006.
[9] Texas Instrument.TMS320C6678 multicore fixed and floating-point digital signal processor[Z].2011.[10] Texas Instrument.Multicore programming guide[Z].2009.