首页 > 编程知识 正文

AI异构通信(arm和fpga)

时间:2023-05-03 10:14:16 阅读:83589 作者:2220

摘要:提出了一种基于多核DSP互连结构的SAR图像处理方案。 首先介绍了一种基于方位子块插值的PFA实时图像生成算法。 然后研究了TI多核DSP TMS320C6678的处理性能,介绍了典型的RapidIO互连架构,并提出了基于该架构的SAR成像处理方案。 最后给出了SAR成像的结果,并通过与传统解决方案的比较,证明了该处理方案的有效性和先进性。

0引言

合成孔径雷达(SAR )是一种具有全天候、全天时从远程位置获取地面信息能力的传感器。 SAR具有域外探测能力,在边境侦察、战场侦察、战场精密打击等应用中起着重要作用,具有极高的军事价值[1]。 SAR成像在高分辨率和高映射带宽的指标需求下,由于距离方位的二维数据量庞大且算法复杂,对信号处理系统的数据传输和实时处理能力提出了很高的要求。

传统的单核DSP架构仅限于点对点的连接方式,只能形成固定的拓扑结构,而且单核DSP的处理能力有限,只能采用多DSP之间并行流水的方式来提高系统的实时处理能力系统规模的增加带来了复杂性高、稳定性差、散热性差、重量大等一系列问题,随着系统指标要求的提高,该固定拓扑接近极限。 多核DSP架构不仅可以提高单个DSP的处理能力,减少系统DSP的数量,还可以支持RapidIO等高速串行总线,满足系统对数据吞吐量的需求,还可以实现更灵活高效的互联

1 PFA成像处理算法

在波束模式合成孔径雷达中,由于天线波束总是指向恒定的摄像区域,所以雷达会相对于目标区域发生旋转。 极谱算法(Polar Format Algorithm,PFA )被提出为最早有效的旋转目标成像方法,很快该方法成功地形成了聚焦模式SAR成像,大大提高了聚焦SAR的聚焦成像范围[2]。

PFA是典型的收敛SAR图像生成算法,该算法以极坐标形式存储数据,有效地解决了远离图像区域中心散射点的越分辨率单元的移动问题,大大提高了收敛SAR的有效焦点图像范围。 与其他算法相比,PFA算法具有简单高效、计算量小、实时性好、易于运动补偿等优点,广泛应用于SAR实时成像领域[3-4]。

本文采用PFA图像生成算法,流程如图1所示。

上述PFA算法在插值处理时需要存储大量数据,存储容量增加的同时,图像形成延迟变大。 基于方位子块插值的PFA图像生成算法[5]将所有的距离线的集合分割为相互重叠的子集合,将各子集合作为一个子块,分配给对应的处理器进行插值处理,从而减少存储器容量的要求,减少图像范围

2 TMS320C6678多核DSP处理模式与性能研究

2.1多核DSP处理模式

TI发布新一代多核DSPTMS320c6678(c6678 ),内置8个内核,核心速率最高可达1.25 GHz,工业级芯片最高可达1 GHz,单核浮点运算能力最高可达20 GFLOP。 C6678在提高处理能力的同时,RapidIO支持高达20 GB/s的传输,以太网支持高达1 GB/s的传输。 该DSP的存储器可以分为本地存储器(LL2 )、共享存储器(SL2 )和芯片外存储器) DDR )。 其中,LL2可以寻址512 KB、SL2可以寻址4 MB、DDR可以寻址8 GB的空间[6]。

如图2所示,一般的多核处理模式有主从模式和数据流模式两种。

1 )主从模式,即一个核心进行数据的接收和分发,管理其他核心的处理,即1 N的动作模式;

(2)数据流模式,即处理根据数据的传输串行执行。

由于多核共享数据带宽,数据流模式只适用于内核之间传输数据量小的情况,SAR处理数据量大,因此采用主从模式。

基于C6678的多核主从模型如图3所示。 由于缓存(cache )占用一部分LL2的存储区域,剩余部分的容量小,所以LL2只用于存储小数据量的常数。 SL2用于保存各核处理时使用的中间结果; DDR空间很大,可以存储需要存储在DSP输入、输出和数据角的大量数据。

主内核首先将接收到的DSP输入数据分配给对应的从内核,每次处理时启动从内核进行对应的子处理,等待所有从内核的处理完成,最后将从内核的输出结果汇总到其他DSP 该主从模式分离了DSP的处理和数据传输,简化了DSP之间的时序关系,提高了系统的稳定性。

2.2多核DSP处理性能研究

基于上述主从模式,以FFT运算为例,测试C6678多核并行处理性能。 如图4所示,FFT处理时间随着并行核心数量的增加而增加,这是因为多核共享SL2的数据带宽,从核心并行处理时就产生了冲突,DSP并行处理能力下降。 因此,多核并行处理能力并不随着参与处理的从属内核数量的增加而线性增加。

据PFA成像算法流程,以1+4主从模式(1个主核加4个从核)为例,测试了SAR处理中各子功能多核并行处理性能,并对比单核DSP TS201,结果如表1所示。由于两种处理器的主频、内存总线宽度、优化能力等都不尽相同,并且某些子功能不适于并行处理(如自聚焦迭代过程),C6678与TS201的处理能力并不是简单的4倍关系。

2.3 维护cache一致性

上文给出的结果,是在DSP使能cache的前提下得出的。对C6678来说,每个核都可以在LL2中开辟cache空间,在使能cache的情况下,每个核对SL2的读写操作都是在cache中进行的,这样极大地提高了内存读写效率。以4 096点FFT运算为例,使能cache的情况下耗时为68 μs,非使能cache的情况下则高达600 μs。

但是使能cache会导致cache一致性问题,cache一致性问题是指在含有多个cache的并行系统中,数据的多个副本因为没有同步更新而造成的不一致问题。这时需要软件来维护cache一致性,维护cache一致性的操作分为cache无效化和cache回写。例如当核A需要更新数据给核B时,核A首先要执行cache回写操作,使cache中的数据更新到内存中去,核B在读取核A更新的数据前要执行cache无效化操作,以保证从cache读取的数据和内存中一致。除了多核间维护cache一致性外,核与外设(如SRIO、EDMA等)间也要维护cache一致性,因为外设对内存的读写操作是不经过cache的。

3 基于RapidIO互联SAR实时处理系统设计

提高DSP的处理能力只是保证系统实时性的一方面,在典型的嵌入式系统中,瓶颈往往在于系统级互联,即各元件之间的通信速度。RapidIO互联架构消除了该瓶颈,它提供了一种高性能、分组交换的互联技术。目前C6678支持最高20 GB/s的传输速率。

图5所示为一个典型的多核DSP互联架构,板内DSP通过交换设备(SW)互联,板间又通过SW互联,从而组成一个RapidIO互联网络。传统的固定拓扑架构由于通信链路单一,使得系统内每个DSP都不可替代。而在这种互联架构中,DSP在系统内的逻辑位置都是等效的,可以方便地实现系统的重构。同时,该互联架构以4DSP板卡为最小单元,可根据系统的需求进行扩展。这种RapidIO互联架构使得软件设计不再受限于固定的拓扑结构,具有很高的重构性和扩展性。

为了充分利用多核DSP的并行处理性能,每个子功能模块需要尽可能地完成更多功能,这样也减少了子功能模块间即DSP间的数据传输,减少了流水级数,降低了系统的复杂度。

SAR处理时序如图6所示,补偿处理由于实时性要求高,需要4个DSP进行轮转处理,处理结果同样轮转发送到DSP_21、DSP_22和DSP_23 3个DSP进行子块插值和二维IFFT处理,DSP_21、DSP_22和DSP_23处理完毕后发送输出结果给DSP_24,DSP_24接收到所有子块结果后,产生复图像进行后续处理,最终产生图像并输出。

4 成像结果验证

图7所示为该SAR成像处理系统的验证平台,调试计算机通过以太网输入试飞获取的原始数据,经过处理系统进行SAR成像处理,成像结果如图8所示,图像分辨率为0.5 m。由图可见,该图像各个部位聚焦良好、细节清楚且层次丰富,验证了该成像系统的有效性。

传统的单核DSP架构,需要多达40个DSP才能勉强保证SAR成像处理的实时性,该多核DSP架构仅使用8个DSP即可满足需求,并且仍留有一定的余量(每个DSP仅使用5个核),相比之下,该多核DSP互联架构优势明显。

5 结 论

本文介绍了一种适于工程实现的实时SAR成像处理算法,重点研究了多核DSP(C6678)的处理模式、处理性能,并详细分析了多核DSP中cache一致性问题。根据研究结论,测试验证了SAR处理的子功能模块。随后,介绍了一种典型的RapidIO互联架构,设计并实现了基于该架构的SAR成像处理系统。结果表明,该系统相对于传统架构具有高效性、重构性和可扩展性。

参考文献

[1] 周峰,psdyl,迷你的小白菜,等.一种机载大斜视SAR运动补偿方法[J].电子学报,2007(35):463-468.

[2] 大意的水蜜桃.机载聚束模式合成孔径雷达的成像算法研究[D].北京:北京航空航天大学,2001.

[3] 乐观的电话.PFA在SAR超高分辨率成像和SAR/GMTI中的应用研究[D].南京:南京航空航天大学,2009.

[4] CARRARA W G,GOODMAN R S,et al.Spotlight synthetic aperture radar signal processing algorithms.Artech House,Boston,1995.

[5] dpdbl,ngdqq,ngdttt.一种基于改进PFA算法的机载大斜视SAR实时信号处理系统设计[J].计算机工程与应用,2014.

[6] TMS320C6678 Multicore Fixed and Floating-Point Digital Signal Processor[J].USA:Texas,2011.

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。