Tensilica日前骄傲地宣布以其面向密集计算数据平面和DSP(数据信号处理器)如成像、视频、网络和有线/无线基带通信的处理器IP巩固了其在IP内核领域的领导者地位,任何需要庞大数据处理的应用都将极大都受益于这些突破性功能――通过内建Tensilica面向SOC的Xtensa® LX4数据平面处理器(DPU)可以将这些应用数据带宽提高4倍!
新的Xtensa LX4 DPU支持更高的本地数据存储位宽,最高到每周期1024比特,支持更宽的128位VLIW(超长指令字)指令,从而提高指令并行度。新增的高速缓存预取功能,可以在片外存储器延时很高的情况下帮助提升系统性能,Tensilica已经将这些技术应用到最新发布的用于LTE通信的ConnX BBE64 DSP上。
“Tensilica DPU的优势在于同时具备控制和信号处理能力,与一个标准的RISC或者DSP内核相比,可以将性能优化提升10倍到100倍!” Tensilica 营销与业务拓展副总裁Steve Roddy指出,“现在,有了Xtensa LX4后, Tensilica可以提供的IP内核包括从微型可编程DPU(采用28nm工艺在0.01mm2提供1GigaMAC DSP能力)到业界最高性能的可授权DSP内核ConnX BBE 64-128,它每秒处理能力超过100 GigaMAC!”
针对高带宽应用有更宽的数据存取能力
与Tensilica的Xtensa LX3 DPU相比, Xtensa LX4 DPU有4倍本地存储器带宽,每个周期最多可以完成2个512位的存取操作,设计师现在可以轻易实现超宽SIMD(单指令多数据)DSP,它可以将更多数据同时送给MAC(乘加运算),使每个时钟周期性能大大提升,这使得Xtensa LX4 DPU特别适合于有线和无线基带处理、视频前处理和后处理、图像信号处理和各种网络包处理应用。
除了上述本地存储器带宽的增强,Tensilica 已有的可定制本地端口和队列可以提供近乎无限的点对点数据和控制信号带宽。Tensilica现在既可以提供在Xtensa DPU和其他系统模块如RTL 模块之间建立内部互连的端口和队列,也可以提供新的超高带宽本地存储器接口。
提供更宽的指令增强并行处理能力
有了Xtensa LX4, Tensilica可以让其FLIX(灵活长度指令扩展)指令的指令长度翻番,从64位扩展到128位,这使得每个时钟周期可以完成的操作数量翻番,FLIX指令可以和Xtensa基本指令集无缝混合,所以在用到FLIX的时候不用很麻烦地去切换模式。
Xtensa LX4 DPU的FLIX指令与传统的VLIW DSP相比,可以在提供超高性能的同时减小代码体积,Tensilica的Xtensa C/C++编译器可以从源代码中推断出并行性,并自动将多个不同操作并行化为一条FLIX指令。一个带有FLIX指令的Xtensa LX4 DPU能以很低的时钟频率运行并行操作,它提供的性能可以与时钟频率更高体积更大的非VLIW 内核相媲美,而在完成相同任务时它的功耗更低!
预存取减少周期数
新的数据预取操作因在数据使用前就提前取到了数据,所以可以减少高延迟系统中执行周期的数量,这样一来,当应用代码需要的时候,数据已经准备好了,在DPU必须等待数据时,可以减少时钟周期的浪费。当数据流是来自相邻存储地址的时候这样的好处就更突出,相比增加一个独立的DMA(直接存储器访问)引擎来说,这是一种更为简易的优化存储器访问的方法。它不需要额外的软件编程和应用代码调整。
成功的关键:自动化
利用Tensilica的开发工具,不仅可以自动生成DPU硬件,还可以生成相匹配的复杂软件工具链,因为所有的Xtensa处理器都包括了一套相同的基本指令集,所以基于这套基本指令集的的第三方应用软件可以运行在所有Xtensa处理器上,甚至是深度定制后的Xtensa DPU。
可定制Xtensa DPU与主流操作系统、DEBUG和ICE(在线仿真器)方案都兼容,每个XtensaDPU都有自动生成的完整的软件工具链,包括一个基于Eclipse框架的高级集成开发环境,一个世界级编译器,一个周期精确且兼容SystemC的指令集仿真器以及完整的工业标准GNU工具链。
随同发布的还有Tensilica的矢量化辅助工具,这是一个首创的工具,它给开发者提供建议来改善他们运行于SIMD(单指令多数据)DSP上的C代码的编程风格,这个矢量化辅助工具可以指出哪些代码妨碍了编译器进行矢量化,所以软件可发者能改善C源代码,从而发挥DPU并行执行的优势。
Tensilica 现就可以提供Xtensa LX4 DPU IP,在45nm工艺下基本型Xtensa LX4 DPU时钟频率可以超过1 GHz,而大小只有0.044 mm2。
|