你的位置:
首页
>
IT圈
>
Intel Xeon phi计算卡片的解析
2024年7月18日发(作者:战书竹)
Intel Xeon phi 协处理器 实际上它更像是与CPU协同工作的GPU。Xeon Phi协处理器在很大
程度上继承了流产的独立显卡项目Larrabee的遗志,外部造型看似显卡,其实是和Tesla类
似的专用加速计算卡,其架构采用顺序、双发射x86,支持64位运算,每个核心支持最多
四个线程,最多61个核心、244个线程,并且每个核心都搭配一个512-bit SIMD矢量引擎。
当然了,这里的“核心”跟Tesla里边的CUDA核心是没有直接可比性的,它们分别来自CPU、
GPU的世界。虽然在性能预估上与NVIDIA的Tesla K20核心相比没有占到上风,但是Xeon Phi
在编程易用性上有优势,除非开发者需要使用新功能,否则多数代码都不需要重写。英特尔
推出这款处理器就是为了达到和英伟达和AMD处理器一样的效果,提高软件的并行加速计
算能力。
英特尔公布了两个Xeon Phi系列,其中一个系列是Xeon Phi 5110P,现在已经上市,而另外
一个系列Xeon Phi 3100需要到2013年第一季度上市。这两个系列处理器都是采用22nm的
COMS制程工艺,拥有50亿个晶体管,采用的是英特尔Many-Integrated Core(MIC)众核
架构。
Xeon Phi 5110P拥有60个核心,每一个核心都有着4个线程,1.05GHz,2级缓存为30MB,
最大支持8GB的GDDR5内存寻址,内存带宽高达320Gbps,双精度浮点计算能力能够达到
1TFLOPS,在此次超级计算机TOP500中,戴尔的Stampede采用的是一个客户定制版本SE10,
拥有着61个核心,2级缓存也比30M要大一点。
对于2013年将要发布的Xeon Phi 3100,Xeon Phi 3100拥有57个核心,频率1.1GHz,位
宽384bit,搭配6GB GDDR5显存,支持ECC,带宽超过240GB/s,可提供1TFLOPS双精度浮
点性能,TDP为300W。
在并行加速计算领域,似乎将要演变成为x86协同处理器与GPU加速器之间的竞争,
英特尔区分这两者之间的区别是the Xeon Phi能够运行操作系统,而GPU加速器则不能,
Xeon Phi能够运行红帽Linux或者是SuSE Linux。
不过更为重要的是这些并行加速处理器是怎样提高超级计算机的计算性能,在这些方面
软件等方面起到的作用要比操作系统更重要。
例:田纳西州大学的田纳西高级计算中心(TACC)正在他们的新超级计算机“Stampede”(惊
跑)里安装Xeon Phi,也让我们得以一睹其真容:
不明说的话肯定会以为这是块标准的显卡吧?Tesla其实也是这个样子,标准的双插
槽体积PCI-E x16扩展卡,而且是因为专用于计算的,都没有视频输出接口(AMD的还有)。
Xeon Phi也有主动散热、被动散热两种版本,这里用的是被动散热的,外壳下边是厚
重的均热板和散热片,尾部则能看到一个六针和一个八针辅助供电接口,最大供电能力300W。
至于实际性能如何,很可能现在哪儿都不具备测试条件,毕竟这玩意儿因为架构的缘
故要求操作系统、工具软件都得在一定程度上重新编写和优化,Intel也一再强调优化的重
要性。
Intel也没有一味夸大加速计算的优势,而是首先澄清了一个误解。Intel拿出了一段
Fortran代码,先运行未优化的单线程代码,然后优化并以Xeon Phi运行,性能差异达到
了恐怖的300倍。
NVIDIA Tesla宣称的性能提升差不多就是这样对比而来的,让加速计算的结果和单线
程结果对比,几十乃至几百倍的提升就轻松得来。
Intel则证明了其谬误:在双路Xeon E5上重新运行相同的代码,Xeon Phi只快了大
约两倍而已。也就是说,如果代码本身就针对多核心处理器做过优化,加速计算的真实优势
会小得多。
在另一个C++的例子中,109倍的提升被证明其实只有2-2.5倍。
随后,Intel展示了Xeon Phi协处理加速计算所带来的真正性能提升,通过Intel MKL
理论测试得到的幅度为最多2.2-2.9倍,实际应用中则普遍只有最多1.7-2.53倍,只有金
融服务方面取得了10倍左右的突飞猛进(布莱克斯克尔斯期权定价模型和蒙特卡罗算法)。
Intel还请来了软件和技术供应商Altair的一名代表,让他证明把代码移植到Xeon Phi平
台上是多么的简单,并证明崩溃测试模拟之类的应用一般可以带来2.5倍左右的性能提升。
■
2024年7月18日发(作者:战书竹)
Intel Xeon phi 协处理器 实际上它更像是与CPU协同工作的GPU。Xeon Phi协处理器在很大
程度上继承了流产的独立显卡项目Larrabee的遗志,外部造型看似显卡,其实是和Tesla类
似的专用加速计算卡,其架构采用顺序、双发射x86,支持64位运算,每个核心支持最多
四个线程,最多61个核心、244个线程,并且每个核心都搭配一个512-bit SIMD矢量引擎。
当然了,这里的“核心”跟Tesla里边的CUDA核心是没有直接可比性的,它们分别来自CPU、
GPU的世界。虽然在性能预估上与NVIDIA的Tesla K20核心相比没有占到上风,但是Xeon Phi
在编程易用性上有优势,除非开发者需要使用新功能,否则多数代码都不需要重写。英特尔
推出这款处理器就是为了达到和英伟达和AMD处理器一样的效果,提高软件的并行加速计
算能力。
英特尔公布了两个Xeon Phi系列,其中一个系列是Xeon Phi 5110P,现在已经上市,而另外
一个系列Xeon Phi 3100需要到2013年第一季度上市。这两个系列处理器都是采用22nm的
COMS制程工艺,拥有50亿个晶体管,采用的是英特尔Many-Integrated Core(MIC)众核
架构。
Xeon Phi 5110P拥有60个核心,每一个核心都有着4个线程,1.05GHz,2级缓存为30MB,
最大支持8GB的GDDR5内存寻址,内存带宽高达320Gbps,双精度浮点计算能力能够达到
1TFLOPS,在此次超级计算机TOP500中,戴尔的Stampede采用的是一个客户定制版本SE10,
拥有着61个核心,2级缓存也比30M要大一点。
对于2013年将要发布的Xeon Phi 3100,Xeon Phi 3100拥有57个核心,频率1.1GHz,位
宽384bit,搭配6GB GDDR5显存,支持ECC,带宽超过240GB/s,可提供1TFLOPS双精度浮
点性能,TDP为300W。
在并行加速计算领域,似乎将要演变成为x86协同处理器与GPU加速器之间的竞争,
英特尔区分这两者之间的区别是the Xeon Phi能够运行操作系统,而GPU加速器则不能,
Xeon Phi能够运行红帽Linux或者是SuSE Linux。
不过更为重要的是这些并行加速处理器是怎样提高超级计算机的计算性能,在这些方面
软件等方面起到的作用要比操作系统更重要。
例:田纳西州大学的田纳西高级计算中心(TACC)正在他们的新超级计算机“Stampede”(惊
跑)里安装Xeon Phi,也让我们得以一睹其真容:
不明说的话肯定会以为这是块标准的显卡吧?Tesla其实也是这个样子,标准的双插
槽体积PCI-E x16扩展卡,而且是因为专用于计算的,都没有视频输出接口(AMD的还有)。
Xeon Phi也有主动散热、被动散热两种版本,这里用的是被动散热的,外壳下边是厚
重的均热板和散热片,尾部则能看到一个六针和一个八针辅助供电接口,最大供电能力300W。
至于实际性能如何,很可能现在哪儿都不具备测试条件,毕竟这玩意儿因为架构的缘
故要求操作系统、工具软件都得在一定程度上重新编写和优化,Intel也一再强调优化的重
要性。
Intel也没有一味夸大加速计算的优势,而是首先澄清了一个误解。Intel拿出了一段
Fortran代码,先运行未优化的单线程代码,然后优化并以Xeon Phi运行,性能差异达到
了恐怖的300倍。
NVIDIA Tesla宣称的性能提升差不多就是这样对比而来的,让加速计算的结果和单线
程结果对比,几十乃至几百倍的提升就轻松得来。
Intel则证明了其谬误:在双路Xeon E5上重新运行相同的代码,Xeon Phi只快了大
约两倍而已。也就是说,如果代码本身就针对多核心处理器做过优化,加速计算的真实优势
会小得多。
在另一个C++的例子中,109倍的提升被证明其实只有2-2.5倍。
随后,Intel展示了Xeon Phi协处理加速计算所带来的真正性能提升,通过Intel MKL
理论测试得到的幅度为最多2.2-2.9倍,实际应用中则普遍只有最多1.7-2.53倍,只有金
融服务方面取得了10倍左右的突飞猛进(布莱克斯克尔斯期权定价模型和蒙特卡罗算法)。
Intel还请来了软件和技术供应商Altair的一名代表,让他证明把代码移植到Xeon Phi平
台上是多么的简单,并证明崩溃测试模拟之类的应用一般可以带来2.5倍左右的性能提升。
■