InfoWorld评论:英特尔至强Nehalem EX生活大

在过去的几年里,每个人都在痛击安腾,但安腾确实拥有x86/x64系统梦寐以求的一些重要的上层功能。其中许多功能都是在RAS(可靠性、可用性和可维护性)领域中实现的,这些功能包括失败的DIMM隔离、热插拔RAM、插槽间内存镜像、损坏的数据包含和CPU热添加。在Nehalem EX发布之前,这些特性在Xeon世界根本不存在。他们现在知道了。

Nehalem EX芯片是为高容量SMP服务器设计的,可从两个插槽扩展到256个,每个插槽的可寻址RAM高达256GB。每个芯片有8个物理核和24MB的三级缓存,可以通过超线程呈现16个逻辑核。这些都是重要的数字。可以将1TB的RAM放入四插槽Nehalem EX服务器。

[快速的AES加密、更好的可扩展性和一致的单核性能使新的六核至强成为Nehalem EP的有价值的继承者。参见“InfoWorld review:Intel的Westmile struts its stuff.”]

了解Nehalem EX和Westmere EP之间的区别也很重要。Westmere EP基于32nm工艺,而Nehalem EX基于45nm工艺。韦斯特米尔EP有六个核心,像X7400邓宁顿,内哈勒姆EX有八个。Westmere EP的L3缓存最高可达12MB,而Nehalem EX则高达24MB。Westmile EP的每核运行频率高达3.33GHz,而Nehalem EX的每核运行频率为2.26GHz(目前)。在Westmere EP有两个快速路径互连的地方,Nehalem EX有四个,并且可以寻址Westmere EP的两倍RAM。两者都提供超线程、Intel VT虚拟化挂钩和Turbo模式。

Nehalem EX适用于非常大规模的工作负载。尽管Westmere EP的时钟频率有所提高,但它的伸缩性并不接近Nehalem-EX提供的水平。也就是说,有些工作负载更适合Westmere EP,尤其是受益于更高时钟频率的单线程任务。

为了测试nehalemex的性能,我选择了一套真实世界的并发测试。由于实验室里没有Intel X7400系列服务器,我将一台运行两个Intel X7560 Nehalem EX CPU的Dell R810与一台运行四个Intel X7350 Tigerton CPU的老式HP DL580 G3进行了比较。在深入研究结果之前,请注意这些系统之间的差异:HP DL580有四个四核X7350 CPU,每核运行2.93GHz,具有4MB L3缓存。Dell R810只有两个8核X7560,每个核运行2.26GHz,具有12MB缓存。X7560 Nehalem EX CPU支持超线程,而DL580中的X7350则不支持。这不是苹果对苹果,但它提供了一个很好的感觉,如果你的服务器超过一年的历史,并运行在X7300系列平台上的性能增益预期。

我运行的测试基于许多应用程序中的常见操作。LAME测试将一个152MB的WAV文件以256Kbps的比特率转换成MP3。压缩测试使用gzip和bzip2压缩和解压缩55mbmp3文件。MD5测试计算152MB文件上的MD5和,MP4到FLV测试将24MB MP4文件转码到FLV。这些测试是单线程的,但同时运行的并发性级别不断提高,以强调物理和逻辑内核、内存带宽、内存互连以及磁盘I/O。

在Nehalem EX上,我在启用和禁用超线程的情况下运行了这些测试。为了进行比较,我将在禁用超线程的情况下引用结果,以便这些数字表示相同数量的逻辑CPU。所有测试都在CentOS 5.4上运行。报告的数据来自于从ramdisk运行的测试,以消除磁盘I/O的瓶颈。

结果一开始有些不起眼。在8个并发进程中,DL580中的4个X7350 CPU在LAME和gzip测试中与R810中的两个Nehalem EX CPU均匀匹配,但在其他测试中明显落后。在并发级别为16的情况下,所有测试的差距都大大扩大了,在LAME和gzip测试中,较旧的系统略微领先于Nehalem-EX,但在其余测试中远远落后。一旦测试开始显著超额订阅每台服务器上的逻辑cpu数量,Nehalem EX就开始领先,并在所有测试中保持领先。

事实上,我在48、64和96个并发进程级别上运行了许多测试,以验证结果,因为性能差异太大了。例如,在64个并发进程中,两个CPU的Nehalem-EX系统需要2分12秒才能完成MP4到FLV的测试。四CPU X7350系统花了30多分钟完成同样的任务。这是一个巨大的性能差异。随着并发性的增加,两台服务器之间的性能差只会越来越大。我不仅能够将Nehalem EX升级到768个并发进程,而且它运行测试的速度仍然比X7360运行64个并发进程的速度快50%。

这种极端的性能提升是由许多原因造成的。旧的X7350系统可能有两个额外的CPU和一个670MHz的时钟速率,但它只有4MB的三级缓存,而Nehalem-EX上的24MB三级缓存。X7350还缺少QuickPath的优势,内存总线成为瓶颈。因此,在较重的工作负载测试中,Nehalem-EX将X7360从水中吹掉,即使每个核心的时钟速率降低,核心数相同。在工作量较轻的情况下,这种差异几乎没有那么显著。

我还在一台四CPU AMD Opteron 8435服务器上运行了相同的测试套件。这六核2.6GHz的伊斯坦布尔CPU已经问世一年了,与Nehalem EX不太匹配(因为RAM较慢,L3缓存减少了25%,而且这个版本的HyperTransport与QPI相比速度较低)。但他们在现实世界的部署方面对内哈勒姆前作了合理的比较。

这些测试表明,Nehalem EX肯定受益于更快的1066MHz DDR3 RAM(与伊斯坦布尔的800MHz DDR2相比)、QPI和更高的缓存,因为X7560在大多数测试中都超过了AMD Opteron 8435,尽管没有你想象的那么大。我对一个24核的伊斯坦布尔系统进行了测试,并且再次使用了一个人工约束,将AMD盒限制为只有16个物理核。这不是一个完美的比较,考虑到AMD盒子里还有四个CPU,但这是合理的。

结果:与启用超线程的X7560相比,全24核AMD系统在多个并发级别上保持了性能优势。然而,与启用或不启用超线程的X7560相比,伊斯坦布尔系统在仅限于16核的情况下失去了优势。在大多数情况下,X7560相对于AMD Opteron 8435的优势在10%左右,尽管在整个并发级别上有所波动。这两个服务器都关闭了基于X7350的服务器,尤其是在更高的并发级别上。

这个故事的寓意是,尼哈勒姆的前女友非常适合。不过,AMD新推出的12核Magny Cours芯片可能会让它成为一个全新的游戏。

混淆x86/x64服务器与大多数RISC服务器和大型机之间的主要区别之一是高端RISC平台在系统级处理错误检测、纠正和恢复的能力。这不是简单地确定某个DIMM已损坏并显示故障位置的问题,而是自动阻塞该内存段并允许该DIMM与另一个进行热交换,然后在没有任何停机的情况下使用替换件恢复正常操作。Nehalem EX中的MCA(机器检查体系结构)提供了此功能以及其他增强的可靠性特性。

提供这些特性并不像听起来那么简单。操作系统也需要在这个过程中扮演重要的角色,因为处理器需要通知操作系统内存出现故障,并允许操作系统重新启动正在使用该内存的进程,或者在隔离和替换之前将数据从坏内存中清除。

nehalemex还支持热添加RAM和cpu,这意味着RAM和处理器可以在不重新启动的情况下动态添加到现有系统中。当然,这也需要与操作系统和固件进行密切通信才能启用,因此不要期望这些功能在较旧的操作系统平台上可用,尽管大多数主要操作系统供应商都表示,他们将在处理器发布时支持这些功能。

还有更多的RAS特性,比如QPI包重试和QPI CRC检查,它们增强了QuickPath互连的可靠性、I/O集线器热添加和内存热节流。可以说,英特尔在新的Xeon中加入了一大堆非常高级别的可靠性函数。

尽管Nehalem EX没有提供最快的时钟速率,但它提供的每个CPU的内核数比任何其他英特尔处理器都多,它可以处理大量的RAM,而且它还增加了大量的可靠性功能--以前只有安腾才有这些功能。我们很快就会看到AMD刚刚到来的Magny Cours能够提供什么,但无论结果如何,很明显x86/x64计算从来没有比现在更好过。

相关故事:

这篇文章“InfoWorld review:Intel Xeon Nehalem EX lives large”最初发表于信息世界网. 随时关注服务器、处理器和其他硬件的最新发展信息世界网.

在InfoWorld的硬件频道中阅读更多关于硬件的信息。

这个故事,“信息世界评论:英特尔至强Nehalem前生活大”最初是由

信息世界。

在过去的几年里,每个人都在痛击安腾,但安腾确实拥有x86/x64系统梦寐以求的一些重要的上层功能。其中许多功能都是在RAS(可靠性、可用性和可维护性)领域中实现的,这些功能包括失败的DIMM隔离、热插拔RAM、插槽间内存镜像、损坏的数据包含和CPU热添加。在Nehalem EX发布之前,这些特性在Xeon世界根本不存在。他们现在知道了。

Nehalem EX芯片是为高容量SMP服务器设计的,可从两个插槽扩展到256个,每个插槽的可寻址RAM高达256GB。每个芯片有8个物理核和24MB的三级缓存,可以通过超线程呈现16个逻辑核。这些都是重要的数字。可以将1TB的RAM放入四插槽Nehalem EX服务器。

[快速的AES加密、更好的可扩展性和一致的单核性能使新的六核至强成为Nehalem EP的有价值的继承者。参见“InfoWorld review:Intel的Westmile struts its stuff.”]

了解Nehalem EX和Westmere EP之间的区别也很重要。Westmere EP基于32nm工艺,而Nehalem EX基于45nm工艺。韦斯特米尔EP有六个核心,像X7400邓宁顿,内哈勒姆EX有八个。Westmere EP的L3缓存最高可达12MB,而Nehalem EX则高达24MB。Westmile EP的每核运行频率高达3.33GHz,而Nehalem EX的每核运行频率为2.26GHz(目前)。在Westmere EP有两个快速路径互连的地方,Nehalem EX有四个,并且可以寻址Westmere EP的两倍RAM。两者都提供超线程、Intel VT虚拟化挂钩和Turbo模式。

Nehalem EX适用于非常大规模的工作负载。尽管Westmere EP的时钟频率有所提高,但它的伸缩性并不接近Nehalem-EX提供的水平。也就是说,有些工作负载更适合Westmere EP,尤其是受益于更高时钟频率的单线程任务。

为了测试nehalemex的性能,我选择了一套真实世界的并发测试。由于实验室里没有Intel X7400系列服务器,我将一台运行两个Intel X7560 Nehalem EX CPU的Dell R810与一台运行四个Intel X7350 Tigerton CPU的老式HP DL580 G3进行了比较。在深入研究结果之前,请注意这些系统之间的差异:HP DL580有四个四核X7350 CPU,每核运行2.93GHz,具有4MB L3缓存。Dell R810只有两个8核X7560,每个核运行2.26GHz,具有12MB缓存。X7560 Nehalem EX CPU支持超线程,而DL580中的X7350则不支持。这不是苹果对苹果,但它提供了一个很好的感觉,如果你的服务器超过一年的历史,并运行在X7300系列平台上的性能增益预期。

我运行的测试基于许多应用程序中的常见操作。LAME测试将一个152MB的WAV文件以256Kbps的比特率转换成MP3。压缩测试使用gzip和bzip2压缩和解压缩55mbmp3文件。MD5测试计算152MB文件上的MD5和,MP4到FLV测试将24MB MP4文件转码到FLV。这些测试是单线程的,但同时运行的并发性级别不断提高,以强调物理和逻辑内核、内存带宽、内存互连以及磁盘I/O。

在Nehalem EX上,我在启用和禁用超线程的情况下运行了这些测试。为了进行比较,我将在禁用超线程的情况下引用结果,以便这些数字表示相同数量的逻辑CPU。所有测试都在CentOS 5.4上运行。报告的数据来自于从ramdisk运行的测试,以消除磁盘I/O的瓶颈。

结果一开始有些不起眼。在8个并发进程中,DL580中的4个X7350 CPU在LAME和gzip测试中与R810中的两个Nehalem EX CPU均匀匹配,但在其他测试中明显落后。在并发级别为16的情况下,所有测试的差距都大大扩大了,在LAME和gzip测试中,较旧的系统略微领先于Nehalem-EX,但在其余测试中远远落后。一旦测试开始显著超额订阅每台服务器上的逻辑cpu数量,Nehalem EX就开始领先,并在所有测试中保持领先。

事实上,我在48、64和96个并发进程级别上运行了许多测试,以验证结果,因为性能差异太大了。例如,在64个并发进程中,两个CPU的Nehalem-EX系统需要2分12秒才能完成MP4到FLV的测试。四CPU X7350系统花了30多分钟完成同样的任务。这是一个巨大的性能差异。随着并发性的增加,两台服务器之间的性能差只会越来越大。我不仅能够将Nehalem EX升级到768个并发进程,而且它运行测试的速度仍然比X7360运行64个并发进程的速度快50%。

这种极端的性能提升是由许多原因造成的。旧的X7350系统可能有两个额外的CPU和一个670MHz的时钟速率,但它只有4MB的三级缓存,而Nehalem-EX上的24MB三级缓存。X7350还缺少QuickPath的优势,内存总线成为瓶颈。因此,在较重的工作负载测试中,Nehalem-EX将X7360从水中吹掉,即使每个核心的时钟速率降低,核心数相同。在工作量较轻的情况下,这种差异几乎没有那么显著。

我还在一台四CPU AMD Opteron 8435服务器上运行了相同的测试套件。这六核2.6GHz的伊斯坦布尔CPU已经问世一年了,与Nehalem EX不太匹配(因为RAM较慢,L3缓存减少了25%,而且这个版本的HyperTransport与QPI相比速度较低)。但他们在现实世界的部署方面对内哈勒姆前作了合理的比较。

这些测试表明,Nehalem EX肯定受益于更快的1066MHz DDR3 RAM(与伊斯坦布尔的800MHz DDR2相比)、QPI和更高的缓存,因为X7560在大多数测试中都超过了AMD Opteron 8435,尽管没有你想象的那么大。我对一个24核的伊斯坦布尔系统进行了测试,并且再次使用了一个人工约束,将AMD盒限制为只有16个物理核。这不是一个完美的比较,考虑到AMD盒子里还有四个CPU,但这是合理的。

结果:与启用超线程的X7560相比,全24核AMD系统在多个并发级别上保持了性能优势。然而,与启用或不启用超线程的X7560相比,伊斯坦布尔系统在仅限于16核的情况下失去了优势。在大多数情况下,X7560相对于AMD Opteron 8435的优势在10%左右,尽管在整个并发级别上有所波动。这两个服务器都关闭了基于X7350的服务器,尤其是在更高的并发级别上。

这个故事的寓意是,尼哈勒姆的前女友非常适合。不过,AMD新推出的12核Magny Cours芯片可能会让它成为一个全新的游戏。

混淆x86/x64服务器与大多数RISC服务器和大型机之间的主要区别之一是高端RISC平台在系统级处理错误检测、纠正和恢复的能力。这不是简单地确定某个DIMM已损坏并显示故障位置的问题,而是自动阻塞该内存段并允许该DIMM与另一个进行热交换,然后在没有任何停机的情况下使用替换件恢复正常操作。Nehalem EX中的MCA(机器检查体系结构)提供了此功能以及其他增强的可靠性特性。

提供这些特性并不像听起来那么简单。操作系统也需要在这个过程中扮演重要的角色,因为处理器需要通知操作系统内存出现故障,并允许操作系统重新启动正在使用该内存的进程,或者在隔离和替换之前将数据从坏内存中清除。

nehalemex还支持热添加RAM和cpu,这意味着RAM和处理器可以在不重新启动的情况下动态添加到现有系统中。当然,这也需要与操作系统和固件进行密切通信才能启用,因此不要期望这些功能在较旧的操作系统平台上可用,尽管大多数主要操作系统供应商都表示,他们将在处理器发布时支持这些功能。

还有更多的RAS特性,比如QPI包重试和QPI CRC检查,它们增强了QuickPath互连的可靠性、I/O集线器热添加和内存热节流。可以说,英特尔在新的Xeon中加入了一大堆非常高级别的可靠性函数。

尽管Nehalem EX没有提供最快的时钟速率,但它提供的每个CPU的内核数比任何其他英特尔处理器都多,它可以处理大量的RAM,而且它还增加了大量的可靠性功能--以前只有安腾才有这些功能。我们很快就会看到AMD刚刚到来的Magny Cours能够提供什么,但无论结果如何,很明显x86/x64计算从来没有比现在更好过。

相关故事:

这篇文章“InfoWorld review:Intel Xeon Nehalem EX lives large”最初发表于信息世界网. 随时关注服务器、处理器和其他硬件的最新发展信息世界网.

在InfoWorld的硬件频道中阅读更多关于硬件的信息。

这个故事,“信息世界评论:英特尔至强Nehalem前生活大”最初是由

信息世界。