测试中心:英特尔的内哈勒姆只是在嘶嘶作响

英特尔新推出的Nehalem-Xeon处理器(Nehalem-Xeon-cpu)已经产生了很大的热度。如今,这种处理器正被引入无数的单插槽和双插槽服务器和工作站中。今年2月,英特尔全球通信经理尼克•克努普弗(Nick knupfer)向技术记者介绍新处理器时,曾吹嘘说:“Nehalem代表了自推出奔腾Pro以来我们取得的最大性能提升。”

几乎在座的每个人,当然还有我,都对这一说法表示了彻底的怀疑。但是在我的实验室里运行了两个插座,八个核心的Nehalem系统几个星期之后,knupfer似乎是对的。英特尔制造了一种更好的捕鼠器。它使用了AMD的部分蓝图来实现。

[英特尔还是AMD?看“尼哈勒姆从哪里得到果汁?、“英特尔工程师上演CPU政变”、“AMD的六发子弹已经上膛并准备就绪”以及“AMD旋转摩尔定律对其有利。”]

早在AMD的Opteron主宰性能的时候,英特尔就忙着把两个独立的内核粘在一个芯片上,并称之为双核CPU。内存带宽滞后,由于中央离模内存控制器,虽然处理器的整体性能是可以接受的,但它缺乏NUMA(非统一内存访问)冲床,这是Opteron的名声。Nehalem基于NUMA架构,与Opteron非常相似,其性能比英特尔迄今发布的任何其他产品都领先数英里。给我留下深刻印象。

内哈勒姆内部

Nehalem芯片(用于单插槽的Xeon 3500系列和用于双插槽系统的Xeon 5500系列)采用四核布局,具有7.31亿个晶体管、每核256KB的二级缓存、8MB的三级缓存、更深更快的缓存和更好的分支预测。从本质上讲,Nehalem融合了英特尔遗留的Xeon处理器的优点,并在NUMA的合并中进行了根本性的架构更改。

使用NUMA,每个CPU都有自己的内存控制器。这将DIMM列与特定的CPU联系起来,并且在Nehalem体系结构中,使用DDR3 RAM提供了每秒25.6GBps或6.4GT(千兆传输)的内存带宽速度。由于这种结构的变化和DDR3 RAM的性质,RAM时钟运行在800MHz、1066MHz或1333MHz。如果DIMM列组中每个通道都有一个RDIMM(已注册的DIMM),则最高速度可能为1333MHz。随着RAM被添加到这些通道中,总速度下降到1066MHz或800MHz。但是,使用4GB RDIMM,双插槽系统仅使用6个RDIMM就可以以1333MHz的频率运行24GB的RAM。使用Tylersburg芯片组,可以使RAM总量达到144GB——每个CPU 72GB——在800MHz下运行。

然而,尼哈勒姆不仅仅是努玛。大量的支持玩家也加入了这个组合,包括更新的虚拟化技术扩展,以帮助虚拟化用例;支持DDR3内存,它可以提供DDR2两倍的数据速率;以及SSE 4.2指令,这是一个相对较小的更新,旨在加速文本处理。显著增加的内存带宽是主要的更新,随着QuickPath的出现,新的处理器互连取代了陈旧的前端总线。但这些补充是非常受欢迎的,并完善了一揽子计划。

其中一个新功能被称为涡轮模式。如果启用“Turbo”开关,您可能还记得Intel 8088 CPU以8MHz或16MHz运行的日子。这可不是一回事。Nehalem中的Turbo特性允许CPU内核在负载需要时突发到更高的时钟速率。Turbo为每个内核增加了英特尔称之为“bin”的功能,它代表了133MHz的提升,允许某些内核根据需要进行超频。

Turbo听起来有点噱头,但它可以帮助处理单线程和轻线程的工作负载,因为它只能在物理内核的子集上使用。例如,一个或两个内核可能能够分配三个额外的存储箱,但同时运行的多个线程可能只能访问四个内核中每个内核上的一个存储箱。所有这些都取决于当时CPU的散热和功率状况,并进行动态调整。

哇,尼赫利!

所有这些特性加起来都大大提高了性能。有多重要?在我的许多测试中,Nehalem的运行速度大约是基于intelxeon5300的平台的两倍,在单线程操作中比基于intelxeon5400的系统快50%。很快。

例如,在初步测试中,我使用了HP ProLiant DL580和四个四核Intel Xeon X7350 CPU,每核运行2.93GHz作为基准。Nehalem系统运行两个四核Intel Xeon W5580 CPU,每核3.2GHz,支持超线程。

除了MySQL InnoDB数据库性能测试之外,我运行的测试大多是单线程的。然而,单线程测试是由16个同时进行的任务组成的,因此,对于每个测试场景,每个测试过程包含16个相同的过程。测试包括LAME音频编码、gzip和bzip2压缩,以及大文件的MD5和测试。请注意,X7350系统有16个物理内核,而Nehalem测试系统只有8个,通过超线程表示为16个虚拟处理器。

在所有测试中,Nehalem系统的平均速度大约比基于X7350的服务器快60%。例如,X7350系统以224Kbps的速率将16个相同的200MB WAV文件编码为MP3所需的时间是77秒。内哈勒姆系统在40秒内完成了任务。gzip测试显示X7350在6秒内压缩了16个MP3文件,而Nehalem系统在2秒内完成了任务。对于单线程测试,我使用MEncoder将一个27mbmpeg-4文件转换为FLV(Flash视频)。X7350以大约每秒100帧的速度用了43秒;Nehalem以大约每秒163帧的速度用了27秒。

我运行的MySQL测试基于InnoDB,使用MySQL bench测试套件。此测试运行大量并发数据库操作,包括选择、删除、更新、插入等。X7350系统总共用833秒完成了所有三项测试,而Nehalem系统则用713秒完成。

每芯更多

毫无疑问,这些数字令人印象深刻,即使是用虎城时代的芯片来衡量。双插槽Nehalem系统轻松击败四插槽X7350系统。测试是用16个并发的单线程进程运行的,因此X7350每个进程使用一个物理内核,而Nehalem使用超线程,每个物理内核运行两个进程。

更令人印象深刻的是,X7350服务器配备了一套硬件RAID0,由四个15000 rpm SAS驱动器组成,除了运行测试场景之外什么都不做,而Nehalem系统在一个软件RAID5阵列中运行了四个SATA驱动器,并作为我的工作站兼任。在Nehalem执行我的电池测试的同时,它在Nvidia Quadro FX 5500上驱动一个30英寸和一个24英寸的显示器,在30英寸显示器上全屏播放一部MPEG电影,并在四个虚拟桌面上运行500多个进程,包括几十个终端会话、Firefox浏览器会话,Java应用程序和流媒体音频——它仍然提供这些数字。

我也有机会在不同的测试套件中运行一个双插槽2.93GHz Xeon X5570 Nehalem系统。这个测试场景包括通过Synplicity的Synplify Pro和其他工具合成FPGA(现场可编程门阵列)。这些工具用于构建和测试ASIC芯片设计,完整的合成和映射运行可能需要数小时或数天才能完成。在引入Nehalem系统之前,在2.66GHz的xeonx5355双插槽上运行时,一个特定的模拟只需要7个多小时就可以完成。XeonX5570在2.93GHz的频率下运行了3.5个小时,完成了一半的时间。Nehalem芯片的原始能量在这个领域加速发展的潜力怎么强调都不为过。

就功耗而言,2中央处理器网站的Micah Schmidt这样说:“在配置相同的超微型工作站中,基于Nehalem的Xeon W5580系统在空闲时的功耗平均比基于Harpertown的Xeon X5492系统低70瓦。再加上新处理器的额外性能,每瓦特的性能差异是巨大的。”

系好安全带

展望未来,nehalemxeon的原始动力将加速它所涉及的一切,从ASIC设计到汽车设计,从天气模拟到全球数据模型。繁重的数据密集型应用程序过去需要数天的时间,现在可能需要数小时。那些花了几个小时的,现在可能需要几分钟。Nehalem将加快我们开发从手机到微波炉等各种现代技术的步伐。为电影呈现计算机生成的图像所需的时间要少得多。全动画电影的制作成本将更低,而计算机动画模型由于减少了开销,将更加逼真。

核心处理技术的每一项进步都是如此,但这项进步比大多数进步都要大,而且它出现的时候,复杂的建模和设计计算比以往任何时候都更成为现实。从本质上讲,几个月前过于复杂和耗时的过程和程序现在是完全可行的。

Nehalem不仅仅是一个更新更快的芯片,它是微处理器技术中一个改变游戏规则的发展。这也可能是几年前AMD忙于吃英特尔64位午餐的直接结果。有人可能会想,英特尔要想在没有重大竞争的情况下延续这一发展趋势,有什么动力。狼紧跟着人们跑得更快。如果没有这种动力,也许悠闲地散步是一天的规律。

我们都希望AMD能继续提供英特尔所需的产品,并很快推出一款性能堪比Nehalem的芯片。这就是说,Nehalem的巨大提升背后的主要原因是英特尔最终将内存控制器集成到了CPU上,这一优势曾经是Opteron的标志——但这只能做到一次。英特尔的下一步——用Westmile将Nehalem工艺缩小到32纳米——将无法利用这一步带来的明显性能提升。

无论Nehalem芯片开发背后的原因和阴谋是什么,也不管未来会带来什么,Nehalem所代表的原始力量简直是惊人的。

这个故事,“测试中心:英特尔的Nehalem simply sizzles”最初由

信息世界。

英特尔新推出的Nehalem-Xeon处理器(Nehalem-Xeon-cpu)已经产生了很大的热度。如今,这种处理器正被引入无数的单插槽和双插槽服务器和工作站中。今年2月,英特尔全球通信经理尼克•克努普弗(Nick knupfer)向技术记者介绍新处理器时,曾吹嘘说:“Nehalem代表了自推出奔腾Pro以来我们取得的最大性能提升。”

几乎在座的每个人,当然还有我,都对这一说法表示了彻底的怀疑。但是在我的实验室里运行了两个插座,八个核心的Nehalem系统几个星期之后,knupfer似乎是对的。英特尔制造了一种更好的捕鼠器。它使用了AMD的部分蓝图来实现。

[英特尔还是AMD?看“尼哈勒姆从哪里得到果汁?、“英特尔工程师上演CPU政变”、“AMD的六发子弹已经上膛并准备就绪”以及“AMD旋转摩尔定律对其有利。”]

早在AMD的Opteron主宰性能的时候,英特尔就忙着把两个独立的内核粘在一个芯片上,并称之为双核CPU。内存带宽滞后,由于中央离模内存控制器,虽然处理器的整体性能是可以接受的,但它缺乏NUMA(非统一内存访问)冲床,这是Opteron的名声。Nehalem基于NUMA架构,与Opteron非常相似,其性能比英特尔迄今发布的任何其他产品都领先数英里。给我留下深刻印象。

内哈勒姆内部

Nehalem芯片(用于单插槽的Xeon 3500系列和用于双插槽系统的Xeon 5500系列)采用四核布局,具有7.31亿个晶体管、每核256KB的二级缓存、8MB的三级缓存、更深更快的缓存和更好的分支预测。从本质上讲,Nehalem融合了英特尔遗留的Xeon处理器的优点,并在NUMA的合并中进行了根本性的架构更改。

使用NUMA,每个CPU都有自己的内存控制器。这将DIMM列与特定的CPU联系起来,并且在Nehalem体系结构中,使用DDR3 RAM提供了每秒25.6GBps或6.4GT(千兆传输)的内存带宽速度。由于这种结构的变化和DDR3 RAM的性质,RAM时钟运行在800MHz、1066MHz或1333MHz。如果DIMM列组中每个通道都有一个RDIMM(已注册的DIMM),则最高速度可能为1333MHz。随着RAM被添加到这些通道中,总速度下降到1066MHz或800MHz。但是,使用4GB RDIMM,双插槽系统仅使用6个RDIMM就可以以1333MHz的频率运行24GB的RAM。使用Tylersburg芯片组,可以使RAM总量达到144GB——每个CPU 72GB——在800MHz下运行。

然而,尼哈勒姆不仅仅是努玛。大量的支持玩家也加入了这个组合,包括更新的虚拟化技术扩展,以帮助虚拟化用例;支持DDR3内存,它可以提供DDR2两倍的数据速率;以及SSE 4.2指令,这是一个相对较小的更新,旨在加速文本处理。显著增加的内存带宽是主要的更新,随着QuickPath的出现,新的处理器互连取代了陈旧的前端总线。但这些补充是非常受欢迎的,并完善了一揽子计划。

其中一个新功能被称为涡轮模式。如果启用“Turbo”开关,您可能还记得Intel 8088 CPU以8MHz或16MHz运行的日子。这可不是一回事。Nehalem中的Turbo特性允许CPU内核在负载需要时突发到更高的时钟速率。Turbo为每个内核增加了英特尔称之为“bin”的功能,它代表了133MHz的提升,允许某些内核根据需要进行超频。

Turbo听起来有点噱头,但它可以帮助处理单线程和轻线程的工作负载,因为它只能在物理内核的子集上使用。例如,一个或两个内核可能能够分配三个额外的存储箱,但同时运行的多个线程可能只能访问四个内核中每个内核上的一个存储箱。所有这些都取决于当时CPU的散热和功率状况,并进行动态调整。

哇,尼赫利!

所有这些特性加起来都大大提高了性能。有多重要?在我的许多测试中,Nehalem的运行速度大约是基于intelxeon5300的平台的两倍,在单线程操作中比基于intelxeon5400的系统快50%。很快。

例如,在初步测试中,我使用了HP ProLiant DL580和四个四核Intel Xeon X7350 CPU,每核运行2.93GHz作为基准。Nehalem系统运行两个四核Intel Xeon W5580 CPU,每核3.2GHz,支持超线程。

除了MySQL InnoDB数据库性能测试之外,我运行的测试大多是单线程的。然而,单线程测试是由16个同时进行的任务组成的,因此,对于每个测试场景,每个测试过程包含16个相同的过程。测试包括LAME音频编码、gzip和bzip2压缩,以及大文件的MD5和测试。请注意,X7350系统有16个物理内核,而Nehalem测试系统只有8个,通过超线程表示为16个虚拟处理器。

在所有测试中,Nehalem系统的平均速度大约比基于X7350的服务器快60%。例如,X7350系统以224Kbps的速率将16个相同的200MB WAV文件编码为MP3所需的时间是77秒。内哈勒姆系统在40秒内完成了任务。gzip测试显示X7350在6秒内压缩了16个MP3文件,而Nehalem系统在2秒内完成了任务。对于单线程测试,我使用MEncoder将一个27mbmpeg-4文件转换为FLV(Flash视频)。X7350以大约每秒100帧的速度用了43秒;Nehalem以大约每秒163帧的速度用了27秒。

我运行的MySQL测试基于InnoDB,使用MySQL bench测试套件。此测试运行大量并发数据库操作,包括选择、删除、更新、插入等。X7350系统总共用833秒完成了所有三项测试,而Nehalem系统则用713秒完成。

每芯更多

毫无疑问,这些数字令人印象深刻,即使是用虎城时代的芯片来衡量。双插槽Nehalem系统轻松击败四插槽X7350系统。测试是用16个并发的单线程进程运行的,因此X7350每个进程使用一个物理内核,而Nehalem使用超线程,每个物理内核运行两个进程。

更令人印象深刻的是,X7350服务器配备了一套硬件RAID0,由四个15000 rpm SAS驱动器组成,除了运行测试场景之外什么都不做,而Nehalem系统在一个软件RAID5阵列中运行了四个SATA驱动器,并作为我的工作站兼任。在Nehalem执行我的电池测试的同时,它在Nvidia Quadro FX 5500上驱动一个30英寸和一个24英寸的显示器,在30英寸显示器上全屏播放一部MPEG电影,并在四个虚拟桌面上运行500多个进程,包括几十个终端会话、Firefox浏览器会话,Java应用程序和流媒体音频——它仍然提供这些数字。

我也有机会在不同的测试套件中运行一个双插槽2.93GHz Xeon X5570 Nehalem系统。这个测试场景包括通过Synplicity的Synplify Pro和其他工具合成FPGA(现场可编程门阵列)。这些工具用于构建和测试ASIC芯片设计,完整的合成和映射运行可能需要数小时或数天才能完成。在引入Nehalem系统之前,在2.66GHz的xeonx5355双插槽上运行时,一个特定的模拟只需要7个多小时就可以完成。XeonX5570在2.93GHz的频率下运行了3.5个小时,完成了一半的时间。Nehalem芯片的原始能量在这个领域加速发展的潜力怎么强调都不为过。

就功耗而言,2中央处理器网站的Micah Schmidt这样说:“在配置相同的超微型工作站中,基于Nehalem的Xeon W5580系统在空闲时的功耗平均比基于Harpertown的Xeon X5492系统低70瓦。再加上新处理器的额外性能,每瓦特的性能差异是巨大的。”

系好安全带

展望未来,nehalemxeon的原始动力将加速它所涉及的一切,从ASIC设计到汽车设计,从天气模拟到全球数据模型。繁重的数据密集型应用程序过去需要数天的时间,现在可能需要数小时。那些花了几个小时的,现在可能需要几分钟。Nehalem将加快我们开发从手机到微波炉等各种现代技术的步伐。为电影呈现计算机生成的图像所需的时间要少得多。全动画电影的制作成本将更低,而计算机动画模型由于减少了开销,将更加逼真。

核心处理技术的每一项进步都是如此,但这项进步比大多数进步都要大,而且它出现的时候,复杂的建模和设计计算比以往任何时候都更成为现实。从本质上讲,几个月前过于复杂和耗时的过程和程序现在是完全可行的。

Nehalem不仅仅是一个更新更快的芯片,它是微处理器技术中一个改变游戏规则的发展。这也可能是几年前AMD忙于吃英特尔64位午餐的直接结果。有人可能会想,英特尔要想在没有重大竞争的情况下延续这一发展趋势,有什么动力。狼紧跟着人们跑得更快。如果没有这种动力,也许悠闲地散步是一天的规律。

我们都希望AMD能继续提供英特尔所需的产品,并很快推出一款性能堪比Nehalem的芯片。这就是说,Nehalem的巨大提升背后的主要原因是英特尔最终将内存控制器集成到了CPU上,这一优势曾经是Opteron的标志——但这只能做到一次。英特尔的下一步——用Westmile将Nehalem工艺缩小到32纳米——将无法利用这一步带来的明显性能提升。

无论Nehalem芯片开发背后的原因和阴谋是什么,也不管未来会带来什么,Nehalem所代表的原始力量简直是惊人的。

这个故事,“测试中心:英特尔的Nehalem simply sizzles”最初由

信息世界。