自己动手灾难恢复

虽然大多数网络管理人员都在考虑服务器虚拟化以降低硬件成本,但这项技术也可能带来预算上的好处:成本更低的灾难恢复。由于灾难设施合同每月的成本很容易高达3万美元,因此取消这一预算项目是很有诱惑力的。

“在预算方面,最困难的部分之一是灾难恢复及其令人难以置信的价格。传统上,你必须将一个数据中心的所有数据复制到另一个数据中心,然后祈祷你永远不用使用它,”Jason Brougham说,他是American Medical Response(AMR Inc.)的企业网络经理。AMR Inc.是一家总部位于科罗拉多州格林伍德村的救护车服务公司,在全国拥有18000名员工和255个地点构建真正的灾难恢复的唯一方法是从热到热运行,两个数据中心在使用虚拟化的服务器上始终处于活动状态。”

在不同的数据中心拥有虚拟化服务器和存储区域网络(SAN)的公司已经准备好了进行内部灾难恢复的大部分工作:他们在遥远的地方有一个潜在的备份位置(可能不会受到灾难的影响)。它们在两个站点之间有网络连接。如果出现短期故障(从日常维护到几小时停电),他们的虚拟化和负载平衡软件可以让一台服务器或SAN几乎立即接管另一台服务器或SAN。

网络管理人员很容易就可以在全面的内部灾难恢复方面实现常识性的飞跃。如果服务器在暴风雨中漂浮或永久损坏,一个数据中心可以成为另一个数据中心的备份。即使您没有完全在内部实现灾难恢复,虚拟化也有助于节省设备合同的费用。更少的虚拟化服务器完成更多物理服务器的工作。

“在虚拟化环境中,硬件变得不那么重要——如果有400台服务器,可以想象,通过虚拟化,您可以在20台服务器上进行灾难恢复。亚特兰大的一家虚拟化和灾难恢复系统集成商Intellinet的首席顾问Vivian knorele说:“这可能会达到目的,但这就是我们的想法。”如果您仍然使用灾难恢复设施进行托管,费用和硬件需求可能会减少,因为物理服务器的数量可能会少得多。”

保险公司Enumclaw的情况就是这样,总部位于华盛顿州Enumclaw,在华盛顿、爱达荷州、俄勒冈州和犹他州设有16个办事处。

“我们对待灾难恢复就像对待人寿保险一样。我们不想拥有太多,但我们想要足够的东西,”Enumclaw的IT主管John Weeks说,Enumclaw使用的是EMC公司VMware的虚拟化软件虚拟功能简化了我们的恢复工作。”

与保险相关的关键处理在大型机上运行,因此Weeks目前与大型机的灾难恢复设施签订了合同。但该公司依赖基于英特尔的ibmxseries服务器来运行Citrix等其他应用程序,Citrix是通过虚拟服务器场运行的。通过VMware,Enumclaw的Mutual将其使用的物理服务器数量减少了约35%。(本周还开始为服务器场推出虚拟化IBM刀片服务器。他说,双刀片机箱最多可承载三台虚拟服务器,而四刀片机箱最多可承载五台虚拟服务器。)

这意味着灾难恢复所需的硬件要少得多。在实施VMware之前,该公司与其灾难恢复设施签订了合同,以维护一个类似的PC服务器环境--每台生产服务器一台备份服务器。”Weeks说:“我们已经通过虚拟模型简化了(灾难)模型。”VMware与硬件无关,我们可以在没有相同或接近相同硬件的情况下恢复系统。这创造了灵活性,并扩展了我们的选择,无论我们恢复到哪个站点,无论是使用旧硬件的我们自己的站点还是使用所有新硬件的新站点。“Enumclaw的Mutual还降低了灾难恢复的网络和支持要求,Weeks说。

不过,与所有IT产品一样,将虚拟化远程数据中心转变为彼此的灾难恢复备份并非易事。技术问题比比皆是,其中服务器配置管理/资源清册控制、数据同步和广域网带宽是最大的挑战。你不能忽视处理流程、人员和实践的需要。

失去更多

因为每个虚拟化服务器都相当于许多物理服务器,即使其中一个服务器起火,您的许多IT基础设施也会起火。快速重建它意味着准确地知道你失去了什么。

可以使用一些工具来拍摄整个虚拟服务器的映像或快照,以便在另一台物理机上启动(如VMotion或UltraBac)。但缺少一些工具来精确跟踪这些虚拟服务器的配置方式、每个服务器上加载了什么软件、需要做哪些调整以确保所有应用程序都能很好地协同工作等等。

Intellinet的Knoerle警告说:“虚拟化机器的配置管理和变更管理是一个全新的问题。”您需要很好地跟踪每台服务器上的内容,而我们现在的配置管理工具不支持虚拟化机器。”

此外,对于任何灾难恢复操作,“您需要在操作组级别跟踪配置,”她说。虚拟化将简化这一过程——您可能会让最关键的应用程序自动故障转移到其他虚拟服务器。但是,恢复不太关键的应用程序可能会变得难看。用物理服务器标记的备份媒体不够好。您需要确切地知道每个物理服务器上运行的是哪些虚拟机和应用程序,以及哪些进程应该优先。

“做一些分类——简单到把应用程序放在诸如任务关键型、业务关键型和操作型这样的标签中。这就是你将如何确定你的恢复目标,这将决定你需要的基础设施和计划,”斯蒂芬妮巴拉乌拉斯说,在扬基集团的高级分析师。

美国医疗响应公司(American Medical Response)负责监督多家公司内部灾难恢复工作的布鲁姆(Brougham)强调,有必要对所有资源(虚拟化和非虚拟化)进行IT库存评估。他说,大多数公司在库存管理方面做得很差,特别是在服务器上,因为它们很少实现服务器级的库存管理工具。由于少量虚拟化服务器现在代表大量物理服务器,您的库存评估很可能会发现“您的应用程序比实际需要的多40个”。否则你会发现你还需要40个应用程序,”他说。

好的一面是,如果您还没有对数据中心的设备进行标准化,您就可以松一口气了。虚拟化的服务器不会在意它们放在什么硬件上,可以使用较旧的设备。这也不同于数据中心必须完全相同才能作为备份站点运行的时代。

SAN和同步

您将需要以类似的方式分析SAN上的数据。Weeks表示,Enumclaw的Mutual计划扩展其SAN,但将继续使用现有存储进行测试和灾难恢复。它将添加带有内置交换机的3TB EMC AX100串行高级技术附件SAN设备。他解释说,这些交换机也有Brocade Communications Systems Inc.和McData Corp.等供应商提供的独立版本,可以让SAN将数据从一个设备移动到另一个设备以进行灾难恢复。

故障转移应该是容易的部分。知道最关键的数据在哪里,以及如何确保它是第一个恢复在线的数据,将是最困难的部分。这是使用信息生命周期管理技术对数据进行分类的一部分,分析师建议将其作为内部灾难恢复工作的一部分实施。”最重要的一步是数据分类。

您还需要了解在主站点和故障转移站点之间同步数据的技术。惠普全球业务连续性服务执行总监贝琳达•威尔逊(Belinda Wilson)表示,每个灾难恢复计划都使用“恢复时间目标”将数据丢失控制在可接受的范围内。这将帮助您选择同步方法。但是,通过虚拟化技术,同步可以在许多级别上进行,例如在应用程序、数据库和SAN上。同步技术之间的混合和匹配以及确保完全的数据同步是一个问题,确定哪一个源是发生错误同步的最后一个字也是一个问题。

需求的乐趣

在接近6个月大关的时候,您应该找到内部灾难恢复的构建块:配置/更改管理、清单评估、应用程序和数据分类、SAN故障转移和数据同步。现在真正的乐趣开始了:规划新的虚拟数据中心、灾难恢复基础设施的技术要求。

你的分析应该涵盖员工最常使用的系统、企业最依赖的系统以及你的技术需求,Brougham说如果我突然把这个数据库搬出大楼,网络的负荷会是多少?如果我把它从大楼里拿出来,对应用程序的性能有什么影响?有没有可能把这些系统集中在250英里以外的地方?”

这些问题的答案将决定您的设计,例如,从每晚一次、长达数小时的数据库同步过程到每隔15分钟拍摄彼此快照的镜像系统。

虽然您的虚拟化站点之间可能已经有了网络连接,但您必须从新的角度来看待它们。Brougham建议使用多协议标签交换(MPLS)进行灾难恢复,因为它提供的容量比T1价格下的帧中继容量大得多,但也可以进行网格化。MPLS会自动在各种路由之间转移IP流量,这正是您需要的故障转移类型。使用任意到任意站点的连接,您可以保持更高的使用阈值,同时仍让链接吸收共享的故障转移流量。他将其比作一家使用两条T1线路作为数据中心的公司,每条线路的利用率为60%。灾难来袭,一个数据中心必须故障转移到另一个,现在公司的所有流量都使另一个链路过载。

但是,布鲁姆警告说,“小心。你可以用一个完全网状的网络来制造你自己的灾难;病毒传播会杀死你。”因此,在构建网状广域网进行灾难恢复时,你必须考虑如何提高安全性。

人民因素

像所有IT项目一样,一半的战斗是通过技术赢得的,另一半是通过过程和人员赢得的。制定详细的程序并加以实践。你不希望现场灾难是你的员工第一次执行计划。在通过服务器虚拟化建立备份数据中心时,他们可能也需要一种新的思维方式。他们可能习惯于复制应用程序,而不是在紧密耦合的虚拟化环境中进行快速故障转移。可能会出现意外问题,例如决定何时必须重新配置DNS服务器以指向备份数据中心。