找到根本问题

自动化网络管理软件即将面世,这种先进的软件保证了前所未有的监控企业网络的能力。

谁在用

但持怀疑态度的IT经理表示,这些工具仍然不够聪明。他们希望人工智能能够诊断出网络问题,并且至少在10次中有7次是正确的。

这种自动化依赖于事件关联和根本原因分析工具。这些工具背后的概念很简单:跟踪网络设备和关系,自动修复小问题,并将更复杂的故障提交给网络管理器。

但持怀疑态度的IT经理在购买此类工具之前,要求提供更好的自动化、基本的互操作性和更广泛的实用性。

位于北卡罗来纳州三角研究园的制药公司葛兰素史克公司(GlaxoSmithKline PLC)的领域架构师汤姆·雷瓦克(Tom Revak)说:“我们已经研究过这些工具,但在人工智能能够自动更新动态变化的网络之前,它只是一个非常小的地图。”

从历史上看,用户一直“怀疑软件是否能有意义地实现人类专业技能所取得的成果”,位于博尔德的IT咨询公司enterprisemanagementassociates公司的分析师丹尼斯•德罗西(Dennis Drogseth)说,Colo.Drogseth研究并撰写了该咨询公司12月份发布的关于根本原因分析和事件相关性的报告。

Drogseth说,用户已经将根本原因分析和事件关联的自动化视为“超出其价值的工作,需要太多的人力和知识才能为特定环境恰当地定义规则”。

高级相关智能:一种被大多数根本原因分析工具供应商隐藏起来的问题隔离方法。这是语言最有可能变得模糊或缺乏实质性的地方。事件关联:检查跨IT基础结构的事件之间的关系,以缩小对问题原因的搜索范围。对象数据存储:特定于设备、应用程序和连接的知识,为理解对象及其关系提供编码细节数据库。广泛的对象数据存储可以包含对象性能数据,用于跨设备类型(如服务器和路由器)建模例行交互。轮询和检测:提供有关基础设施可用性、性能和拓扑的持续事件数据。它们可以包括通用的可用性指标,以及CPU利用率甚至远程监控。陈述和背景:围绕你所看到的,它看起来如何以及它告诉你什么的问题。不管报告有多详细,除非以一种建议解决方案的方式呈现,否则就是太多的噪音。根本原因分析:找出故障或性能差的原因。拓扑学:事物所在的地图。它可以详细说明物理(第2层)和逻辑(第3层)网络,并向上移动开放系统互连堆栈,以包括与系统和应用程序相关的配置信息。

“没错,”费城宾夕法尼亚大学的高级网络工程师克里斯蒂娜·维克托伦说维克托伦说:“我们试着在Spectrum的自动发现的基础上进行开发,但我们花了更多的时间来修复它所发现的东西。”做(模型构建)的人发现,手工构建网络拓扑模型更快,这非常耗时。

瑞瓦克说,这些工具“需要感知什么时候发生了不正常的事情,比如迫使人们日以继夜地工作的关键期限,通常非关键性的失败变得至关重要,需要立即做出反应。”如果他们不能自动做到这一点,管理费用将大大超过投资回报。”

Drogseth在报告中说,当软件工具“能够成功地将问题诊断自动化70%甚至更好”时,用户的关键时刻似乎到来了。在这一点上,“用户认为他们的投资是合理的。

“今天,大多数更好的产品都达到了70%的目标,”Drogseth说。

他说,这样做的好处是巨大的:运行更顺畅的网络、更好的服务级别交付、减少员工需求和更低的开销。Drogseth在报告中说,这些好处,加上软件的进步和部署成本的降低,正在推动根本原因分析和事件关联工具的使用增加。

迈阿密皇家加勒比邮轮有限公司的it项目经理ChrisVecchiolla说:“没有它,我们不可能成功。”。皇家加勒比的18艘远洋客轮中,每艘都有两名IT人员,但大多数系统管理都是通过卫星从迈阿密远程处理的。

Vecchiolla说,Royal Carbitra使用Compaq Insight Manager和总部位于纽约州Islandia的Computer Associates International Inc.的Unicenter来管理和监控“大约170个项目,例如SCSI卡故障和服务器上的超阈值通知”。

不断升级的警报将问题通知船上和迈阿密的IT人员。Vecchiolla说,当系统检测到病毒时,它会自动销毁病毒,并通过显示器上的横幅通知机上的it人员。但他说,如果服务器超过预定的阈值,迈阿密的员工可能会被传呼来处理这个问题。

由于皇家加勒比海的船只在全球各地巡游,穿越每个时区,来自迈阿密的远程管理有时会在船上工作人员下班时发生。Vecchiolla说:“当迈阿密的工作人员在船上的系统上工作时,Unicenter会自动将其接收并生成一个横幅,发送给船上的系统经理,告诉他们日期、时间、访问的工作站、做了什么。”(机上IT人员)非常喜欢这样。”

Drogseth说,与他交谈的企业级公司中,有一半以上都是从自动化的“最低公分母,报警重复数据消除”开始的

如果服务器宕机,任何用户或设备每次试图访问它时都会产生一个单独的警报,但这并不能说明问题的根本原因。重复数据消除可以让网络管理器看到单个服务器停机警报。

位于密苏里州堪萨斯城的波士顿金融服务公司State Street Corp.的一个部门没有进行根本原因分析,但它确实使用频谱进行重复报警消除,State Street的网络服务经理David Lembke说。

维克托伦说:“宾夕法尼亚大学已经使用频谱五年来,以减少单一事件报告的警报数量。”她说:“假设我们建立的模型是正确的,那么它的效果相当不错。”。但“事实证明,一张红色圆点闪烁显示警报的大地图对我们没有多大用处。”

Drogseth说,在他对40家中型到大型公司的采访中,大多数IT经理表示,他们知道他们必须开始自动化,因为如果没有自动化工具,网络已经变得太大、太复杂,无法管理。

尽管雷瓦克对此表示怀疑,“但这并不是说我们不感兴趣,”他说。

“我们正在重新考虑对我们所有的网络进行建模,也许会转向陷阱聚合器或事件关联引擎,”Victoreen说。

IT经理们正在超越大多数供应商强调的网络焦点,并看到这些工具的广泛用途,例如支持性能、帮助台功能、库存和资产管理、更改管理和安全性。Drogseth说,并不是所有的工具都支持所有这样的扩展。

大多数工具的供应商也声称具有某种预测能力。

随着时间的推移学习的网络不仅有助于防止问题的发生,而且还可以通过让it员工从繁重的工作中解脱出来,只在遇到更困难的问题时才去拜访他们,从而提高工作满意度。

但是,里瓦克说,大多数此类人工智能工作的不足之处在于检测细微的变化他说:“通过反复的小变化,标准(可以)在非常接近失效点的地方发生变化,为下一个与新建立的标准的小偏差建立了一个重要的失效情况。”。

预测能力差别很大,并不是所有的预测能力都基于复杂的人工智能技术。