由于日常操作期间可能不会使用IT系统的所有部分,某些组件可能会失效,软件模块可能会崩溃,但系统可能依旧正常运行数月甚至数年。在系统重启(通常意外)之前,故障可能无法被识别,进而导致意外的工作负载中断和停机时间。
定期进行电源循环测试,以识别可能出现的问题并主动解决。
应该如何实施电源循环测试,应该多久进行一次?
可靠的设计能够保障服务器运行多年。当在弹性配置(例如服务器集群)中部署这些服务器时,这些系统上运行的工作负载几乎是不可破坏的。事实上,强调系统弹性和正常运行时间常常导致许多组织放弃周期性的重启测试。
但是如果一个服务器或存储子系统运行了几年,要如何知道它还能正确启动?无法得知,而且保证系统能够成功冷启动的唯一方法就是定期重启。
电源循环测试需依赖什么?
根据需求定期进行电源循环测试,以保证对业务需求在合理水准的信心。通常,可以每几个月或每年进行几次电源循环。将电源循环测试与常规灾难恢复和关机测试同步,以便同时处理和达成这两个目标。
有时,外部因素,如变电站升级或重要建筑物改造,迫使企业使数据中心离线一段时间。现在,计划停机可以减少业务中断,因为您可以轻松地将工作负载迁移到辅助数据中心或云上。所以任何IT团队准备处理计划内的设施关闭时,也应该能够进行常规电源循环测试。
服务器硬件有任何风险吗?
当启动和运行服务器或存储阵列时,总是有一定程度的电、热和机械应力。当电子元件冷却并再次升温时,会产生热应力,可能导致边缘连接失效,并导致过早的系统故障。同样,如果让老化磁盘或冷却风扇冷却,它可能因为耗尽润滑剂卡住,并导致磁盘/风扇轴或其他微小机制的问题。
还存在潜在逻辑风险。意外的配置更改可能会使系统超出规格,并导致由于系统配置管理工具出现告警或应用程序启动问题。例如,如果系统重新启动并尝试安装意外或未批准的修补程序,则配置管理工具可能会暂停该工作负载或服务器集群启动,直到系统批准的配置恢复为止。
这样的问题比较少见,特别在现代、节能系统中。虽然一些IT专家认为放弃采用和实施电源循环,可以减少这种故障的可能性,但是理想的电源循环测试理念正是沉淀、隔离和解决这类问题。更早暴露问题,远比等到意外的电源故障或应用程序崩溃发生,系统无法正常启动时,才进行应急处理要合理。随着如今虚拟化和群集的应用,能够保障工作负载将持续运行的同时,识别和修复故障系统。 |