挂了电话以后,安夏一直在刷新网页,五分钟后,运维汇报:所有受到影响的网页已经全部恢复。
安夏看了一眼时间,刚刚到凌晨六点,从系统首次发现故障到现在共经历了一个小时,她这才稍稍松了一口气。
幸好这个受到影响的数据中心承接的都是普通业务,要是像后世那样动不动就是个分钟级、秒级的业务,服务器从断气到机房转移完毕,中间不知道要赔几万几十万。
也幸好现在时间还早,大多数人还在梦乡之中,要是紫金支付的客户发现他们的账户余额为零,或是半天刷不出来,怕不是当场就要提刀杀来了。
只要客户那里不炸,机房的事可以慢慢算。
通过这件事,安夏也发现一个问题,明明有备灾机房,□□却没想到马上开启容灾逃逸?他对自己这么自信?
真有这个本事的话,她应该收到的是故障说明,还有处理报告,而不是事情还没解决就到她这里。
安夏对数据中心的救灾演习非常不满,出现问题之后,运维根本就是在凭本能做事,心思都在解决故障上面,完全没想到最重要的是不要影响到客户。
一旦失去了客户的信任,以后数据中心的业务还做不做了。
安夏叫来负责系统安全的总监龙运,刚想问问他们有没有一套规范的应急手册,以及有没有演习过。
龙运来的时候,神色还是十分紧张,就好像刚刚被人从火场上揪下来一样。
看他的表情,不像怕被追责的慌张,更像是还在忙着干什么事,忽然被人打断后的模样。
安夏问道:“机房的问题解决了吗?“
龙运的回答差点把安夏给气死:“没有。“
早上五点钟发生的事情,现在已经十点,整整五个小时,还没有解决,机房是被烧了还是炸了?
“机房到底是怎么回事?“
“被水淋了。“
“哪来的水?“安夏一时没反应过来。
“机房温控检测到服务器温度过高,然后……就触发了消防自动喷淋。“龙运在说这话的时候,音量都不由得低了几度。
等安夏确认自己没听错之后,她瞬间出离愤怒。
数据中心!机房!全都是怕水的硬件!被水淋一淋就要断气。
消防装置用自来水喷淋系统?!
安夏做了几个深呼吸,才没有对手边的鼠标和手机进行身体伤害。
“你先去处理机房的问题吧。”安夏摆摆手。
事情还没解决,把龙运扣在办公室里骂死,被淋死的服务器们也不会死而复生。
下午四点,龙运还没过来请罪,显然是事情还没解决。
设计数据中心机房的建筑设计院已经过来了,他们说是来说明问题的,其实是来甩锅。
机房升温的原因:冷机系统故障。
故障原因:缺水。
由于水路循环受到影响,导致整个机房里所有的主冷机服务异常,连带着备用的冷机也一起完蛋。
然后,补水了,结果由于冷却系统的群控逻辑,无法单机独立启动,必须手动修改配置。
等工程师改完了,才重新启动。
查原因用了三小时三十四分钟。
补水用了两小时五十七分钟。
人工修改冷机的群控逻辑用了三小时三十二分钟。
所以,早上五点发生的问题,直到刚刚才解决。