2017上半年数据中心为什么故障频发?

2017-07-07 tym678

数据中心故障频发

        2017年6月微博数据中心因电力原因故障,造成了微博“黑色一小时”,紧接着饿了么机房也出现故障,导致商家无法接单,客户无法取餐。2017年2月28日晚8点39分,百度移动端搜索发生故障,搜索请求无法显示结果,至晚9点21分恢复,历时42分钟。亚马逊的云服务出现过持续数小时故障,故障起因是AWS S3(云存储)团队在进行调试时输入了一条错误指令,本应该将少部分的S3计费流程服务器移除,可是最终意外地移去了大量的服务器,2016年1月18日Microsoft Office 365的用户的电子邮件账户出现问题,微软将故障归咎于一次错误的软件更新,但是其初次修复的尝试并没有解决问题,在最初的故障出现五天之后,第二次电子邮件故障又爆发了,这一次激怒了很多用户。2016年4月22日11时28分,某数据中心服务商位于北京亦庄的数据中心供电中断,在该机房托管的多家金融机构和73家村镇银行的所有设备宕机,服务全部中断长达7小时以上!


根源在于运维管理

        对于这些数据中心机房故障,中国信息通信研究院专家对事故原因进行总结说,故障多发的原因关键还是在运维管理上,所谓“三分技术,七分管理”,数据中心的故障大多源自于人祸。运行中的数据中心,应减少人为参与的机会,要对人为行为进行充分的管理和评估。

        大量的事实表明,数据中心提供的服务品质优劣主要是运维管理水平决定的。加强运维人员的管理,提升运维人员的技能水平,才能减少人为犯错的机会,避免产生人祸。数据中心是一个非常复杂的IT系统,难免会出现这样那样的问题,从而引发故障,若能够通过有效管理减少其中人祸部分的因素,将能有效提升数据中心的运行稳定性。


租机房:www.zujifang.com  专做全国租机房的平台!

内容有部分是原创文章,如转载请注明出处!互联网上转载内容如有侵权请及时联系我们删除!

'); })();