首页 > 编程知识 正文

数据中心停电造成的损失案例,变电站数据通信网关机

时间:2023-05-04 16:08:11 阅读:10670 作者:3782

OVH是世界上除亚马逊、微软和谷歌之外最大的云服务和托管服务商之一,也是欧洲最大的。 全球共有27个数据中心,起火地区共有4个数据中心,起火的SBG2被完全烧毁,SBG1建筑物部分受损。

自从火灾发生以来,我一直在关注火灾的原因。 第一个反应是电池,是数据中心最易燃的部分。 目前还没有正式的官方发布,但各方面的情况几乎都指向UPS和电池。

细节1:发生的前一天,刚在现场进行了7号UPS的维护,起火的是7号和8号UPS。

细节2:OVH的工作人员于下午23时42分响应火灾警报,但受数据中心影响的部分已经冒烟,火灾警报系统严重延迟,怀疑有故障或灵敏度问题。

教训和启示:

1、本次火情,疑似部分客户设备主用、灾备服务器在一个机房楼或者主备云服务器在一个机房楼,导致约360万网站出现故障, 约1.5万名客户的资料可能受到影响,部分客户数据完全丢失且无法恢复。

启示:现有的大部分数据中心都属于T3或更高等级,供电、网络等基础有保障,但在客户实际陈列时,部分设备可能采用单电源、单光纤接入等,仅

2、事件中有提到火灾烟雾已经很大后,火灾报警才起作用,疑似系统故障或者灵敏度不够。

启示:现有数据中心除常规烟温敏感报警系统外,还设有极早期报警系统,电池机房等还设有氢气、硫化物等特殊检测探头。 但是,一些数据中心缺乏对这些探测器的灵敏度和准确性的检查,长期没有进行检查,导致火灾发现延迟。

3、OVH故障疑似也是UPS、蓄电池引起

启示:数据中心火灾中电池原因所占比例高,而且起火快。 一方面要定期对电池、储油罐等做有针对性的防火预案,另一方面,针对夜间场景,要组织消防和相关专家进行定期联合演练,让现场每个人都知道首先要做什么。

4、疑似前一天刚做过UPS系统的检修

启示:所有系统在进行更换、断开、改造后,必须进行相关测试和一定时间的观察,这也是容易被基层忽视的一个方面。

5、火灾发生时间在夜里23点30分左右,也是人比较疲惫的时间段

启示:火灾是突发性的,各岗位一定要保持灵敏度,确保第一时间发现、第一时间处理。 管理者要做好检查和抽查工作,特别是周末和夜间。

6、据了解,OVH的IT设备上架和部分巡检已经智能化。

启示:人在日常维护和巡检中至关重要,数据中心大力推进智能化、无人化,但人的作用不可忽视。 存在气味变化等设备无法检测到的潜在风险。

7、要加强预火灾源头的控制

启示:我们在人员进场,特别是对外施工、查勘人员时,安保一定要加强小区禁烟的告知,安全检查要加强打火机等危险品的检查,加强对火灾源头的管理。

华为、OVH都是国际知名企业,制度和管理都很完善,但松山湖实验基地、OVH数据中心也因各种原因动怒,而一般的数据中心企业与他们相比,在管理上存在差距,如何重视安全生产工作都不过分

免费发送资料(单击链接下载) ) ) ) )。

历史上最完整的数据中心机房标准和规范(下载)数据中心运输管理|资料汇总(2017.7.2 )版本) )。

加入运维管理VIP组(单击链接查看) ) )。

《数据中心运维管理》 VIP技术交流集团会员招募说明

扫描以下二维码加入学习小组

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。