机房应急预案

时间:2026-03-22 11:41:09
机房应急预案

机房应急预案

在现实的学习、工作、生活中,有时会遇到无法预料的突发事故,为了可以及时作出应急响应,降低事故后果,就常常需要事先准备应急预案。应急预案应该怎么编制呢?以下是小编帮大家整理的机房应急预案,希望能够帮助到大家。

机房应急预案1

高性能计算技术及应用水平已成为显示综合国力的一种标志。高性能计算机持续不间断地为用户提供高性能计算服务,而运维应急预案是主机运行中处理突发事件的依据和方法,是主机系统稳定运行的保障。本文简要介绍上海超级计算中心主机运维应急预案,供同行参考。

1.主机和运维管理制度简介

超级计算机是功能最强、运算速度最快、存储容量最大的一类计算机。目前只有少数国家掌握研发技术,系统造价非常昂贵,多用于国家高科技领域和尖端技术研究,是国家科技发展水平和综合国力的重要标志。上海超级计算中心作为上海信息港主体工程之一,国家和上海市政府投资先后引进神威-I超级计算机、神威-64P集群计算机、曙光4000A超级计算机系统并投入商业化运行。

上海超级计算中心自20xx年正式开通至今,这些高性能计算机系统已安全、稳定运行七年多时间,上机用户取得了丰硕的科研成果和社会效益。在这七年中,为保障这些高性能计算机系统安全、稳定、不间断地运行,技术支持部在中心引进第一台高性能计算机--神威-I超级计算机系统的同时,建立了机房应急预案、运行记录、设备运行参数等基础运维制度,在二期引进曙光4000A超级计算机系统过程中,不断完善原有运维制度,并针对该主机系统特点编写了大量操作方法和应急预案。

中心自20xx年获得ISO27001(BS7799)信息安全认证以来,技术支持部根据其要求规范了文档体系建设,形成了机房管理制度、应急预案、操作方法、运行情况记录的四大类运维文档。

正是这些运维管理制度的不断完善和有效执行,才确保了资产价值高、服务对象广、社会影响大的中心主机系统安全、稳定运行,保障重点项目、用户服务的连续性。

2.应急预案重要性

上海超级计算中心机房运维管理文档划分为机房管理制度、应急预案、操作方法、运行记录共四大类(如图1所示)。

图1应急预案分类

应急预案在应急系统中起着关键作用,它明确了在突发紧急情况发生之前、发生过程中以及刚刚结束之后,谁负责做什么、何时做,以及相应的策略和资源准备等。它是针对可能发生的重大事故,按照其影响和后果严重程度,在应急准备、响应、操作各个方面预先做出的详细安排,是开展及时、有序和有效事故应急工作的行动指南。因此,应急预案在这四类运维管理文档中处于最为重要的地位。

3.应急预案分类

应急预案按重要性和事件种类,可以划分为消防预案、断电预案、空调预案、其他预案共4种,预案各文档之间彼此独立又互为关联,具有非常强的可操作性。制定预案的指导原则是尽一切可能,最大限度地确保向用户提供的服务不中断。在紧急事件发生的情况下,保证核心设备连续运行,避免存储数据丢失。在事件处置完成后,能快速恢复高性能计算服务。

3.1消防预案

消防预案是主机房最重要的应急预案。该类预案根据《上海超级计算中心灭火和应急疏散预案》的原则并结合主机房主机设备和消防设备的运行特性而制定。主要由《主机房消防应急预案》和《主机房气体喷淋消防系统启动撤离及处置应急预案》2个文档组成。

消防应急预案:该预案着重规范了火警事件发生后,所有主机维护人员如何根据所属区域和现场情况,判断和选择正确的处理方法,同时配合中心物业人员处置,降低事件带来的影响。

对于设备发生烟雾,主机维护人员协同物业人员寻找烟雾点予以切断相关区域电源;当设备发生可以控制火情,协同物业人员灭火;当主机房发生火灾而无法控制,应采取施救方法等措施。

气体喷淋预案:该预案描述主机房气体喷淋系统启动的响应和确认并具体规定了撤离机房路线、善后处置。

这两个预案中,消防应急预案作为消防预案的主体,涉及到如何处理与消防有关情况的各个方面。气体喷淋预案是主机房发生重大火灾时应对的最终灭火手段和人员撤离引导方法。

3.2断电预案

断电预案的重要性仅次于消防预案。该类预案根据中心供配电系统实际情况和各种断电影响范围下对主机运行的最小保障要求而制定的。主要由《主机房断电应急预案》、《曙光4000A超级计算机系统紧急关机操作方法》、《曙光4000A超级计算机系统双路断电关机操作方法》等多个文档组成主机房断电应急预案:该预案用于断电情况下,主机维护人员如何与中心物业部门联系控制主机房供电情况,并且负责对主机系统运行受断电影响程度做出正确判断。指导维护人员按影响程度,分别选用预案中对应的操作方法。本预案在所有断电预案中起指导思想作用。紧急关机操作方法:该预案制定了主机系统在紧急情况下,最快速度关机的操作步骤。主要用于发生烟雾、明火或消防、断电预案需在数分钟内关机断电的事件。

双路断电关机操作方法:该紧急操作预案主要用于在外界双路供电全部中断情况下的操作。

该预案的关机原则是:根据实际电力供应考虑操作步骤,宁慢勿快,在时间允许的情况下,最大程度保证存储节点、SAN和SCSI存储设备、工程用户的计算节点的运行,尽可能减少关闭范围,以确保能在恢复供电的情况下,主机尽快恢复正常运行状态,减少影响范围。

3.3空调预案

超级计算机系统在运行中消耗大量电能,在

提供高性能的计算能力同时产生大量的热量,必须采用专用空调系统,以保持主机系统适当的温、湿度、空气洁净度等运行环境需求。因此,专用空调系统与主机系统密切相关,空调预案是主机房必备的应急预案。

制定该预案的原因在于,断电情况下,空调与主机系统存在互相牵制的现状。主机和空调系统均为外界双路供电,主机系统配有UPS不间断电源系统,而空调系统无UPS支持。在双路停电情况下,主机系统可获得UPS电池组支持运行若干分钟,空调系统无UPS支持只能停机。由于在无空调冷却情况下,主机系统会在短时间内积聚大量热量导致超过运行警戒温度,主机系统在有可供电余量的情况下,仍将被迫关机。因此,确保空调中断情况下的主机运行环境是该预案的制定原则。

预案根据各台主机配备的.空调系统特点制定,由《曙光机房空调系统故障应急预案》和《神威机房空调系统应急预案》2个文档组成,这里仅介绍曙光机房空调系统应急预案。

该预案的第一步:考虑增强主机系统散热效果,采用打开主机机柜前后门,和机房周边木门,在通风道上布置有UPS支持的应急风扇,形成空气对流,带走热空气,从而增强主机系统散热效果,降低升温速度。

该预案的第二步:在采取上述措施并持续升温到一定温度之上的情况下,考虑紧急关闭部分或全部计算节点,减少 ……此处隐藏19307个字……调查工作结束后一日内书面报告领导。

第三十五条 设备防盗被盗或人为损害应急预案如下:

1、机房管理人员每日查看、清点设备并锁好机房大门。

2、机房管理人员每日检查录像监控服务器状态,确保监控画面正常,并检查每日录像正常性、完整性。

3、发生设备被盗或人为损害设备情况时,使用者或管理者应立即报告信管部负责人,同时保护好现场。

4、信管部接报后,通知保安及公安部门,一同核实审定现场情况,清点被盗物资或盘查人为损害情况,做好必要的影像记录和文字记录。

5、事发单位和当事人应积极配合公安部门进行调查,并将有关情况向信管部汇报。

第三十六条 机房停电应急预案如下:

接到停电通知后,信管部应及时通过办公系统 、电话等发布相关信息,部署应对具体措施,要求涉及到的工作人员在停电前停止业务、保存数据。

1、确认电力可能恢复的时间,立即通知中心机房电源维护负责人和中心机房各设备的负责人到达现场,做好各机房停电准备。

如果确认机房停电的时间为短时间停电,立即可以恢复供电的'情况(如15分钟以内,根据UPS电池使用周期和寿命,电池后备时间将会减少,应根据现场实际情况,留出机房设备正常关机时间),可以在UPS正常供电的时间内,应密切观察UPS带负载时间,等到电力恢复,期间如UPS剩余时间低于50%(应满足机房设备正常关机时间),机房负责人应立即严格按操作手册停掉机房内的所有设备(包括各应用服务器、存储、核心交换机和路由期等设备的电源,以及机房辅助设备的电源,最后关闭UPS(见UPS操作手册),等待电力恢复,电力恢复供电后转第七条执行。

如果不能确认恢复供电时间,立即汇报给机房电源维护负责人和中心机房各设备的负责任到达现场。做好各设备的电源停电准备,严格按操作手册停掉机房内的所有设备(包括各应用服务器、存储、核心交换机和路由期等设备的电源,以及机房辅助设备的电源,最后关闭UPS(见UPS操作手册),等待电力恢复,电力恢复供电后转第4条执行。

2、机房维护负责人将停电的电源柜总空开和分空开的状态处于断开状态,关闭顺序应为,先关闭回路小开关,再关闭总开关(UPS关闭后,应先关闭UPS输出回路开关,再关闭UPS输出总开关,接着关闭UPS输入开关)并向主管领导汇报。

3、将掉电的所有的设备电源状态处于下电状态,以防止电源柜加电对设备的冲击。

4、电力室恢复供电后,先不要急于给电源柜加电,等待10-20分钟后,再开始给电源柜加电,以防止供电不稳或再次掉电。

5、供电正常后,确定设备处于下电状态后,打开电力柜的总控开,开启UPS的市电输入开关,开启UPS(见UPS操作)。

6、根据设备加电顺序,启动分路空开。

7、设备加电顺序,网络设备正常后再给服务器、存储等设备加电开机。(以上各设备务必按操作手册的启动顺序上电)。

8、设备启动正常后,开始启动数据库。

9、数据库启动正常后,开始启动中间件服务器。

10、中间件服务器正常后,启动应用程序。

第三十七条 通信网络故障应急预案如下:

1、发生通信线路中断、流量异常等故障后,员工应及时通知信管部人员。

2、信管部在接到报告后,迅速组织相关技术人员检测故障区域,并作相关故障处理,必要时通知通信网络运营商查清原因;逐步恢复故障区与服务器的网络联接,恢复通信网络,保证正常运转。

3、应急处理结束后,信管部应在一日之内提交故障分析报告,以便备案。

第三十八条 服务器故障应急预案如下:

1、机房管理人员每日检查机房设备工作状态,确保系统运行的完善。

2、机房管理人员定期备份数据和资料,并将备份资料刻录成光盘或拷贝到移动硬盘。

第三十九条 发生机房突发事件后,信管部应采取有效措施开展先期处置,恢复信息网络正常状态。应急处置工作结束后,信管部对事件发生原因、性质、影响、后果、责任及应急处置能力、恢复重建等问题进行全面调查评估,根据应急处置中暴露出的管理、协调和技术问题,改进和完善预案,实施针对性演练,总结经验教训,整改存在隐患,组织恢复正常工作秩序。

第七章 附则

第四十条 信管部会结合信息网络快速发展和经济社会发展状况,配合相关法律法规的制定、修改和完善,适时修订管理办法。

第四十一条 本文件由信息管理部制定并负责解释。

第四十二条 本文件经批准后发布实施。

  20xx年05月10日

  上海市xx信管部

机房应急预案15

为建立有效防范和处理火灾事故的工作机制,防范消防安全事故的发生,力保消防安全事故发生时能够快速、高效、合理有序地处置,特制定本预案。一.机房火灾隐患分析 由于机房内电气设备多,线路复杂,大部分的火灾都是电气火灾,引发电气火灾的主要因素有:

1.电气线路短路、过载、接地电阻过大等引发火灾。 2.由于机房内的电脑、空调、UPS等设备长时间不间断运行或设备故障引发 火灾。 3.静电产生火灾。 4.雷电等强电入侵引发火灾。 二.处置程序 1.发现火情后,迅速切断电源,利用就近灭火器进行灭火,并按照特级事故 通报机制进行通报,向领导汇报火灾具体情况。

2.迅速组织相关人员携带消防器具赶赴现场灭火,并听从现场指挥人员指挥。

3.如火情较为严重,应立即与大厦消防中控取得联系,并与之协商处理办法 措施,必要时需要专业消防灭火的,迅速拨打119。 4.迅速组织相关人员对重要数据设备进行转移,尽可能保证关键设备安全, 引导人员进行疏散。 三.扑救方法 1.电源或线路起火应首先切断电源,绝不能用水扑救。 2.扑救机房设备时,最好使用气体(如CO2)灭火器,干粉,泡沫灭火器会对设 备造成 腐蚀,使损失增大。 四.注意事项

1.一旦机房发生火灾,应遵循以下原则:首先保证人员安全;其次保证关键设 备安全;再保证一般设备安全。 2.火灾发生时,第一发现人查明起火原因,如因电源引起,应首先切断电源。

3.火灾发生后应遵循边救火,边报警的.原则。 五.预防措施

1.设备整改:机房现有的电气设备和消防设备均有存在不合理之处,需要整改, 消除隐患。现有的配电开关为墙上的半埋式家用配电开关,应更换为专业的 独立空气配电箱,修改配电柜各类闸刀和开关的布局,使其具备独立切换 的功能。 现有的灭火器为干粉灭火器,且维护也已过期,干粉灭火器虽然 可以有效灭火,但是会对设备造成腐蚀,损坏设备,应更换为气体灭火器。

2.每天定时对机房重要电气设备和电子设备的温度进行了监控,能够及时地发 现并消除隐患。 3.应组织相关人员进行消防安全教育,学习消防知识,学会正确使用各种灭火器,有计划的进行相关的消防演习。

《机房应急预案.doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档

文档为doc格式