一套详细的数据中心机房工程运维管理实施方案(数据中心机房运维管理制度)

第1章机房工程的管理技术制度与要求

管理是为了实现预期的目标进行的协调活动。为确保机房安全运转、工作有序开展、设备正常使用,机房需要制定管理规章制度。

机房管理就是对制定的规章制度执行、检查和改进。执行就是按照制定的规章制度去实施;检查就是将执行的过程或结果与规章制度进行对比,总结出经验,找出差距;改进是通过检查总结出的经验,将经验转变为长效机制或新的规定,针对检查发现的问题进行纠正,制定纠正、预防措施。

随着云计算的发展,机房规模急剧扩大(大、中型机房通常是指面积数千至数万平方米)、机房数量不断增加,由小规模、封闭式、单一功能向大规模、开放式、多功能方向发展,机房管理更为重要。机房管理水平的高低也直接影响着机房的使用率和使用寿命,机房管理应引起机房管理人员的高度重视。

1.1 机房管理科长和管理人员的岗位职责

1.1.1 机房管理科长岗位职责

机房管理科长(组长、主管领导或经理)是中心领导管理好机房日常运维工作的得力助手和参谋。机房管理是管理科长日常工作的全职岗位,对于机房管理科长来说,机房管理是为了使机房设备正常运转,保障机房有良好的运行环境和工作环境。机房管理科长的岗位职责要重点注意如下内容:

1)严格制度。机房管理是一项看得见、摸得着的实际工作,面对诸多因素和关系,必须“严”字当头。机房日常管理应根据实际需要,抓常规管理。建立、健全计算机机房的各项规章制度是机房管理工作的前提。制定相应的机房管理制度,使日常管理工作做到有章可循,有据可依。

2)严格管理。作为部门领导一定要有从严管理的指导思想,要严格管理、严格要求,并使这种严格思想贯彻落实到管理工作的全过程,在实际工作中要常讲、常查,要不怕得罪人,必要时还要制定各种奖惩措施。

3)做好日常运维和巡检工作,包括配电、空调、消防等设施的检查工作。

4)不断学习。机房管理牵涉面广,事务又多,是一项专业性强、“繁”、“杂”、“难”、“累”的工作,具有一定的不可预见性,且不同程度地存在技术难度。目前国内许多报刊杂志包括互联网络中,有关机房管理的介绍层出不穷,机房管理科长需要有责任心和不断学习的进取心。机房管理科长除了要掌握丰富的计算机软硬件知识和具有较强的动手能力外,还需要掌握一定的设备管理技巧,学习各种设备如配电系统、地线系统、空调、防火设备、UPS等的正确操作方法,从而杜绝因操作不当造成的人为事故。不断学习,总结经验,取长补短,才能做好机房管理工作。

5)做好机房的防火、防盗及供电系统、空调系统、通风系统的安全和日常养护工作,提高安全意识。定期检查安全设施情况,并做好记录,发现问题立即整改。

6)定期检修,重视完善。机房以及有关设备也有老化、更新、修复等问题,除进行日常的检修外,还应对机房建设时存在的缺陷,机件的磨损、老化,紧固件的松动,装修变形等问题定期检修、更改或完善。坚持每年定期对机房整修一次,即检测安全防火设备、检修空调设备、除尘、玻璃隔断调整加固、照明设备检修、安全防盗、协调相关设备维修人员进行维修,安排好相关维修工作。

7)对于发生的故障与事故及时逐级上报,并做协调工作,做好故障与事故的记录工作,做好问题的分析和跟进处理工作。

8)完善电气系统设备技术档案和资料,建立相关管理制度、操作规程、应急预案等。

9)在制度化管理上下功夫,组织、指导、制定年度工作计划和各种操作规程、管理规定、岗位职责和安全责任制等,并监督落实,以实现科学、有序、安全的管理。

10)机房不能出现事故,加强巡视巡检。要管理好机房不是一件容易的事情在条件许可的情况下,应建立经济合理的易损件、易耗件的备用库,保证及时更换,定期更换。对设备的运行情况进行分析,制定预防和常用解决方案,从而保证机房的正常运转。

11)严格机房钥匙管理,机房钥匙只允许管理人员配带。

1.1.2 机房管理科长的“三心”

机房管理科长的三心即责任心、学习心、宽容心。

1.责任心

责任心主要有如下内容:

(1)安全管理

机房安全是第一位的,可以说是机房管理体系的灵魂。威胁机房安全的因素主要有火灾、设备故障、病毒。机房安全管理就是告诉人们,在进行机房管理的同时,通过采用计划、组织、技术等手段,依据机房、环境因素的运动规律,采取控制措施,预防事故的发生。

(2)六个坚持

六个坚持是指:

1)坚持管机房同时管安全;

2)坚持按操作规程管理机房;

3)坚持预防为主;

4)坚持全员管理;

5)坚持设备维护;

6)坚持日常巡检工作。

(3)四不放过

四不放过是指在调查处理机房事故时:

1)必须坚持事故原因分析不清不放过;

2)员工及事故责任人受不到教育不放过;

3)事故隐患不整改不放过;

4)事故责任人不处理不放过。

(4)文明管理

文明管理是指在管理时:

1)具有文明的措施(机房的各项规章制度);

2)建立管理组织,明确岗位职责,健全管理制度(培训教育、检查、奖惩、卫生等专项管理制度);

3)进行现场管理。

2.学习心

科长的大部分时间是做机房管理的实际工作。他要不断地学习各种设备的正确操作方法和管理方法,管理的思维方式与知识结构要紧跟时代的步伐,并在技术上与项目一起成长。只有这样才能让科长提高领导能力,在管理工作中伸展自如、张弛有度。

3.宽容心

科长要有宽容的心态,特别是对比较年轻的员工。现在的员工都比较年轻,没有社会的阅历,自我为中心的意识强、自尊心强,有时候会做出一些过分的行为。当员工做了错事或工作中出现差错时,不要谴责,不要去追究责任。作为科长,应该多花一些精力去关心员工,多给予理解,做到“宰相肚里能撑船”,了解事情的起因,避免将来再犯错。

年轻员工有自己的长处和短处,要经常表扬他的长处,求同存异,具有一颗宽容的心。

1.1.3 管理人员岗位职责

机房日常运行、维护是管理人员的全职工作岗位。管理人员的岗位职责需要重点注意如下内容:

1)负责机房电气系统的运行、维护、保养、管理工作。

2)认真贯彻落实岗位责任制,遵守各项规章制度,严格执行操作规程和员工守则。严格执行机房值班制度,做好值班记录;严格执行机房设备使用登记制度,做好设备登记工作。

3)熟悉设备操作规程,熟悉仪器仪表使用方法。熟悉、掌握设备的原理、布置、控制、设备性能、使用状况及运维操作。维护工作应遵循设备故障与维修的操作步骤、基本原则和维修方法进行。机房应备有设备所用的各种零配件,供维修使用。

4)服从领导的调度和工作安排,按时、按质、按量地完成任务,不擅自离岗和串岗,禁止在上班时间炒股、浏览无关新闻、网上游戏、看在线电影、听音乐等。

5)努力学习,不断提高思想素质和业务技术水平,全面熟悉管辖范围内的各种操作规程,提高工作效率、质量。

6)认真填写原始记录,分析设备运行情况,并掌握其规律,发现问题及时解决,准确无误地填制各种报表和表格。

7)勤巡查,发现问题及时向管理科长汇报,听取指示。

8)参与并协助设备的维护和保养工作。设备发生故障及时组织检修,发现隐患及时组织处理,做好技术把关工作,保证所管辖系统设备处于优良的技术状态。做到“三干净”(设备干净、机房干净、工作场地干净)、“四不漏”(不漏电、不漏油、不漏气、不漏水)、“五良好”(使用性能良好、密封良好、润滑良好、紧固良好、调整良好)。

9)发扬主人翁精神,开动脑筋,大胆提出合理化建议。

10)做好本班设备的年月检修保养计划和备品备件计划,报主管审核。

1.2 机房内管理的内容

1.2.1 制定机房管理的规章制度

建立健全计算机机房各项规章制度是做好机房管理的关键。在机房日常管理工作中应根据系统的具体情况、工作性质,制定出一套完善的机房管理规章制度,以保证机房正常运行。规章制度用来规范机房的管理,是机房管理的标准。规章制度要通过日常工作中对它的执行来体现和完善。机房管理制度一般包括:管理科长岗位负责制、技术管理岗位职责、中心机房管理制度、安全运行管理制度、计算机病毒防范管理制度、安全管理制度、故障机维修登记制度、机房违章处理制度、机房巡检制度等。有了章法,机房管理就有了依据,严格管理的指导思想也能落在实处。

1.2.2 大、中型机房的日常维护工作管理的内容

大、中型机房的日常维护工作的管理要重点注意如下内容:

1)保持机房整洁卫生,管理人员负责日常维护及机房卫生工作,做到一天一小扫,一周一大扫,保持机房清洁干净,防尘防潮,防止鼠虫进入。

2)不准在机房内会客,谢绝外单位人员进入机房,禁止聊天、喧哗、吃零食、抽烟、乱扔杂物等,保持机房整洁安静。

3)严禁携带易燃、易爆及强磁性物品进入机房。

4)设备一般不得用于私事,严禁在设备的计算机终端上玩游戏,禁止装入其他无关的软件或将计算机挪作他用。

5)日常检测,包括对设备运作情况及系统应用情况的检测。

①设备运行情况检测:

·每日分8次(每3小时)定时进行主要网络设备的检测。做好每日网络巡查与服务器运行情况记录。

·每日对外网服务器日志进行分析,对长时间扫描的IP做好记录,并采取跟踪,一旦发现问题及时处理,把隐患消灭在萌芽状态。

·定期运用系统的网络监视器、网管软件,对网络漏洞进行自我扫描检测,进行分析,做好相应记录。

②系统应用情况检测:

·对应用软件要每天进行检测,及时升级,特别是防毒软件的升级。

·各种应用功能配置参数进行修改时必须与值班人员一同进行,并登记记录。新增加功能必须经过主管领导签字同意。

6)如发现机器故障应及时向主管及上级领导报告,并负责计算机及外设的日常维护与排除故障,处理不了的问题应立即向有关单位联系解决。遇到紧急情况不要慌张,切忌手忙脚乱。在遇到三包范围内的故障时,应及时催促公司上门或将机器送公司维修。

7)机房计算机只供机房工作人员使用。未经组长同意,任何人不准随意删改和增加系统文件,不得将机房内资料、工具等物品带出机房。

8)机房内的一切公用物品(包括低值易耗品、软件及资料)未经许可一律不得私自挪用和外借。外单位需借出设备及物品,应有单位证明和经手人签名的借条,经主管领导批准后,机房工作负责人才能开具放行条。未经主管领导同意,不准自行复制系统内所有的软件和数据或将其赠送、转借给外单位人员。

9)经常检查网络和各设备运行情况,发现问题及时解决,并向主管领导报告。

10)其他人员需使用机房内设备应征得管理人员许可,并报经主管同意后方可进入机房。

11)对机房内网络与设备的运行、应用、维护、查看等情况,建立档案,做好系统日志。要对发生的故障(隐患)以及排除故障情况做好详细记录;值班人员必须认真、如实、详细填写《机房日志》等各种登记簿,详细记录来人、事件、处理经过等,以备后查。定时做好中心服务器的日志和存档工作,任何人不得删除运行记录的文档,否则追究责任。如机房发现意外和紧急情况要及时报告,对重大事故要注意保护好现场。

12)要统一管理机房内的设备,计算机及其相关设备的驱动程序、保修卡等随机文件与资料要保存完整。要明确专人负责计算机文档、信息化等资料的保管,要做到资料齐全,存放安全。

13)机房内的交换机和服务器是公司办公自动化的关键设备,任何人不得自行配置或更改系统参数。

14)各客户机应及时做好自身数据的保存工作,不得擅自更改系统及网络设置。如确有工作需要应报至办公室,由办公室指派专人进行,并记录在案。

15)要做好机房的安全工作,对服务器的各种账号、密码严格保密。对网络运行做好监控、做好记录。

16)要及时做好各服务器系统的补丁修正与升级工作。

17)管理人员要有较强的病毒防范意识,要定期对病毒库进行检测,并做好病毒库系统的定时升级工作。发现病毒应及时处理,并做好记录。

18)未经许可,不得在各服务器上安装新软件。如确实工作需要安装,要经过有关领导批准。

19)应及时做好数据的备份工作,保证在系统发生故障时,数据能够快速、安全地恢复。所有备份数据不得更改,并要求做到本地和异地双备份保存。

20)机房内所有设备应妥善保管,任何人不得擅自开关、移动或者使用机房中的任何设备,如有此方面的需要,需有主管领导的批示。

1.2.3 大、中型机房的日常安全管理的内容

大、中型机房的日常安全管理,要重点注意如下10点内容:

1.出入机房管理的内容

1)严禁非机房工作人员进入机房,特殊情况需经中心负责人批准,并认真填写登记表后方可进入。严禁非工作人员上机操作。进入机房人员应遵守机房管理制度。

2)进入机房人员不得携带任何易燃、易爆、腐蚀性、强电磁、辐射性、流体物质等对设备正常运行构成威胁的物品。严禁将其他与机房工作无关的物品带入机房。

3)若管理人员申请调走,报告经单位批准前,重大的管理工作提前交接,把密码、钥匙、注意的问题等交接给单位指定人员。

2.机房防火管理的内容

机房是重点防火单位,应做好防火工作。机房工作人员必须严格遵守各项操作规程。拆装设备时必需断电,不允许带电作业;维修设备时必须先切断设备电源,再行维修;禁止使用汽油、酒精等易燃易爆品清洗带电设备;严禁在机房内吸烟和使用加热器具。

防火管理的重点是气体灭火系统能否发挥正常作用。对气体灭火系统维护管理要注意如下4点内容:

1)气体灭火系统应由经过专门培训,并经考核合格的人负责定期检查和维护。

2)应做好对气体灭火系统的定期检查,并做好记录。检查中发现的问题应及时处理。

3)每月应对系统进行一次检查,发现问题应及时处置,检查内容及要求如下:

·对全部系统组件进行外观检查,系统组件应无碰撞变形及其他机械性损伤,表面应无锈蚀,保护漆层应完好,铭牌应清晰,手动操作装置的保护罩、铅封和安全标志应完整。

·全部系统组件的安装位置不得有其他物件阻挡或妨碍其正常工作。

·驱动控制盘面板上的指示灯应正常,各开关位置应正确,各接线应无松动现象。

·火灾探测器表面应保持清洁,应无任何会干扰或影响火灾探测器探测性能的擦伤、油渍及油漆。

·储存容器上的压力表,其指针应在正常的范围内。

·设备可否移位。

·设备工作是否正常。

4)每年应对系统进行两次全面检查,检查内容和要求除按月检查的内容外,还应符合如下要求:

①防护区的开口情况、防护区的用途及可燃物的种类、数量、分布情况,应符合设计规定。防护区外的疏散通道应保持畅通。

②储存容器的固定支架,应无松动现象。

③灭火剂输送管路与喷嘴的连接、灭火剂输送管路本身的连接应安装牢固。

④灭火剂输送管路及电气管路的固定支架应无松动现象。

⑤高压软管应无变形、裂纹及老化。

⑥各喷嘴孔口,应无杂物堵塞。

⑦对每个防护区进行一次模拟自动启动试验。

⑧手动控制、手动/自动切换、紧急停止操作、备用灭火剂储存容器切换操作应正常。

⑨探测设备运行情况检查:主要检查连接线路及探测器灵敏性。

⑩控制设备运行情况检查:

·控制器接受火灾信号情况(包括探测、急启、急停、反馈)。

·控制器接受故障信号情况(包括探测、急启、急停、反馈、主备电、阀线)。

·控制器联动性能及各个被联动器件的性能。

·记录并分析控制器储存信息。

[11]建立灭火系统使用档案,对使用、检查、维修与试验做详细记录。

3.机房用电安全管理的内容

1)机房人员应学习常规的用电安全操作和知识,了解机房内部的供电、用电设施的操作规程,注意用电安全,无触电隐患,注意节约用电。

2)机房应安排有专业资质的电工定期检查供电、用电设备、设施。

3)机房内不得乱拉乱接电线、电源,应选用安全、有保证的供电、用电器材。

4)在真正接通设备电源之前必须先检查线路、接头是否安全连接以及设备是否已经就绪、人员是否已经具备安全保护。

5)严禁随意对设备断电、更改设备供电线路;严禁随意串接、并接、搭接各种供电线路。

6)如发现用电安全隐患,应立即采取措施解决,不能解决的必须及时向相关负责人员提出解决。

7)禁止在无人看管下在机房中使用高温、炽热、产生火花的用电设备。

8)在使用功率超过特定瓦数的用电设备前,必须得到机房管理人员批准,并在保证线路保险的基础上使用。

9)在外部供电系统停电时,机房工作人员应全力配合完成停电应急工作。

4.设备安全管理的内容

机房设备要保持清洁、卫生,定期打扫,不定期对机房内设备进行检查,发现故障及时检修,并要登记、报告。因违章作业造成事故损失的,要按责任事故处理。设备安全管理的具体内容如下:

1)机房人员必须熟知机房内设备的基本安全操作和规则。

2)定期检查、整理硬件物理连接线路,定期检查硬件运作状态(如设备指示灯、仪表),从而及时了解硬件运作状态。

3)禁止随意搬动设备、随意在设备上进行安装、拆卸硬件或随意更改设备连线,禁止随意进行硬件复位。

4)路由器、交换机和服务器以及通信设备是网络的关键设备,不得自行配置或更换,更不能挪作他用。要定期检查是否规范,经有关领导同意后再变更。

5)网管人员应做好网络安全工作,服务器、各种核心设备等的各种重要账号严格保密,规范管理。监控网络上的数据流,从中检测出攻击的行为并给予响应和处理。做好操作系统的补丁修正工作。

6)禁止在正式运行的服务器上进行试验性质的配置操作,需要对服务器进行配置,应在其他可进行试验的机器上调试通过并确认可行后,才能对服务器进行准确的配置。

7)不允许任何人在服务器、交换设备等核心设备上进行与工作范围无关的任何操作。未经机房管理人员允许,更不允许他人操作机房内部的设备,对于核心服务器和设备的调整配置,更需要小组人员的共同同意后才能进行。

8)对会影响到全局的硬件设备的更改、调试等操作应预先发布通知,并且应有充分的时间、方案、人员准备,才能进行硬件设备的更改。

9)对重大设备配置的更改,必须首先形成方案文件,经过讨论确认可行后,由具备资格的技术人员进行更改和调整,并应做好详细的更改和操作记录。对设备进行更改、升级、配置等操作之前,应对更改、升级、配置所带来的负面后果做好充分的准备,必要时需要先准备好后备配件和应急措施。

10)网管人员统一管理计算机及其相关设备,完整保存计算机及其相关设备的驱动程序、保修卡及重要随机文件。

11)值班人员必须密切监视中心设备运行状况以及各网点运行情况,确保安全、高效运行。

12)未经负责人批准,不得在中心机房设备上编写、修改、更换各类软件系统及更改设备参数配置。各类软件系统的维护、增删、配置的更改,各类硬件设备的添加、更换必须经负责人书面批准后方可进行;必须按规定进行详细登记和记录,对各类软件、现场资料、档案整理存档。

13)健全中心全部设备固定资产账目,机房内所有设备、仪器、仪表等物品要妥善保管。管理人员每学期核对一次,做到账、物相符。

14)机房内的一切公用物品(包括低值易耗品、软件及资料)未经许可一律不得私自挪用和外借。外单位需借出设备及物品,应有单位证明和经手人签名的借条,经主管领导批准后,机房工作负责人才能开具放行条。

5.计算机病毒防范管理的内容

1)对新购进的计算机及设备,为防止原始计算机病毒的侵害,要组织专业人员检查后方可安装运行;软盘、光盘等移动媒体,以及外来的系统和软件、下载软件等要先进行计算机病毒检查,确认无计算机病毒后才可以使用;严禁使用未经清查的、来历不明的软盘、光盘等。

2)要定期进行计算机病毒检查,系统中的程序要定期进行比较测试和检查。要安装防计算机病毒软件,并定期或及时(随时)更新(升级)计算机病毒防范产品的版本;要使用国家规定的、具有计算机使用系统安全专用产品销售许可证的防计算机病毒产品。

3)跟踪计算机病毒发展的最新动态,及时了解计算机病毒,特别是有严重破坏力的计算机病毒的爆发日期或爆发条件,在一些破坏性较大的计算机病毒发作日期前,要及时在网上发布通知。

4)禁止任何人利用本单位计算机下载、复制、观看和传播各类与工作无关的视频文件。

5)禁止任何人利用本单位计算机查看、复制互联网上与工作无关的信息。

6)严禁使用盗版软件,特别是盗版的杀毒软件,严禁在工作计算机上安装、运行各类游戏软件。

7)外来人员携带来的各种可以在计算机上运行的文件及软件等数字信息,未经同意,禁止复制到本单位计算机内。如遇特殊情况,必须由相应的信息管理部门人员使用最新版本的反病毒软件检测通过后,方可使用,检测人员及时做好来访和检测记录,以备查看。

8)服务器要尽量做到专机专用,特别是具有读写权限、身份确认功能的认证服务器一定要专用;对共享的网络文件服务器,应特别加以维护,控制读写权限,不在服务器上运行无关软件和程序。

9)随时注意计算机的各种异常现象,一旦发现,应立即用查毒软件仔细检查。

10)服务器要定期进行计算机病毒检查,系统中的程序要定期进行比较测试和分析;特别是邮件服务器。发现病毒立即处理并通知上级管理人员。

11)一旦发现中心服务器有被侵入及恶意攻击的记录,应及时采取措施遏止并向主管领导报告;一旦发生计算机病毒疫情,要启动应急计划,采取应急措施,将损失降到最小。

12)发现或受到“计算机病毒”攻击后的管理措施:

·当出现计算机病毒传染迹象时,立即隔离被感染的系统和网络,并进行处理,不应带“毒”继续运行;

·发现计算机病毒后,一般应利用防杀计算机病毒软件清除文件中的计算机病毒;杀毒完成后,重启计算机,再次用防杀计算机病毒软件检查系统中是否还存在计算机病毒,并确定被感染破坏的数据是否确实完全恢复;

·如果破坏程度比较严重,或感染的是重要数据文件,则自己不要盲目修复,而要请计算机病毒防范的专业人员处理,即使是计算机专业人员也要慎重;

·对于杀毒软件无法杀除的计算机病毒,应将计算机病毒样本送交有关部门,以供详细分析。

·若发现网上有色情及政治敏感内容,及时报告有关部门处理。

13)单位应定期与不定期对制度的执行情况进行检查,督促各项制度的落实,并作为人员考核的依据。

6.防雷管理的内容

1)防雷装置应当每年检测一次,对爆炸和火灾危险环境场所的防雷装置应当每半年检测一次。

2)防雷装置投入使用后,应建立管理制度,指定专人负责,做好防雷装置的日常维护工作。发现防雷装置存在隐患时,应当及时采取措施进行处理。对防雷装置的设计、安装、隐蔽工程图纸资料、年检测试记录等,均应及时归档,妥善保管。

3)每年雷雨季节前应对接地系统进行检查和维护。主要检查连接处是否紧固、接触是否良好、接地引下线有无锈蚀、接地体附近地面有无异常,如果发现问题应及时处理。

4)接地网的接地电阻宜每年采用数字式接地电阻测量仪进行一次测量。

5)每年雷雨季节前应对运行中的防雷元器件进行一次检测,雷雨季节中要加强外观巡视,发现异常应及时处理。

6)当发生雷击事故后,应及时调查分析原因和雷害损失,提出改进防护措施。

设备遭受雷击后应对损坏情况进行调查分析,调查分析内容主要包括:

·各种电气绝缘部分有无击穿闪络的痕迹,有无烧焦气味,设备元件损坏部位,设备的电气参数变化情况;

·各种防雷元件损坏情况,参数变化情况。

·安装了雷电测量装置的,应记录测量数据,计算出雷电流幅值。

·了解雷害事故地点附近的情况,分析附近地质、地形和周围环境特点及当时的气象情况。

·保留雷击损坏部件,必要时对现场进行拍照或录像,做好各种记录。

·根据上述调查情况,组织有关专家分析,写出调查分析报告及改进措施。

7.软件安全管理的内容

1)必须定期检查软件的运行状况,进行数据和软件日志备份。

2)禁止在正式运行的服务器上进行试验性质的软件调试,禁止在服务器上随意安装软件。需要对服务器进行配置,必须在其他可进行试验的机器上调试通过并确认可行后,才能对服务器进行准确的配置。

3)对会影响到全局的软件更改、调试等操作应先发布通知,并且应有充分的时间、方案、人员准备,才能进行软件配置的更改。

4)对重大软件配置的更改,应先形成方案文件,经过讨论确认可行后,由具备资格的技术人员进行更改,并应做好详细的更改和操作记录。对软件进行更改、升级、配置等操作之前,应对更改、升级、配置所带来的负面后果做好充分的准备,必要时需要先备份原有软件系统和落实好应急措施。

①制定周详的事前预防策略,具体如下:

·对信息传递途径进行控制,实现通信设备和存储设备的控制;

·通过网络接入保护,实现外来计算机的接入局域网限制;

·安装严密的报警系统,对非法接入进行及时报警提示;

·制定周详的互联网信息传递阻断策略,对非法信息传递进行阻断。

②对泄密行为进行事中记录和控制,具体如下:

·对泄密行为及时启动控制和报警系统;

·对泄密过程进行屏幕记录,方便现场查看,事后录像回放;

·详尽的电子文档操作痕迹记录,包括访问、创建、复制、改名、删除、打印等操作;

·集中审查终端共享,防止共享泄密行为。

③详尽的日志信息,提高事后追查的准确率,具体如下:

·进行电子文档操作及屏幕记录,便于信息泄密事后追查;

·对互联网信息传递进行记录,便于信息泄密事后追查;

·对系统用户进行日志审计,实现系统安全管理。

5)不允许任何人员在服务器等核心设备上进行与工作范围无关的软件调试和操作。未经机房管理人员允许,不能带领、指示他人进入机房和对网络及软件环境进行更改和操作。

6)系统管理员对业务系统进行数据整理、故障恢复等操作,必须有其上级授权。

7)系统管理员不得使用他人操作代码进行业务操作。

8)系统管理员调离岗位,上级管理员(或相关负责人)应及时注销其代码并生成新的系统管理员代码。

9)对数据实施严格的安全与保密管理,防止系统数据的非法生成、变更等,严格按照专业备份要求管理。机房管理人员应恪守保密制度,不得擅自泄露中心各种信息资料与数据,也要注意与外方合作工作时各种信息资料与数据的保密。

10)为确保数据的安全保密,对单位及内部人员送交的数据及处理后的数据都必须按有关规定履行交接登记手续。

8.机房资料、文档和数据安全管理的内容

1)资料、文档、数据等必须有效组织、整理和归档备案。

2)禁止任何人员将机房内的资料、文档、数据、配置参数等信息擅自以任何形式提供给其他无关人员或向外随意传播。

3)对于牵涉网络安全、数据安全的重要信息、密码、资料、文档等必须妥善存放。外来工作人员的确需要翻阅文档、资料或者查询相关数据的,应由机房相关负责人代为查阅,并只能向其提供与其当前工作内容相关的数据或资料。

4)重要资料、文档、数据应采取对应的技术手段进行加密、存储和备份。对于加密的数据应保证其可还原性,防止遗失重要数据。

5)服务器、路由器等重要设备的超级用户密码由指定专人(不参与系统开发和维护的人员)设置和管理,并由密码设置人员将密码装入密码信封,在骑缝处加盖个人名章或签字后交给密码管理人员存档并登记。如遇特殊情况需要启用封存的密码,必须经过相关部门负责人同意,由密码使用人员向密码管理人员索取,使用完毕后,须立即更改并封存,同时在“密码管理登记簿”中登记。

6)系统维护用户的密码应至少由两人共同设置、保管和使用。密码应定期修改,间隔时间不得超过一个月,如发现或怀疑密码遗失或泄漏应立即修改,并在相应登记簿记录用户名、修改时间、修改人等内容。

7)机房内使用的文献、书籍和文具不允许私自带出。

8)存放备份数据的介质必须具有明确的标识。备份数据必须异地存放,并明确落实异地备份数据的管理职责。

9)注意计算机重要信息资料和数据存储介质的存放、运输安全和保密管理,保证存储介质的物理安全。

10)任何非应用性业务数据的使用及存放数据的设备或介质的调拨、转让、废弃或销毁必须严格按照程序进行逐级审批,以保证备份数据安全完整。

11)数据恢复前,必须对原环境的数据进行备份,防止有用数据的丢失。数据恢复过程中要严格按照数据恢复手册执行,出现问题时由技术部门进行现场技术支持。数据恢复后,必须进行验证、确认,确保数据恢复的完整性和可用性。

12)数据清理前必须对数据进行备份,在确认备份正确后方可进行清理操作。

13)需要长期保存的数据,数据管理部门需与相关部门制定转存方案,根据转存方案和查询使用方法要在介质有效期内进行转存,防止存储介质过期失效,通过有效的查询、使用方法保证数据的完整性和可用性。转存的数据必须有详细的文档记录。

14)管理部门应对报废设备中存有的程序、数据资料进行备份后清除,并妥善处理废弃无用的资料和介质,防止泄密。

15)重要文件资料既要建立、保存文字资料,同时还要建立保存磁盘文件资料。

9.电源及UPS管理的内容

1)机房内的电源开关、电源插座要明确标出控制的设备。

2)在电源配电盘附近张贴电源系统图。

3)不得随便改变线路和变动开关。

4)保持适宜的环境温度。影响蓄电池寿命的重要因素是环境温度,一般电池生产厂家要求的最佳环境温度是在20~25℃之间。虽然温度的升高对电池放电能力有所提高,但付出的代价却是电池的寿命大大缩短。据试验测定,环境温度一旦超过25℃,每升高10℃,电池的寿命就要缩短一半。

5)UPS电源在正常使用的情况下,主机的维护工作很少,主要是防尘和定期除尘。大量灰尘会造成器件散热不好。一般每季度应彻底清洁一次。其次就是在除尘时,检查各连接件和插接件有无松动和接触不牢的情况。

6)熟悉UPS的工作原理和操作规程。

7)需经常检查的项目有:

·清洁并检测电池两端电压、温度;

·连接处有无松动,腐蚀现象;

·电池外观是否完好,有无壳变形和渗漏;

·极柱、安全阀周围是否有酸雾逸出;

·主机设备是否正常。

8)对UPS的工作异常情况要做好记录,并及时联系有关单位进行处理。

9)UPS应妥善保养,除了电池自动检测外,每3个月放电一次。

10.空调管理的内容

1)本着正确使用、安全管理、专人负责、中低运行、节约用电的原则,切实保障空调的有效使用和管理。网络中心机房为保证设备良好的工作环境,应保持合适的机房温度和湿度,机房温度应保持在23℃~26℃,机房湿度应低于70%。

2)巡视监控。当值管理员每隔2小时巡视一次中央空调机组,巡视部位包括中央空调主机、冷却塔、控制柜(箱)及管路、闸阀等附件。巡视监控的主要内容如下:

·检查线电压(正常380 V,不能超额定值的±10%)。

·检查三相电流(三相是否平衡,是否超额定值)。

·检查气压(正常500 mmH2O)。

·检查高压(<12 kgf/cm2)。

·检查低压(>2.5 kgf/cm2)。

·冷却水进水温度(正常<32℃)。

·冷冻水出水温度(正常6℃~8℃)。

·检查中央空调主机运转是否有异常振动或噪音。

·检查冷却塔风机运转是否平稳、冷却塔水位是否正常。·检查管道、闸阀是否有渗漏,冷冻保温层是否完好。

·检查控制柜(箱)鉴别元器件运作是否正常,有无异常噪音或气味。

巡视过程中如发现上述情况有不正常时,当值管理员应及时采取措施予以解决,处理不了的问题应及时详细地向上级汇报。整改时,应严格遵守《中央空调维修保养标准作业规程》。

3)中央空调机房管理具体内容如下:

·非值班人员不准进入中央空调机房,若需要进入,须经工程部主管同意,并在值班人员的陪同下方可进入中央空调机房。

·中央空调机房内严禁存放易燃、易爆等危险品。

·中央空调机房内应备齐消防器材、防毒用品,并应放置在方便、显眼处。中央空调机房内严禁吸烟。

·每班打扫一次中央空调机房的卫生,每周清洁一次中央空调机房内的设备设施,做到地面、天花板、门窗、墙壁、设备设施表面无积尘、无油渍、无锈蚀、无污物,表面油漆完好,整洁光亮。

·中央空调机房内应当通风良好,光线足够,门窗开启灵活。

·中央空调机房应当做到随时上锁,钥匙由当值班管理员保管,当值管理员不得私自配钥匙。

·接班人员应准时接班,接班人员应认真听取交班人员交代,并查看《中央空调运行日记》,检查工具、物品是否齐全,确认无误后在《中央空调运行日记》表上签名。

·对于中央空调的运行情况,当值管理员应及时、完整、规范、清晰地记录在《中央空调运行日记》表内,并于每月的2日之前把上一个月的记录整理成册后存档,并报一份到后勤管理处,保存期为2年。

4)定期进行日常巡视,确保空调系统的正常运行。

5)定期进行一次室外机的清理,防止因散热不良造成空调的工作异常。

6)每年进行一次全面检修。

1.3 机房巡检的要求

机房巡检是机房管理的重要组成部分。机房巡检人员在系统巡检计划的指导下完成巡检作业。巡检对象主要是针对机房中比较重要、比较关键的设备。目的是及时查找、发现信息系统设备隐患,排除故障。机房巡检的设备不同、使用环境不同、季节不同,巡检的周期和频次也有所不同,如表8-1所示。

一套详细的数据中心机房工程运维管理实施方案(数据中心机房运维管理制度)

巡检时需带巡检内容的常备工具,做到眼见、耳听、鼻闻、手摸、工具检查,加强对巡检设备关键内容的巡检力度,防患于未然。

机房巡检必须要有记录,巡检记录直接关联到巡检的效果。管理人员利用巡检能够掌握机房运行情况,能更好地对数据进行客观的统计、研究,为领导作出迅速、准确的判断和决策提供科学依据。巡检记录的覆盖面要全面,操作性要强。

巡检记录应在巡检期间填写,以记录时间为准,不得事后补填或超前记录。巡检记录及时填写电子版以供做周汇报时附加;纸介质的巡检记录表必须妥善归档保存。

1.4 机房巡检的具体内容

1.4.1 供配电巡检的具体内容

供配电巡检具体内容如表8-2所示。

一套详细的数据中心机房工程运维管理实施方案(数据中心机房运维管理制度)一套详细的数据中心机房工程运维管理实施方案(数据中心机房运维管理制度)一套详细的数据中心机房工程运维管理实施方案(数据中心机房运维管理制度)

1.4.2 给排水巡检的具体内容

给排水巡检具体内容如表8-3所示。

一套详细的数据中心机房工程运维管理实施方案(数据中心机房运维管理制度)一套详细的数据中心机房工程运维管理实施方案(数据中心机房运维管理制度)

1.4.3 空调系统巡检的具体内容

空调系统巡检具体内容如表8-4所示。

一套详细的数据中心机房工程运维管理实施方案(数据中心机房运维管理制度)

1.4.4 消防巡检的具体内容

消防巡检具体内容如表8-5所示。

一套详细的数据中心机房工程运维管理实施方案(数据中心机房运维管理制度)

1.4.5 网络设备巡检的具体内容

网络设备巡检分工作状态巡查和网络设备具体内容的巡检。

1.网络主要设备工作状态巡查

为保证网络正常运行,需要每日分三次定期进行网络主要设备(服务器、路由器、交换机、防火墙、磁盘阵列)的工作状态巡查。做好每日网络设备主要巡查和巡查记录。

网络主要设备工作状态巡查记录如表8-6所示。

一套详细的数据中心机房工程运维管理实施方案(数据中心机房运维管理制度)

2.网络设备巡检具体内容

每日分三次定期进行网络主要设备(服务器、路由器、交换机、防火墙、磁盘阵列)的具体内容巡检。巡检具体内容如表8-7所

一套详细的数据中心机房工程运维管理实施方案(数据中心机房运维管理制度)一套详细的数据中心机房工程运维管理实施方案(数据中心机房运维管理制度)一套详细的数据中心机房工程运维管理实施方案(数据中心机房运维管理制度)

1.4.6 机房环境巡检的具体内容

机房环境巡检具体内容如表8-8所示。

一套详细的数据中心机房工程运维管理实施方案(数据中心机房运维管理制度)

1.4.7 照明巡检的具体内容

照明巡检具体内容如表8-9所示。

一套详细的数据中心机房工程运维管理实施方案(数据中心机房运维管理制度)

1.4.8 防雷巡检的具体内容

防雷巡检具体内容如表8-10所示。

一套详细的数据中心机房工程运维管理实施方案(数据中心机房运维管理制度)

1.5 机房巡检的台账内容

台账原是指摆放在台上供人翻阅的账簿,故名台账。台账是明细记录表,为了加强某方面的管理、更加详细地了解某方面的信息而设置的一种辅助账簿,没有固定的格式,没有固定的账页,可根据实际需要自行设计,尽量详细,以全面反映某方面的信息。

机房巡检台账如表8-11所示。

一套详细的数据中心机房工程运维管理实施方案(数据中心机房运维管理制度)

1.6 机房参观管理

新一代的机房,普通人很难进入,为了让更多的人了解新一代的机房,同时也进一步提高员工的爱岗敬业意识,更好地宣传公司形象、发展公司新业务,机房安排外来人员参观。

机房安排外来人员参观要注意如下7点:

1)外来人员参观机房,须有公司指定人员陪同。

2)计算机处理秘密事务时,不得接待参观人员或靠近观看。

3)操作人员按公司陪同人员要求可以在计算机演示、咨询;对参观人员不合理要求,陪同人员应婉拒,操作人员不得擅自操作。

4)经同意,参观人员可以实地操作计算机,但须有公司人员的认可,不得调阅公司机密文件。

5)参观人员不得拥挤、喧哗,应听从陪同人员安排。

6)参观结束后,操作人员应整理如常。

7)参观机房要填写登记审批表,机房维护人员负责登记、监督工作,确认无误后方可进入。参观机房登记审批表如表8-12所示。

一套详细的数据中心机房工程运维管理实施方案(数据中心机房运维管理制度)

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。