当前位置: 信息机 >> 信息机市场 >> 浅谈数据中心动力环境监控系统的现状及运维
摘要:数据中心动力环境监控系统(以下简称“动环系统”)主要对UPS蓄电池、高压配电、精密空调、应急电源、智能配电柜等基础设施设备的运行状态、参数状态进行7×24小时集中在线监测,集成了设备设施动力指标、通信指标等碎片化信息,有效提升工作效率,为数据中心机房及相关联系统的智能化运行维护提供了安全稳定的技术手段,极大节约了运行维修成本。着重介绍了动环系统的发展现状,并分析在数据中心机房系统的运维管理作用。
关键词:数据中心;动力环境监控;基础设施;运行维护
1前言
传统运维管理方式下,各站点需要留人值守,但难于实时掌握数据中心机房设备运行状态和机房环境状况,对管理资产、容量资源的统计,耗时、易出错、造成浪费严重现象,机柜空间碎片化、制冷功能是否足够、PDU过载等烦恼也已无法匹配大型数据中心自动化管理的需要,给运维人员增加很大难度,所以数据中心对智能监测设备的需求就显得尤为迫切。
随着云时代技术不断进步,随之产生的集中监测数据中心机房系统及机房辅助系统(UPS蓄电池、高压配电、精密空调等)的动环监控平台成为了运维管理的核心内容,它能实时检查动力参数和环境状况,故障报警、事件记录,对碎片化机柜空间进行集中管理,还能预测各机房环境的潜在风险,为运维管理提供了一种高可靠性、安全性的技术支持[1]。
2动环系统发展现状
常规建设中,针对规模较大的数据中心机房,动环系统一般部署三级监控[2]。
2.1系统基本构成
根据现行的国家标准及行业标准规范[3]要求,如图1所示,动环系统主要由三部分的基本结构组成:现场采集层、集中监控层、远程浏览层。传统的动环系统,双机处于冷备状态,若主机出现宕机,可启用备机开机,如图一左边部分。
(1)现场采集层:采用串口服务器+集成服务器架构,被监控设备通过数据中心专用网络的形式接入串口服务器,串口服务器将数据协议转换为SNMP转发至集成服务器。
(2)集中监控层:一主一备服务器为双机冷备状态,通过三台(电力监控、环境监控、机房监控)服务器采集数据,负责将现场采集层集成服务器传来的各种信息进行存储、处理、分析和展示。
(3)远程浏览层:通过电视大屏展示给运维值守人员,系统支持多种告警通知方式,在告警产生时,可及时有效的通知运维人员。同时,匹配相应的权限可以进行系统配置修改等操作。
图1动环系统结构
2.2动环系统的发展现状
随着智能化设备不断的改进,为保障整个系统容灾性能,在不影响设备断电的情况下自动启用备机,且数据中心设备的不断扩容,势必会增加动环系统负重,就升级了现有的双机热备功能的服务器,当主机宕机故障时,系统监测到信号中断将自动启用备机,如图一右边部分,同时还可以实现机房总管的全量数据转移。
(1)现场采集层:采用基于Linux的IP型一体化嵌入式服务器。服务器本身具备串口服务器功能,具备多种物理接口(包括但不限于RS、RS、DI、DO、AI等),无需串口服务器即实现各类数据的采集,且具备数据处理、数据过滤及数据缓存,断点续传等功能。
(2)监控处理层:监控平台为两台硬件服务器,双机热备,通过N台嵌入式采集服务器采集监控每栋机房及相关联设备的数据,是机房卫士服务器的升级版,可实现全量数据监控,3D视图的展示效果,在界面美观性、软件易用性及系统可监控容量方面均有所提高。
(3)远程浏览层:系统支持多媒体语音、本地声光等多种告警通知方式,在告警产生时,可及时有效地远程通知机房运维人员,及时采取相应措施确保各机房及相关联设备的可靠运行。同时,匹配相应的权限可以进行设备控制及系统配置修改、画面修改等操作。
3动环系统的应用
3.1数据中心机房IT负载监测
数据中心机房IT负载运行较为复杂,设备在运行的过程中消耗大量电力能源,电力资源耗用过多就会产生热能,使机房环境温度升高,然后耗费很多电力的冷却系统能源进行环境降温。在整个循环过程中,运维人员对繁杂的能耗资源统计,耗时、易出错、不及时等现象,所以机房的电力和散热情况就需要实时监测,并反馈真实数据。动环监控系统就能很好的应用于IT负载设备的动态监测,如图2所示。
图2数据中心机房应用图
(1)智能监控可视化:资源3D可视化,能快速定位可用资源、能耗管理、容量管理、温度云图。
(2)封闭通道:电动平移门,人脸识别,根据设置权限识别运维人员进出机房信息,改善机房进出管理规范。
(3)一体化UPS/精密配电柜/智能小母线:UPS智能录波、支路监测、温度检测。
(4)U位管理:通过U位标签与设备资产进行绑定,全程跟踪设备资产的生命周期[4]状态;自动识别机柜对应U位的IT设备,系统对机柜每1U的U位进行自动的精细化管理,当设备资产位置或状态发生变化时,系统自动识别更新资产设备信息,实现资产自动盘点,同时避免事后维护登记,降低运维成本减少遗漏几率。
3.2数据中心AI节能
为落实节能减排政策要求,智能动力环境监控的平滑能耗曲线效果,如图3所示,去除了人为操作频率低下所产生的数据锯齿,提高对负载率上架率等变更的相应操作率,持续优化场景化SCP标准步骤,通过优化动环系统设计,可实现以下目标。
图3输出曲线图
(1)多通道采集:支持多个进程进行数据采集,相当于在系统与采集端口间修建了多条高速公路,减少了“塞车”的风险。同时多线程机制可让数据采集获得更大的内存空间,
发挥系统的快速运转性能,提高数据采集效率。
(2)信号状态关联:设备自身主要信号状态与次级信号状态关联,避免了主信号出现故障时,大量的支路信号告警信息掩盖主要告警。
(3)数据信号规整:不同厂家、不同型号、不同协议的设备进行信号规整,并按照用户提供的字典表或协议规约要求进行封装,实现多专业多个子系统的统一整合,快速的实现与上层平台对接,使同类型设备的数据易于对比分析。
(4)告警信息标准化:通过规则引擎将功能与规则分离,采用配置加载的机制将解析后的告警信息转化为统一的、满足一定格式的标准数据。
(5)AI节能:前馈控制加温度自适用技术,优化能源使用效率,从而达到节能降耗,如图4所示(PUE<2)。
图4对应的各楼层位置展示图
3.3供配电和制冷系统监控
供配电与制冷系统采用了采集技术、计算机技术和网络技术,通过电量仪、空调通讯主板及传感器等设备实时采集电流、电压、通断情况以及温湿度等动力指标和环境指标信息,这些数据大多以秒级时间间隔来采集,数据量很大,系统将采集到的实时监控数据进行解析、存储于数据库中,可减轻程序运行的压力,所以结构化、格式化程度较高,基于远程应用程序开发,使用多层次界面展示各个子模块系统的运行情况,用户通过监控平台查询各个供配电、制冷等设施设备的运行状态和参数。通过动环系统在基础设施设备的采集与分析得知,全球数据中心每年电力消耗太瓦时,占总用电量的7%[5],是个三峡大坝的发电量才能满足。在基础设施能耗中,制冷系统占比26%,相当于供配电系统的3倍以上,IT负载占比最高,达63%,如图5所示。
图5数据占比图
4动环系统在运维中的作用
数据中心实行7×24h巡检运维,人员轮班制,动环系统投入使用后克服人工疲劳、枯燥情绪困扰,可解决人力资源有限的问题;数据%真实还原,无人为因素干扰,增强数据中心监测质量,工作延续性强;还能解决运维人员无法出入危险区域(高压触电、有害气体、疫情场景等)条件下第一视角监管现场运维的难点。
4.1在电源维护中的作用
传统的UPS蓄电池放电试验需要多名运维人员在现场值守,每隔一段时间记录一次电池放电状态、电池内阻及电压的变化情况。一个电池机房一般有几千节电池,这无疑给
运维人员增加很大的工作量;UPS蓄电池基本是铅酸电池,如果有电池漏液,很容易引起爆炸和火灾,给运维人员的生命安全构成较大威胁。而动环监控系统可以在值班室,远程观察UPS蓄电池的运行状态和参数变化情况,有效减轻了运维人员的工作量,也降低了运维人员的风险[6]。
4.2VR智能眼镜与动环系统为运维巡检人员提供帮助
(1)过程记录,第一视角本地记录日常巡检全流程;
(2)远程富媒体交互,通过第一视角的智能眼镜,远端可以远程连接应急或设备维修现场,指导前方工作人员解决问题,通过实时视频、文字、图片、AR标记等多种方式,提升沟通效率;
(3)智能识别,通过智能眼镜融合图像识别、人脸识别、车牌识别、
转载请注明:http://www.aideyishus.com/lkjg/3591.html