信息机

IT系统运行维护方法及策略

发布时间:2024/8/10 14:15:15   
白癜风微信交流群 http://www.dashoubi.org.cn/e/wap/show.php?classid=2&id=273060

IT运维服务体系的建议追从“易使用、易汇总、易管理”的先后顺序,由重到轻的依次解决客观存在的问题,以便最大程度的加快IT运维服务体系的建设的目标。运维服务体系由运维服务制度、运维服务流程、运维服务组织、运维服务队伍、运维技术服务平台以及运行维护对象六部分组成,涉及制度、人、技术、对象四类因素。

运维制度是规范运维管理工作的基本保障,也是流程建立的基础。运维服务组织中的相关人员遵照制度要求和标准化的流程,采用先进的运维管理平台对各类运维对象进行规范化的运行管理和技术操作。

IT故障定位指诊断故障直接原因或根因,故障定位有助于故障恢复动作更加有效。故障定位通常是整个故障过程中耗时最长的环节,定位的目标围绕在快速恢复的基础上,而并非寻找问题根因,后者由问题管理负责。通常大部分可用性故障,要借助运维专家经验的假设判断或已知预案的执行得到解决,但仍有部分故障,尤其是性能、应用逻辑、数据故障需要多方协同与工具支持。

在数据中心里,很多技术运维人员往往能够对已知的故障有敏锐的发现能力,可以根据自己遇到过的故障现象快速找到问题的根因。更为资深的专家能够从一些普适性的故障现象中通过系统的内在原理猜测出某个现象背后可能的原因。根据故障的表象判断可能的诊断路径是一个运维技术专家所必须具备的能力,这些能力往往是通过大量的运维案例不断的积累下来的。这也是专家有别于普通运维人员的地方。准确的数据采集实际上也是需要依靠运维知识的。

例如,如果我们要做故障分析,其中需要使用到CPU资源的使用情况,我们该如何采集数据呢?找某段时间里CPU的使用率的平均值还是最高阈值?如果出现CPU使用率%就一定有问题吗?实际上并不是这么简单的,CPU突然出现的尖峰实际上大多数是无害的,不一定会对我们的系统产生不利的影响。只有长期CPU使用率都处于接近高位,此时CPU才有可能存在资源不足的瓶颈,影响系统的性能。

一、运维处理原则

IT系统运行过程中,难免会出现问题或故障,故障处理的原则归结起来就是两个:

所有措施或方法都是以迅速恢复业务优先

系统BUG或匹配需要及时升级并优化

1.1.恢复业务优先

恢复业务优先是指,不管在任何情况下,也不管任何级别的故障,都要先做到恢复业务,这个和故障定位不同,也有很多人会产生歧义,觉得如果不找到问题的根源,如何能恢复业务,下面我举一个例子简单的例子:

如果应用A和B系统联调时,如果最终是失败的,这时我们要如何寻找问题并解决?

(1)从A应用的服务器去pingB应用的网络,如果端口,网络联通,那么直接绑定B服务器的hosts。

(2)排查问题,寻找A到B之间会经过哪些环节,找到其中的出问题的环节,包括跨服务器区、跨网段等,比如HA连接异常,进行重启或者扩容恢复。

通常情景,第1种方法时间会短,如果A和B之间是跨机房访问,那么方法一排查时间会更长,虽然破坏了A到B之间的架构平衡,但是能马上见效,这就是我们所说的以恢复业务优先。

1.2.及时升级

这个比较好理解,任何故障在发生时,对故障的影响任何人只能做一个简单的预测,所以要及时升级到你的领导那里,让他掌握第一手的信息,协调资源,如果有如下情况,那么必须马上上升:

非常重要的业务的严重以上的告警故障,比如网银交易系统、主机CPU超阈值等等;

2.有明确业务影响,例如双11或促销、国庆或重要节假日等业务突发指标波动;

3.处理时效明显超长(时效参考故障处理时效定义);

4.安全升级包或设备或方案厂家已经大的升级系统;

5.系统性的问题、监控中心或者关联系统已经

转载请注明:http://www.aideyishus.com/lktp/6636.html

------分隔线----------------------------