!
也想出现在这里? 联系我们
广告位
当前位置:首页>技术分享>系统运维>系统运维如何做(分享系统运行维护方法及策略)

系统运维如何做(分享系统运行维护方法及策略)

IT 运维服务体系的建议追从“易使用、易汇总、易管理”的先后顺序,由重到轻的依次解决客观存在的问题,以便最大程度的加快 IT 运维服务体系的建设的目标。运维服务体系由运维服务制度、运维服务流程、运维服务组织、运维服务队伍、运维技术服务平台以及运行维护对象六部分组成,涉及制度、人、技术、对象四类因素。

运维制度是规范运维管理工作的基本保障,也是流程建立的基础。运维服务组织中的相关人员遵照制度要求和标准化的流程,采用先进的运维管理平台对各类运维对象进行规范化的运行管理和技术操作。

IT故障定位指诊断故障直接原因或根因,故障定位有助于故障恢复动作更加有效。故障定位通常是整个故障过程中耗时最长的环节,定位的目标围绕在快速恢复的基础上,而并非寻找问题根因,后者由问题管理负责。通常大部分可用性故障,要借助运维专家经验的假设判断或已知预案的执行得到解决,但仍有部分故障,尤其是性能、应用逻辑、数据故障需要多方协同与工具支持。

在数据中心里,很多技术运维人员往往能够对已知的故障有敏锐的发现能力,可以根据自己遇到过的故障现象快速找到问题的根因。更为资深的专家能够从一些普适性的故障现象中通过系统的内在原理猜测出某个现象背后可能的原因。根据故障的表象判断可能的诊断路径是一个运维技术专家所必须具备的能力,这些能力往往是通过大量的运维案例不断的积累下来的。这也是专家有别于普通运维人员的地方。准确的数据采集实际上也是需要依靠运维知识的。

例如,如果我们要做故障分析,其中需要使用到CPU资源的使用情况,我们该如何采集数据呢?找某段时间里CPU的使用率的平均值还是最高阈值?如果出现CPU使用率100%就一定有问题吗?实际上并不是这么简单的,CPU突然出现的尖峰实际上大多数是无害的,不一定会对我们的系统产生不利的影响。只有长期CPU使用率都处于接近高位,此时CPU才有可能存在资源不足的瓶颈,影响系统的性能。

一、运维处理原则

IT系统运行过程中,难免会出现问题或故障,故障处理的原则归结起来就是两个:

⚫ 所有措施或方法都是以迅速恢复业务优先

⚫ 系统BUG或匹配需要及时升级并优化

1.1. 恢复业务优先

恢复业务优先是指,不管在任何情况下,也不管任何级别的故障,都要先做到恢复业务,这个和故障定位不同,也有很多人会产生歧义,觉得如果不找到问题的根源,如何能恢复业务,下面我举一个例子简单的例子:

如果应用A和 B系统联调时,如果最终是失败的,这时我们要如何寻找问题并解决?

(1)从A应用的服务器去ping B应用的网络,如果端口,网络联通,那么直接绑定B服务器的hosts。

(2)排查问题,寻找A到B之间会经过哪些环节,找到其中的出问题的环节,包括跨服务器区、跨网段等,比如HA连接异常,进行重启或者扩容恢复。

通常情景,第1种方法时间会短,如果A和B之间是跨机房访问,那么方法一排查时间会更长,虽然破坏了A到B之间的架构平衡,但是能马上见效,这就是我们所说的以恢复业务优先。

1.2. 及时升级

这个比较好理解,任何故障在发生时,对故障的影响任何人只能做一个简单的预测,所以要及时升级到你的领导那里,让他掌握第一手的信息,协调资源,如果有如下情况,那么必须马上上升:

  1. 非常重要的业务的严重以上的告警故障,比如网银交易系统、主机CPU超阈值等等;

2. 有明确业务影响,例如双11或618促销、国庆或重要节假日等业务突发指标波动;

3. 处理时效明显超长(时效参考故障处理时效定义);

4. 安全升级包或设备或方案厂家已经大的升级系统;

5. 系统性的问题、监控中心或者关联系统已经关注到并受到这个故障影响。

二、运方式

根据运维工作的需求和运维响应时间要求决定建设完整的运维计划并确定服务的标准,以现场软硬件巡检为主,增强运维计划的执行力,通常数据中心等的运维工作流程如下:

(1)建设完整的运维计划:在整个运维过程中,计划是整个工作流程的核心,按照计划先行的原则,依据本年度工作计划制定分项工作计划和时间维度计划,并按流程、按计划进行实施和保障。

(2)现场巡检的重要性:现场巡检计划是运维工作计划的重点,通过现场巡检能够发现系统薄弱环节、关键业务节点、存在的隐患,尤其是对制定应急预案及备品备件计划至关重要。

(3)执行力的重要性:运维计划的执行是运维工作的重点,在运维计划执行过程中,应严格按照流程规范开展运维,并注重控制以降低运维风险。针对运维执行情况,应定期向用户进行反馈。

(4)运维服务标准:签订售后服务承诺函,与客户约定服务级别,对于所承诺的服务级别包括提供的资源(备品和备件等)、提供的方案应严格按约定执行

运维处理方法论

IBM在云时代的新运维方法论叫做CSMO(Cloud Service Management and Operations),这个方法论有四个主要的来源:

第一,是ITIL特别是ITIL 4,ITIL4是国际IT服务标准在新时代的最新版本,也是面向敏态IT的全新版本,它在囊括了ITIL V3的特色基础上加入了对于DevOps等的支持;

其次,是敏态IT运维方法论SRE(Site Reliability Engineering,站点可靠性工程),这是互联网及公有云的运维服务方法论;

第三,是Infrastructure as a Code即将基础设施自动化过程、运维以及全球最佳实践和案例等进行整合;

第四,是加强了运维与开发的关联,将IT服务管理的组织、文化、流程与DevOps进行结合。

运行维护服务包括,信息系统相关的网络设备、安全设备、机房基础设施、主机设备、操作系统、数据库和存储设备及其他信息系统的运行维护与安全防范服务,保证用户现有的信息系统的正常运行,降低整体管理成本,提高网络信息系统的整体服务水平。同时根据日常维护的数据和记录,提供用户信息系统的整体建设规划和建议,更好的为用户的信息化发展提供有力的保障。

用户信息系统的组成主要可分为两类:硬件设备和软件系统。硬件设备包括网络设备、安全设备、主机设备、存储设备等;软件设备可分为操作系统软件、典型应用软件(如:数据库软件、中间件软件等)、业务应用软件等。

故障处理一般会分为三个阶段,故障前,故障中和故障后,故障前是指故障的定位分析,故障中是指故障处理过程,故障后是指故障总结,故障总结很重要。

给TA打赏
共{{data.count}}人
人已打赏
系统运维

系统运维的主要任务有哪些(解读运维岗位主要负责哪些日常工作)

2022-7-22 14:40:05

系统运维

系统运维如何入门(解读运维工程师的修炼手册)

2022-7-23 16:00:49

声明 本站上的部份代码及教程来源于互联网,仅供网友学习交流,若您喜欢本文可附上原文链接随意转载。无意侵害您的权益,请发送邮件至 admin@s9h.cn 或点击右侧 私信:少羽 反馈,我们将尽快处理。
0 条回复A文章作者M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索