这份运维管理实施细则有选择的参考了ITIL,但总的来说是以当时系统运维工作的实际情况为主(比如并未设立服务台),立足企业自己的工作特点编写的,适用于当时的情况,如需要,仅供参考。
全文如下(为阅读的完整性,部分属于实施细则附件的图直接放在了正文相应的段落中):
第一条 为规范……公司(以下简称“公司”)各信息系统(以下简称“系统”)的运行维护(以下简称“运维”)工作,保障各系统安全、稳定、高效运行,参考信息技术服务管理领域主流的ITIL框架,基于公司实际情况,制定本实施细则。
第二条 本实施细则适用于支撑公司业务运行和管理的各类信息系统,包括但不限于:ERP系统、企业服务总线系统、OA系统、电子邮件系统、主数据管理系统、计划预算管理系统、报销管理系统、产品生命周期管理系统、制造执行系统、商业智能系统、资金管理系统、人力资源管理系统、档案管理系统、发票管理系统、客户关系管理系统、电商系统、域控系统、……,等。
第三条 本实施细则适用于公司总部及所有成员机构。
第四条 本实施细则涉及的相关术语见附件1。
第五条 公司的系统运维工作在信息化领导小组、信息化工作小组的管理下开展工作,运维工作的直接负责和执行部门是信息技术部。
第六条 公司运维组织架构分为一线、二线、三线共三级,一线运维人员由各部门的系统关键用户和信息化工作专员构成,二线运维人员由信息技术部门的各系统管理员构成,三线运维人员由各系统开发商或者实施商的专业人员构成。公司重点建设二线运维团队,各系统的运维工作主要由二线人员承担,二线同时覆盖一线的所有职责,一线是二线的有力补充,三线则是按公司运维工作的需求提供对应的市场化专业服务。
第七条 一线运维人员的主要职责包括:
(一)面向终端用户的现场指导;
(二)协助用户解决使用中的基础事件;
(三)将无法解决的事件反馈给二线运维人员并跟踪解决的过程;
(四)所在部门的信息化需求收集与建议;
(五)信息系统的测试;
(六)其他信息系统运维工作。
第八条 二线运维人员(以下如非特殊说明,本实施细则中运维人员均指二线运维人员)的主要职责包括:
(一)全面管理各系统,保障系统的稳定运行;
(二)响应和解决各类事件,处理系统的技术和业务问题;
(三)数据的备份、处理和挖掘;
(四)流程和系统的优化;
(五)需求的采集和分析;
(六)设计解决方案;
(七)开发新功能;
(八)编写信息化相关文档;
(九)信息化建设规划与建议;
(十)信息化项目管理;
(十一)培训用户和一线运维人员;
(十二)为用户提供各类信息技术支持;
(十三)制定系统应用考核评价体系并组织考核;
(十四)采购和管理外部服务资源;
(十五)其他信息系统运维工作。
第九条 三线运维人员的主要职责是按公司与外部信息技术服务供应商(以下简称“供应商”,通常指系统开发商或实施商)签订合同中约定的服务内容,在二线运维人员的管理下开展工作。
第十条 为保证内部运维资源稳定,每个系统应配置业务和技术能力总体相同的两位运维人员,至少应做到“一主一辅”的配置。
第十一条 公司信息系统的运维管理工作应根据附件4图1中的运维管理流程进行,运维管理流程包括5个部分:事件管理、问题管理、变更管理、发布管理、配置管理。事件管理对事件进行识别和快速处理,然后问题管理基于对事件的回顾分析发现产生事件的根本原因并找到解决方案,接着在变更管理的控制下通过发布管理实现对系统的改变得以解决问题,而配置管理则为这闭环流程提供基础支持。
图1:运维管理流程
第十二条 运维人员应及时识别和响应事件,通过事件管理流程(详见附件4图2),采取所有必要的措施尽快解决事件,避免因事件对业务造成影响,以确保最佳的服务质量。
图2:事件管理流程
第十三条 运维人员接到事件报告或者自主识别事件后,首先应判断事件的影响程度和紧急程度,然后为事件定义处理的优先级(优先级归类详见附件2),之后按优先级的高低合理分配时间和资源进行处理。
第十四条 对境外系统用户报告的事件,因时差会造成信息接收和处理的自然滞后,为优先保障境外业务的顺利开展,运维人员应在条件允许的情况下优先处理境外用户的需求。
第十五条 运维人员应对所有的事件进行记录,中级(含)以上的事件必须详细记录。
第十六条 如事件的复杂程度超过运维人员的技术或者业务能力范围,或运维人员不能在合理的时间内解决事件,运维人员应及时将事件升级。事件升级路径是一线转二线,当二线未能解决时,二线运维人员应及时将事件升级到三线以获得原厂技术支持。
第十七条 为了主动识别事件,运维人员应监控系统运行状态,包括监控服务器计算和存储资源使用情况、网络连通和负载情况、企业服务总线运行情况、各系统服务端运行情况、系统日志等内容。监控工作应制度化和常态化,应做到每个工作日开始时对关键业务系统的监控,应特别关注各系统在跨月、跨年等关键时段的服务情况,在技术层面尽可能做到对事件的及时识别和快速处理。
第十八条 用户的所有服务请求均应通过OA系统中的《信息技术服务申请单》(以下简称“服务申请单”,表样详见附件5表1)正式提出,同时兼顾面谈、电话、即时通讯软件、电子邮件等其它辅助沟通方式。运维人员应在服务申请单中记录事件的处理结果和重要事项,用户可通过流程查看服务申请的处理过程。
第十九条 运维人员均应使用OA系统中的信息技术工单(以下简称“工单”,表样详见附件5表2)记录对事件的处理过程,通过工单为运维知识积累和运维工作的绩效管理建立基础。
第二十条 应通过问题管理流程(详见附件4图3)建立对事件的回顾机制,基于对信息技术基础设施和所有可用信息的调查,回顾和研究事件的特点、共性、频率、趋势等产生事件的根源性问题,结合配置管理数据库对问题进行已知错误识别,最终提出解决方案,努力消除事件或者减少事件的发生,缩短解决问题所需的时间,降低解决问题的成本。