首页 > 编程知识 正文

数据库自动化运维平台,游戏自动化运维平台

时间:2023-05-06 03:43:48 阅读:177431 作者:1414

万丈高楼平地而起,高楼是否稳定取决于地基是否牢固。 基础数据是运输管理这座大楼的基础。

首先,介绍一下我们参与运维管理的一些基础数据。 请看下图:

基础数据大致分为CMDB、日志、生产DB、知识库四个模块。

一、基础数据概况

CDB中文是一个配置管理数据库,用于存储和管理企业IT基础架构中设备的各种配置信息,与未来IT运维管理的标准化和流程化密切相关,并支持流程的运行。 运输管理平台创建初期或初版的CMDB往往偏重于IT资产管理,此处定义的IT资产管理暂时排除公司个人使用的普通PC。

日志主要存储有关CMDB中服务器和其他设备的日志信息。

DB主要是所有IT系统的数据库信息,包括运维管理系统自身的数据库。 由于数据库的重要性,基础数据由包括生产数据库、测试数据库和开发数据库在内的单独模块管理数据库。 数据库日志放入日志模块统一管理,进行监控和备份。

知识库主要存储日常运维管理中出现的事件、问题以及一些典型问题的解决和常用的解决方案,主要起到运维管理辅助的功能。

二、基础数据三要素

基础数据要求完整、准确、实时,这三个特性必不可少。

1.完整性

完整性要求在数据收集整理阶段一个一个整理,做到不遗漏。 任何设备的遗漏都会关系到将来的问题。 例如,最近的威胁病毒为了防止犯罪,需要修补服务器升级。 此时,根据服务器列表逐一核对并升级。 如果病毒在没有修补掉落的服务器的情况下入侵,后果会很严重。 那么,如何实现完整性呢? 大致分为以下几个步骤。

首先,如果多人在数据收集阶段同时收集IT资产,则在数据收集完成后会创建三个或更多IT资产列表。

接下来是相互确认的阶段。 互相核对一下,把两份清单和自己整理的清单比较一下,找出不同的地方,大家开会讨论。 经过这个阶段,会生成一个相对完整的、三方以上批准的IT资产列表。

最后,三方或更多方将对批准的IT资产列表进行最终检查。 最终列表经过大量讨论确认,确保是最终检查的IT资产列表。 此时,该IT资产列表相对完整。 此外,在组织、讨论和检查过程中添加、更改或删除的IT资产应及时更新IT资产列表。

2.准确性

为了准确起见,存储在IT资产列表或CMDB中的数据不能与实际数据不同。 为了实现基础数据的准确性,除了在数据采集阶段下功夫外,运维管理的各个阶段都要定期审计基础数据,确保基础数据中的数据无误。 一般来说,月度小审、每半年大审,具体情况根据企业的IT规模而不同。

3.实时性

基础数据的实时性可以确保数据的准确性。 也就是说,每次基础数据的变更,包括追加、删除、修改在内,无论大小都有变更的话(在运维流程结束的阶段,运维操作成功后,必须及时更新基础数据。 如果忽视基础数据的实时性,准确性将大幅降低,在今后的月审、年审中将导致额外的工作量。 一般在审计过程中,当数据错误率达到一定程度后,需要重新整理所有数据以确保最终的准确性和完整性。

CMDB

CMDB大致分为产品线、资产管理和供应商管理三个部分。 总的想法是在产品线中管理IT资产,用IT资产信息管理硬件或服务提供商,由供应商管理。

1.产品线

产品线是指公司范围内所有IT系统和产品的属性分类。 这假定您要组织整个公司的IT项目和IT服务。 在这里也可以理解为所有IT系统,包括OA、CRM、订单系统、支付系统等。

IT服务主要是指APP应用程序服务(Tomcat、WebLogic、数据库服务等)、Nginx、Varnish、Redis等基本IT服务。 在项目和服务两个维度管理IT资产,特别是虚拟机。 虚拟机的宿主机是物理主机,因为典型的系统和服务部署在虚拟机中。

产品线划分一般除了根据业务分类划分几大产品线外,还应划分信息安全产品线,主要是信息安全、网络安全等系统和设备管理等基础产品线。 基本服务产品线,包括大多数Nginx反向代理系统和Varnish缓存Web静态资源。

在此,您需要为产品线和项目中包含的服务设置运维优先级。 运输等级的制定不能简单地定义为什么等级,而应该对每个系统的运输等级进行优先级划分,得分不能相同。 这样可以保证在大面积故障时,可以根据优先级解决问题。

2.资产管理

资产管理主要包括以下几个方面。 首先是比较大的机房管理。 一些企业可能有多个机房,需要组织和存储每个机房的基础信息,如带宽、位置、值班电话等,并管理机房信息。 机房中的机架、机柜、交换机、路由器等硬件信息,机房的空调、UP

S电源、环境监测系统等都属于机房管理的范畴。

安全设备管理。安全设备管理这里主要包含防火墙、IPS、WAF、VPN等网络设施。企业信息安全非常重要,在运维管理中也把安全作为一个单独的模块进行管理。通过购买安全硬件设备和安全服务,不断学习和研究,从而保护好企业数据信息。

服务器管理。这里假定企业实现了虚拟化,大部分系统和服务都部署在虚拟机,而虚拟机是部署在物理机上。服务器管理分物理机和虚拟机分开管理,同时又密切关联。虚拟机在哪一台或几台物理机需记录清楚。

根据产品线中定义的运维优先度等级,在资产管理中的每一个节点标注上相应的等级分值,以便出现大规模故障,有选择、有重点、有顺序地逐一解决问题。

3.供应商管理

供应商管理主要是管理由第三方企业提供的IT系统或设备的服务信息。记录供应商的具体信息、值班电话、硬件备件库等信息。

以上几个模块单独管理,但是又密切相连。如产品线包含哪些项目,包含哪些服务,这些项目和服务部署在哪些虚拟机上,虚拟机又在哪一些物理机上,物理机分布在哪些机房和在机房中的具体位置,物理机在机房中的网络位置和网络架构如何,经过哪些安全设备等等。

反过来需要知道某一些机房有哪一些物理机,物理机位置,安全设备,以及安全设备与物理机的网络架构等,物理机上又有哪些虚拟机上部署了哪一些项目和服务等。系统和服务属于哪些供应商提供,供应商又提供了哪些系统、设备或服务器等。都要多维度进行管理。要求做到某一环节的故障,一查就知道所有受影响的系统和服务。CMDB中的信息相互交织,多维度查询和管理,构建出一张完整的总体架构图,通过总体架构图除了展现出各个部分的基础信息外,还描述了所有的依赖关系,做到坏一点而知全面。

日志

 

通过日志可以比较准确全面地知道系统或是设备的运行情况,可以返查问题产生的原因,还原问题发生的整个过程。通过日志也可以提前预测系统可能要发生的问题或是故障,如系统安全日志,如果网络攻击会在系统安全日志中有一定的体现。

1.系统日志

系统日志主要指的是操作系统的日志,主要在/var/log下的各种日志信息。包含系统操作日志、系统安全日志、定时任务日志等。系统日志是运维管理安全模块中审计的重要依据。一般默认的操作系统日志不能满足要求,需要对系统的参数进行修改,如为history命令加上时间戳、IP,并且长久保留历史等功能。并且对日志文件进行处理,不允许用户进行清空命令,只能append。

2.应用日志

应用日志主要记录应用服务的健康运行情况以及业务操作的具体日志两部分。应用监控运行情况反应应用服务的健康状态,如果应用占用CPU或是内存过高或是忽高忽低不定,都可以通过分析应用日志结合业务操作日志得出结论。业务操作日志可以为业务审计提供主要依据。有一些系统喜欢把业务操作日志写到数据库中,这个也是需要注意的。不过不管在哪个地方,要求是不可缺少的,它为以后业务审计和问题返查提供依据。

3.数据库日志

数据库日志主要反馈数据库的运行情况。通过监控和管理数据库的日志,及时了解数据库的运行情况,遇到问题及时解决等。可以通过数据库日志结合数据库系统自带的数据库如Oracle的系统视图v$开头,MySQL的performance_schema等。虽然数据库的一些信息不是存在日志中而是在数据库里面,但是也可以作为数据库日志的一部分进行管理和监控,已便我们及时知道数据库的监控状况,从而预防可能出现的问题。

4.设备日志

设备日志一般是一个比较容易忽略的地方,但设备日志往往可以反映设备的运行情况。交换机故障,防火墙故障等设备故障都可能引起大面积的系统和服务故障。所以设备日志一定要收集,分析和监控预警。常用的设备日志有交换机日志、防火墙日志、网络安全设备日志等。

在CMDB中梳理的IT基础设施的基础上,对日志进行分类收集、管理、分析和监控,配着监控管理模块的系统,就已经可以达到多方位监控IT系统,保障IT系统的安全稳定。

DB

 

由于数据和数据库的重要性,在基础数据中,数据库作为单独的模块存在,根据环境划分为:生产数据库、测试数据库、开发数据库。严格区分三种环境的数据库,避免测试数据到生产环境,生产数据到测试环境等。另外数据库中数据也为业务监控提供数据依据。通过查询数据库中的数据,依据业务逻辑进行判断是否有错误或是遗漏的数据。

知识库

 

知识库在整个运维管理中是一个辅助功能,主要为运维提供事件管理、问题管理。很多朋友可能会疑惑为什么把事件库和问题库放在知识库这里,这些不是应该在CMDB中吗?这里稍微解释一下,其实本人也并不太清楚这种办法是否可行。在CMDB模块中更多是偏向IT资产管理,为以后的运维操作提供运维范围和运维目标。而事件(主要指运维过程中遇到的所有的运维事件)和问题(需要进行变更发布才能解决的事件升级)更多是在IT资产之上,是解决IT资产的过程中遇到的事件和问题。如果把CMDB作为IT运维的基础管理对象和范围目标的话,事件和问题应该单独出来。也许在后面的运维管理中,逐渐强化CMDB的功能,会把事件库和问题库回归到CMDB模块中。

知识库中还包含经典案例库,主要是解决一些常遇故障、经典问题的解决方法的整理和归档。

解决方案库只要是一些常用的或是探索中的解决方案,例如:Nginx+Tomcat+Redis部署方案,FastDFS分布式文件服务器方案等。

文档库主要用来存储运维管理过程中执行的运维标准和规范以及运维的流程规范,常用的一些规范举例:

 

文档库也包括一些企业或是部门的规章制度,与供应商的合同条文等。主要是涉及到IT系统文档的一个存放和查阅的地方。

运维标准和运维流程的文档一定是必不可少的。因为运维自动化的前提就是运维的标准化和流程化。如果没有明确的标准和规范的流程,运维自动化就只能一直停留在测试环境的假想空间中。

总结

基础数据在整个运维管理中起到基础、奠基的重要作用,也是做运维管理平台的第一步和以后每一步的重要依据。一定要舍得投入时间、人力等来建立起完整、准确、实时的基础数据。打好地基,以后运维的每一步都将有条不紊地循序渐进,终将建设成属于运维的高楼大厦。

本文地址:http://www.linuxprobe.com/automatic-operation-operation.html

转载于:https://my.oschina.net/u/3315871/blog/918197

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。