运维监控能够实现自动化吗

运维监控能够实现自动化,而且建议实现自动化。
云服务已经成为IT技术的核心基础设施,充分利用云服务带来的弹性和分布式优势,赋能自动化运维。
一,自动化部署CI/CD持续化集成和自动化部署,比如常用的Jenkins,配置Git代码提交时触发构建,然后自动部署。
二,Docker容器技术Docker将应用以及依赖打包到一个可移植的镜像中,可以实现虚拟化,有助于快捷高效的交付应用。
搭建阿里云容器镜像服务+Git+Docker自动构建系统,结合资源编排服务,实现自动部署更新,不再需要常用的Jenkins构建服务器。
三,AutoScaling自动伸缩配置一定的触发条件,满足时自动增加或者释放服务器资源。
比如当CPU使用率达到80%或者内存占用率达到80%时,根据配置好的服务器和数量,自动触发。
四,系统日志收集处理系统1,ELK是常见的日志收集管理系统,包括ElasticSearch, LogStash, Kibana三个服务,架构示意图如下:2,在ELK系统中,Kibana是一个图形化展示工具,配置查询条件,运维人员随时可以搜索指定日志信息,分析处理故障。
五,服务监控1,云监控CloudMonitor主流云服务商都将监控功能集成到了基础架构中,以阿里云为例,云监控提供了多种配置,多维度全方位监控。
比如配置CPU使用率到达80%时,自动触发动作,增加服务器实例,同时邮件通知运维人员。
2,应用监控以监控宝为例,配置服务地址,选择分布在不同地区和运营商的监测点。
当监测点不能正常调用配置的服务地址时,将收到警告信息,可以选择邮件、短信、电话等通知方式。
六,云原生云原生是指从开始设计应用时,就充分考虑并且利用云服务的特点,比如弹性和分布式,可以简单的理解为:云原生 = 微服务 + DevOps + 持续交付 + 容器化。
在云原生应用系统里,运营、维护和监控,完全是自动化的。

参考:
刚好有这个东西,这是一个适合快速安装,易用,轻量级的运维监控工具——WGCLOUD监控系统属于服务器性能监控可视化类项目,在github上star数量2.2K,码云star数量600左右和zabbix不同,WGCLOUD这款工具的特点初衷就是轻量,易用,无模板,无脚本,安装后不用特别配置,默认启动后就开始全自动监控,不用费劲到处找资料,再学习培训啦轻量并不代表它功能简单,WGCLOUD支持主机各种指标监控(cpu/温度,内存,硬盘空间/IO,系统负载,网络流量,硬件信息等),数据监控可视化,大屏展示,API接口检测,docker监控,公众看板服务,自动生成网络拓扑图,端口监控,日志监控,告警信息推送(默认邮件,可集成钉钉微信短信等)WGCLOUD服务端基于轻量级springboot架构,采集端基于go,是高性能高并发的分布式监控系统。
也有商业版本,当然商业版也有免费版本,免费版对我们中小企业足够用,可以应对平时使用场景,即使突发情况也可以WGCLOUD可以做到秒级监控,采集端每隔30秒扫描一次主机状态,然后上报给server端。

参考:
作为运维工程师,非常理解你的这个问题,我们也希望通过监控的自动化来提高运维的效率,把更多的精力放到业务上;
但是这需要各子系统及流程的配合,才能达到更好的效果。
换句话说就是运维自动化不是孤立的,必须依赖上下游系统,基于规范和流程才能完成。
下面咱们来举个简单场景来分析下吧。
需求:产品部门需要上线一个业务子系统。
运维需要的工作主要为以下三步:1.上架新的服务器或虚拟机;
2.业务子系统部署上线;
3.上线完成后添加监控;
以上三步中涉及到监控系统的有:1.上架的新机器的自动录入到监控系统,进行统一纳管;
2.对录入机器及业务系统需要从几个维度的监控:硬件监控、基础状态监控、应用监控、业务日志监控、流量监控;
3.与监控平台联动的平台也要及时进行数据更新;
对于运维监控自动化来说,我们需要从以上几个维度出发去考虑如何实现自动化。
无论是从哪个维度出发,必须都要有一套自动化脚本或模板去统一实现,因此我们需要制定规范去配合脚本或模板的自动化执行,才能顺利完成。
如果监控系统依赖其他上下游平台,在自动化过程中还要联动其他平台。
总结通过以上的描述,如果我们在各个监控维度,有统一的规范、统一的模板、完善的流程以及各个平台的API(或统一的ESb),那么我们肯定是能够实现自动化的。
当然监控系统的自动化远不止于此,例如故障自愈、智能监控等,现在很多大厂也都已经实现。
但我觉得无论多么高大上,都需要打好基础。

参考:
运维监控大致可以分为以下几个大类:
1、服务器资源监控(CPU,内存,磁盘)2、网络质量监控(延时,丢包,流量) 3、业务监控(端口,进程,api接口) 4、内容监控(某个页面响应时间, 某个页面的关键字等) 5、数据库监控(数据库相关的性能参数监控) 6、自定义监控(比如日志监控等)如果是把 现有的一些监控项做自动化,那是可以的。
我以 zabbix 为例子,把固定的一些监控项做成模板,新服务器可以实现自动注册,自动添加监控项。
但是如果要完全自动化,那比较困难,因为在实际工作中经常会有一些新需求,这些都是需要先手工进行配置的。

参考:
通过可视化大屏(案例为图扑软件Hightopo 的天然气 3D 可视化)园区监控使用写实风格建立天然气站三维效果,可通过大屏、PC 或移动设备拖动界面改变当前视角,也可进行界面缩放。
鼠标悬停在对应设施上将展现出设备详情标签,支持实时查看设备运作信息。
智能巡检无人园区中,巡检智能机器人根据指定线路,对点位设备进行逐个巡检排查,采集实时可视化运作数据并进行分析,将异常数据第一时间反馈给控制中心,为管理人员提供应对依据。
结构扫描透明化建筑外观,采用建筑模型线框,可直观查看设备设施整体布局结构、运行状态。
设施出现故障时,会变为红色预警样式,以可视化的方式提醒管理人员做到及时防控与采取对应措施。
现场视频通过接入设立在园区各个点位的监控设备,支持实时查看厂区实时影像,为管理部门提供及时有效的信息。
消防模拟天然气作为可燃物对于存储量极大的天然气站来说是非常危险的,对其安全性的要求也是非常高。
预先规划的消防线路、人员施救方案等,通过三维场景仿真模拟现场消防施救,为消防施救工作提供可靠有效的信息。
研判流程主要介绍了在火灾发生时,在火灾信息接报后,预警系统的预案研判流程,包括预警流程、判断是否达到应急启动方案、应急启动、应急处置与应急终止等信息。
可视化、数字化、智能自动化化监管是未来产业的发展趋势,大大提高了管理效率,省去了许多人力物力。
在信息化飞速发展的现在,利用 HT 可视化技术和智能监管相结合,配合有效的预警方案,可以保障了生产的安全高效有序进行。

参考:
每个人由于所在的行业、公司、业务、岗位不同,对监控的理解也不尽相同,但是我们需要注意,监控是需要站在公司的业务角度去考虑,而不是针对某个监控技术的使用。
对系统不间断的实时监控:实际上是对系统不间断的实时监控(这就是监控);
实时反馈系统当前状态:我们监控某个硬件、或者某个系统,都是需要能实时看到当前系统的状态,是正常、异常、或者故障。
保证服务可靠性安全性:我们监控的目的就是要保证系统、服务、业务正常运行保证业务持续稳定运行:如果我们的监控做得很完善,即使出现故障,能第一时间接收到故障报警,在第一时间处理解决,从而保证业务持续性的稳定运行。
针对以上目标大多数开源监控系统都已经很不错了,Zabbix是一个分布式监控系统,支持多种采集方式和采集客户端,有专用的Agent代理,也支持SNMP、IPMI、JMX、Telnet、SSH等多种协议,它将采集到的数据存放到数据库,然后对其进行分析整理,达到条件触发告警。
其灵活的扩展性和丰富的功能是其他监控系统所不能比的。
相对来说,它的总体功能做得非常优秀。
各种监控系统的对比来看,Zabbix都是具有优势的,其丰富的功能、可扩展的能力、二次开发的能力和简单易用的特点,读者只要稍加学习,即可构建自己的监控系统。
另外最近两年小米的openfalcon,prometheus也逐渐成熟可以在自动化监控中尝试。

参考:
当然了。
相信大家都走过人肉运维的痛苦阶段,尽管运维工程师 7*24 轮班待命,但客户仍然投诉不断,系统问题不断。
云帮手通过监控报警功能,将故障的平均发现时间从 1 小时缩短到1分钟,让运维可以在故障发生前,提前预警并采取行动,并实现无人值守监控全过程。

参考:
当然可以,相信大家都走过人肉运维的痛苦阶段,尽管运维工程师 7*24 轮班待命,但客户仍然投诉不断,系统问题不断。
云帮手通过监控报警功能,将故障的平均发现时间从 1 小时缩短到1分钟,让运维可以在故障发生前,提前预警并采取行动,并实现无人值守监控全过程。