系统运维管理小记

系统运维，是一个可小可大的岗位。尤其是自动化运维、和系统复杂度都日益增加的今天，学会管理运维工具，衡量什么时候做什么事情显得更加重要。

首先是日常运维。这里包括：

业务操作问题中，也包括可以复现和一过性（不能复现）的。简单总结如下，具体看各单位 / 部门的合规程度来执行：

然后是基础设施（网络 / 访问策略）的问题排查。这里不详细展开。但是 windows 平台下，排查下是否错误设置了网络代理 / 网关设置丢失 / 用 ping -t 排查某个地址的网络抖动 / 用 netstat -ano 排查进程占用的端口，就可以找到大多数的根源。

最后是培养系统用户自行判断、自救的本领。用户对线上的业务流程较为熟悉，发现哪里不对劲的 “第一描述” 是需要运维人员引起重视的。在用户提供了描述的情况下，需要结合系统平日的表现判断是某些单据的问题、还是系统模块出错等。利于节约运维人员资源的办法是：

服务器运维主要的工作有三个：硬件和网络排查、软件配置维护、定期巡检。

硬件和网络排查常见于非开放源码的系统。特别是各种上古系统、出问题的时候外围设施的锅经常有。在允许的情况下，一般自己动手关机重启、或者弄下网线看下灯亮否。
软件配置维护需要熟悉供应商提供的运维 / 开发手册。按照既定步骤开展软件设置、并注意将历次操作产生的问题进行记录，以便还原问题和咨询供应商。当然，一些数据库的常用端口、用户权限配置步骤、服务器日志的位置也要提前掌握。
定期巡检其实是上述两项的综合，主要检查服务器是否存在一机多用 / 开放了危险的端口（FTP / 共享目录 / 21 端口等）；检查数据库是否有关键业务的慢查询 sql 语句；以及必要的日志清理和迁移，避免生产机器磁盘撑爆。针对用户的反映，重点排查对应模块的系统占用情况和堆栈信息。这部分工作需要掌握常用的集中监控工具、sql 分析工具、Java 等语言的日志分析工具等。

（完）

相关阅读:
机器学习sklearn——day01
综述、浏览器外观（Actions、右键菜单、桌面通知）
Linux实用操作（固定IP、进程控制、监控、文件解压缩）
【正点原子FPGA连载】第二十五章双路高速AD实验摘自【正点原子】DFZU2EG/4EV MPSoC 之FPGA开发指南V1.0
PC安装苹果虚拟机？VirtualBox 安装
SpringBoot——》引入Redis
EasyCode全自动单表增删改查！
基于 SSE 实现服务端消息主动推送解决方案
ClickHouse 数据插入、更新与删除操作 SQL
创业15年，50岁回到农村过上退休的生活,上班和创业是两难的选择。

原文地址：https://blog.csdn.net/u013948083/article/details/126599064