做运维的感悟(做运维需要考虑事,运维组织结构,运维学习地图....) (2)

日期：2021-06-13 栏目：程序人生浏览：次

8.监控很重要，可以查看流量，某些服务使用内存是否超标，没有监控出了事都不知道，监控不仅要监控服务的端口防止挂掉，还要他深度的使用，比如mysql的慢查询，命中率，主从状态等等。

9.体系，运维最好制定一些发布流程，虚拟机申请流程，巡检流程等等。巡检也是很重要的，云服务器也要定时看看是否磁盘满了，是否要续费等等。否则哪天出问题，问题就大了。

10.对业务进行机器规划，当压力大时扩容，不大时逐步关闭

11.测试也很重要，一个服务从多方面进行测试，比如nginx从静态页面，动态页面，提交数据，模拟多个在线用户登录访问等等。

12.修改文件前必须备份，方便回滚，操作日志最好有审计

(1)提前积累技术，可能明白了谋个东西，优化后让服务器性能提高2个点
(2)提前预防问题，防范于未然
(3)想多些可能性，当前结构可能稳当，但必定不是最好的

运维组织结构简介

运维的工作方向比较多，随着业务规模的不断发展，越成熟的互联网公司，运维岗位会划分得越细。当前很多大型的互联网公司，在初创时期只有系统运维，随着业务规模、服务质量的要求，也逐渐进行了工作细分。一般情况下运维团队的工作分类（见图1-1）和职责如下。

做运维的感悟(做运维需要考虑事,运维组织结构,运维学习地图....)

系统运维

系统运维负责IDC、网络、CDN和基础服务的建设（LVS、NTP、DNS）；负责资产管理，服务器选型、交付和维修。详细的工作职责如下：

（1）IDC数据中心建设
收集业务需求，预估未来数据中心的发展规模，从骨干网的分布，数据中心建筑，以及Internet接入、网络攻击防御能力、扩容能力、空间预留、外接专线能力、现场服务支撑能力等多个方面评估选型数据中心。负责数据中心的建设、现场维护工作。

（2）网络建设
设计及规划生产网络架构，这里面包括：数据中心网络架构、传输网架构、CDN网络架构等，以及网络调优等日常运维工作。

（3）LVS负载均衡和SNAT建设
LVS是整个站点架构中的流量入口，根据网络规模和业务需求，构建负载均衡集群；完成网络与业务服务器的衔接，提供高性能、高可用的负载调度能力，以及统一的网络层防攻击能力；SNAT集中提供数据中心的公网访问服务，通过集群化部署，保证出网服务的高性能与高可用。

（4）CDN规划和建设
CDN工作划分为第三方和自建两部分。建立第三方CDN的选型和调度控制；根据业务发展趋势，规划CDN新节点建设布局；完善CDN业务及监控，保障CDN系统稳定、高效运行；分析业务加速频道的文件特性和数量，制定最优的加速策略和资源匹配；负责用户劫持等CDN日常故障排查工作。

（5）服务器选型、交付和维护
负责服务器的测试选型，包含服务器整机、部件的基础性测试和业务测试，降低整机功率，提升机架部署密度等。结合对公司业务的了解，推广新硬件、新方案减少业务的服务器投入规模。负责服务器硬件故障的诊断定位，服务器硬件监控、健康检查工具的开发和维护。

（6）OS、内核选型和OS相关维护工作
负责整体平台的OS选型、定制和内核优化，以及Patch的更新和内部版本发布；建立基础的YUM包管理和分发中心，提供常用包版本库；跟进日常各类OS相关故障；针对不同的业务类型，提供定向的优化支持。

（7）资产管理
记录和管理运维相关的基础物理信息，包括数据中心、网络、机柜、服务器、ACL、IP等各种资源信息，制定有效的流程，确保信息的准确性；开放API接口，为自动化运维提供数据支持。

（8）基础服务建设
业务对DNS、NTP、SYSLOG等基础服务的依赖非常高，需要设计高可用架构避免单点，提供稳定的基础服务。

应用运维

应用运维负责线上服务的变更、服务状态监控、服务容灾和数据备份等工作，对服务进行例行排查、故障应急处理等工作。详细的工作职责如下所述。

（1）设计评审
在产品研发阶段，参与产品设计评审，从运维的角度提出评审意见，使服务满足运维准入的高可用要求。

（2）服务管理
负责制定线上业务升级变更及回滚方案，并进行变更实施。掌握所负责的服务及服务间关联关系、服务依赖的各种资源。能够发现服务上的缺陷，及时通报并推进解决。制定服务稳定性指标及准入标准，同时不断完善和优化程序和系统的功能、效率，提高运行质量。完善监控内容，提高报警准确度。在线上服务出现故障时，第一时间响应，对已知线上故障能按流程进行通报并按预案执行，未知故障组织相关人员联合排障。

转载注明出处：https://www.heiqu.com/wpppfs.html

做运维的感悟(做运维需要考虑事,运维组织结构,运维学习地图....) (2)

相关推荐