随着机房中的物理机乃至虚拟机的数量不断增加,IT 系统的整体复杂性与日俱增。很多服务器管理员需要进行手动管理,而任何一个细微的错误都可能导致故障停机,甚至业务中断。管理员缺少一个统一的平台对服务器进行监控与管理,无法实现对服务器的配置、控制、自动运行、监控以及物理机和虚拟机进行评测的全生命周期的管理。
本次分享将针对服务器全生命周期管理分享,阐述了服务器的整体流程、IT 运维各阶段主要工作以及需要的管理系统,分享基于百度经验的自动化系统优化实践案例。
以下是本次分享正文
大家好,我叫熊亚军,来自灵犀,目前在灵犀这边负责技术。
今晚我跟大家分享的主题是《服务器全生命周期管理》,先会跟大家介绍下服务器全生命周期管理流程,再说明服务器全生命周期管理中各个阶段主要工作&管理系统,最后跟大家分享下灵犀的服务器到货功能,变更管理中的自动化系统介绍。
服务器全生命周期流程
图片
选型
服务器期的生命周期从业务 RA 进行选型开始,服务器选型团队通常会在年底根据业务需求特点来制定服务器套餐型号,套餐型号会发给 RA 团队。
需求
OP 依据 RA 发布的套餐型号,按照业务存储、计算对服务器需求进行量化,提出服务器数量需求。
预算
RA 会召集各业务负责人对提出的服务器需求进行 review,确定最终的预算(包含套餐型号、机房等多个纬度的信息)。
采购
OP 会根据自己的预算额度进行服务器的采购需求发起,RA 会通过立即采购+备机池两种方式满足 OP 的需求。
到货
以采购为例,服务器到货后,会进行到货确认(确认包装等基本信息),然后安排上架,加电、装系统,装完系统后进行详细的到货验收(包含主板、CPU、内存、硬盘等部件信息,后面会具体提到)。
交付
装好系统,做好初始化配置后把系统交付给 OP。这个时候会部署 OS 层、硬件层的监控。
变更
OP 会在服务器上部署好应用程序,日常会发起基础服务(IP、DNS、安全、负载均衡接入接出等)变更,还会发起搬迁、替换等变更,如果硬件有故障也会发起故障处理变更操作。
下线

过保替换或者故障下线,回收再利用。对于规模场景会对硬件进行差异化回收,例如 CPU、磁盘、内存要根据新旧程度、厂商分布来进行分类回收再利用。

