华为云,春节保障纪实( 二 )
事实上 , 这已经不是传统意义上的运维团队了 。
无论是日常排除风险故障、维持系统稳定的红军 , 还是春节值守的“特战队” , 都来自华为云内部一只“训练有素”的团队——SRE 。
SRE这个概念 , 最早定义是“用软件工程的方法从事运维活动” 。在华为云这里还要更精细一点 , 诞生出了“确定性”的方法论 , 来达成“高可用”的目标 。
一言以蔽之 , 就是在设计产品时就考虑高可用的架构、并将风险控制做到动态清零、再加上智能化运维平台 , 来控制不确定性的风险 , 达成确定性的风控质量 。
SRE团队自主研发了一个智能运维平台 , 用数据驱动的方法 , 将运维过程变得标准化、自动化 。具体而言 , 这个平台不仅能实时记录运维数据 , 还能度量全流程各个环节的质量 , 真正做到缩短问题发现、故障定位和修复的时间 。
如今 , 平台的监控指标数量已经达到160亿/小时 , 运维系统用户数达到10000+ , 变更频率每分钟2次 , 兼顾智能运维和日志记录等功能 。
在智能运维平台以外 , SRE团队还会借助流量预估等工作 , 来进一步提升系统的可用性 , 降低风险发生的概率 。
具体来说 , 是通过特定的算法模型 , 结合指标对资源使用情况进行预估 。
在华为云背后 , 有一个博士军团 , 其中有专门的算法创新实验室 , 研究人员会协助流量预估人员进行算法调优 , 像近期实验室一篇关于用强化学习求解虚拟机调度问题的论文 , 已经被顶级期刊PatternRecognition接收 。
同时 , 还会借助云操作系统和全域调度等技术 , 高效“压榨”并分配有限的流量资源 , 包括采用“瑶光”智慧云脑 , 负责整个云的资源分配、部署、调动和供给 , 以及结合全域调度等技术 , 进一步精细化资源的利用效率等 。
目前 , 华为云系统的故障发生率也被压制在0.01%以下 , 即一年故障发生的时间保持在53分钟以内 。
数字世界的春节保卫战
事实上 , 华为云今年投入春节保卫战的人力 , 前后已经接近1000人 。
其中整个SRE团队几百人 , 更是一直处于“全员在线”的备战状态 。
某种程度上 , 他们与传统行业里的员工一样 , 是保障我们生活便利的春节值守人 。
只不过维度从线下的物理世界转变到了线上的数字世界 。
在运维行业干了20多年的张智认为 , 春节的味道其实并没有变 , 只是换了个地方过年 。
以前春节主要是在物理世界 , 但现在数字世界的春节可能比物理世界更热闹 。现在我在数字世界上 , 也可以跟朋友一起过春节、抢红包、刷视频 。
见证过不少同行灾难发生的他 , 认为这份值守不可或缺:
你不知道风险什么时候会发生 。但SRE可以真正降低遇到风险的可能性 。
从其他岗位转到SRE的石胜兵 , 虽然调侃了一下这个身份在春节中的特殊性:
SRE算是华为云背后的角色 。我们其实很少在像春节这样的节日中“露面” , 因为真出现的时候 , 往往都“不是一些好事” 。
但这份工作却让他感受到“新的春天”:
我在华为工作了二十年 , 来这个团队一年半 。原以为上个岗位就是职业生涯的最后一个 , 现在感觉新的春天到来 。
一方面体现在SRE本身 , 它是华为云最年轻的团队 。
另一方面 , 随着行业快速成长 , 年轻的SRE正成为云服务质量保障的中坚力量 。
其实这种对数字生活的保障 , 也并非孤例 。
平时出行的电子公交卡、一键打车 , 吃饭时的数字支付、生病时的在线预约 , 再到网购和线上游戏聚会 , 回想起来我们已经离不开数字化的生活 。
- 斗罗大陆h5万家灯火活动攻略(2022春节活动万家灯火玩法介绍)
- 光遇新春福娃礼包多少钱(2022春节礼包价格奖励介绍)
- “预制菜”安全不可小觑
- 【宣传推广】“绿马闹新春”表情包在春节前夕正式上线
- Epic2022春节特卖|Epic2022春节特卖(战地2042等多款3A大作新春打折新史低)
- 哈利波特魔法觉醒新春彩蛋|哈利波特魔法觉醒新春彩蛋(2022春节活动彩蛋位置一览)
- 光遇|光遇云顶浮石在哪?1月29日每日任务/季蜡位置/大蜡烛堆位置一览
- 观看入口来啦!“亲情中华·同心与共”2022华侨华人云端春节晚会蓄势待发!
- 华为4g新机1月25日获3c认证配备66w快充
- 华为氮化镓充电器的选择