我们为什么叫「递归」
“递归” (recursion) 是一种在程序设计语言中被广泛使用的算法。它有两大特点,一是调用自己,二是化繁为简。我们当中那些优秀的技术人又何尝不是如此?他们以身作则,用实际行动影响身边的人,规范了流程、提高了效能,使整个团队从中得益。这就是我们「递归」栏目的初心,记录平凡腾讯技术人的不平凡。
在腾讯有这么一群人,百万台服务器在他们眼中运转,千亿兆数据传输由他们护航——他们是坚守在互联网数据中心(IDC)的运维人。日复一日的例行巡检,天天与硬件设备打交道的他们如何耐住寂寞,并且在其中突破成长?业务规模的飞速发展、服务器数量的几何级增长又对他们的技术能力提出了哪些要求?
《递归3》第三集,让我们跟随一位15年数据中心运维人的视角,探秘这个“在一切之后,更在一切之前”的硬核团队。
作为一个15年的IDC运维人,肖善领见证了腾讯数据中心的许多重要时刻。其中最具标志性的,便是腾讯首个自建机房——深圳宝安数据中心的落成。自此,腾讯数据中心团队白手起家,在学习与探索中踏出了自建数据中心发展的第一步。
肖善领是第一批入驻宝安机房的运维人,当时分工没有那么细,从基础设施建设到IT设备运维,他都要参与负责。十几年前机房的监控告警不够全面和及时,故障点不容易找到。“你收到一个漏水告警,你可能要掀一个屋子的地板,然后一条条的去找。”
对那时刚刚入行的肖善领来说,每一天都面临新的挑战:面对数据中心的不同的工作,他需要快速熟悉掌握;面对告警和故障,又要求他要耐心细致地排查和处理。而这些不及时、不全面的告警系统,以及不便于快速排障的机器部署规划,也成为肖善领和他团队的同事进行机房性能优化的原点。
“第一次按配电柜开关的时候,我手都是抖的。”
想到自己一个轻微的动作,关系着无数业务的稳定运行,肖善领不由觉得自己作为运维肩负的责任重大。为了能更好地支持业务,自己要学的东西有很多,而机房本身就是一座巨大的知识宝库。
随着业务体量的增加,服务器数量在不断扩大,数据中心的技术也在不断演进。肖善领开始要接触到机房建设的工作。从选址、规划、建设,最终交付运营,每一步都有多门学科知识蕴藏其中,不仅包含风火水电、消防等专业,还要熟悉事件规划及管理能力。
管理一个机房,也不单单是“抗下设备、刷个配置、管好人、不出事”这么简单,而是要当成一个小公司去运营,安全、成本、效率都缺一不可。
这些不断涌现的新问题、不断演进的新技术,更加激发了肖善领由钻研探索到挑战征服的正向循环回路。正如肖善领所说:“最开心的事当然是又拿到新的机房,我们运维人又有了新的用武之地”。
这个机房规划多少个机架? 如何搭配变压器、UPS、柴发、冷机等设备? 如何设计柴发、冷机设备的启动逻辑? 市电中断了,是先启动柴发,还是先切换另一路市电?
对于不同的机房,配置的逻辑不尽相同。“把这些逻辑了解清楚了,你会觉得挺有趣的。在你研究的过程中,也能学到很多东西。”
在不同阶段,思考的东西不一样,机房的建设技术也在突飞猛进——比如第二代的冷通道技术方案,第三代的自研MDC机房,第四代的T-block机房。机房从之前仅能支撑1万台服务器提升到能够支撑180多万台,PUE从第一代的1.8降到1.25以下。
这些成绩不是一蹴而就的,这些技术也不是一朝一夕就能够完全掌握的,靠的是整个IDC所有同事经年累月的苦心钻研和探索。
谈到机房运维重复性的工作,肖善领认为,日常规律性的巡检只是工作的一部分,只要“沉下心来仔细体会机房的容量配置、逻辑,以及学习层出不穷的新技术,其实就不会觉得枯燥和无聊了。”
“我看中的不是它的「苦」,而是它的「奋」——奋发图强。”
机房运维是一个非常考验耐心和寂寞的岗位,俗称是“业务背后的人”——不出事的时候你不会感知到他们的存在,一出事情可能才会想到,原来还有这一群人在背后支撑着。
同时,数据中心运维也是一个需要不断提升自己能力的岗位,作为一名运维人员要保持学习心态,不满足于运维的状态,多提问、琢磨和钻研,才能在这个领域有更深远的成长。