也許會(huì)讓某些人瀏覽器里激戰(zhàn)正酣的超英大片“轉(zhuǎn)起了圈圈”;亦或是讓即將完成“三殺”成就的電競高手們,連擊戛然而止;也可能讓某一群“剁手黨”支付失敗,搶購不到心儀的爆款;更有甚者,可能影響業(yè)務(wù)、影響生產(chǎn)線,分分鐘幾十、幾百萬的損失。
在千千萬萬的軟件、硬件或系統(tǒng)工程中,要觸發(fā)故障的“蝴蝶效應(yīng)”引起宕機(jī),可能只需要一個(gè)文件的損壞,甚至短短一行代碼的錯(cuò)誤就足矣。
數(shù)字網(wǎng)絡(luò)中沒有百分百穩(wěn)定的系統(tǒng)。比起追求絕對不出錯(cuò),更重要也更現(xiàn)實(shí)的,是追求未雨綢繆、靈活應(yīng)對、迅速糾錯(cuò)。
面對日新月異爆炸性增長的時(shí)代,守衛(wèi)在數(shù)字系統(tǒng)安全穩(wěn)定一線的,有一群特殊的“幕后英雄”!
“運(yùn)維”二字,一言以蔽之,就是“維護(hù)軟硬件系統(tǒng)的穩(wěn)定運(yùn)行”。在中亦一線工程師看來,“維護(hù)”分為兩種:被動(dòng)維護(hù)和主動(dòng)維護(hù)。
所謂被動(dòng)維護(hù),就是通過運(yùn)維團(tuán)隊(duì)的快速反應(yīng)和即時(shí)修復(fù),守護(hù)服務(wù)器和現(xiàn)網(wǎng)的安全穩(wěn)定。此時(shí)的運(yùn)維工程師,扮演的是一個(gè)“救火隊(duì)員”的角色。
在這個(gè)“打地鼠”式的被動(dòng)維護(hù)過程中,隨著總結(jié)經(jīng)驗(yàn)的積累,也出現(xiàn)了一些自動(dòng)化的手段。對于一些高頻問題,通過預(yù)先編寫設(shè)置好的腳本,可以提升解決效率。
“傳統(tǒng)的被動(dòng)運(yùn)維更像一個(gè)身處后方的守護(hù)者,出了問題就快速地恢復(fù)解決?!币痪€工程師說,“在中亦,我們更愿意變被動(dòng)運(yùn)維為主動(dòng)運(yùn)維!”
上周,我們收到了某銀行客戶的感謝信,客戶在信中對“主動(dòng)運(yùn)維”的一線工程師表達(dá)了感謝。
具體情況就是在夜間執(zhí)行核心批量(涉及客戶利息結(jié)算)的時(shí)候,行方核心系統(tǒng)相關(guān)團(tuán)隊(duì)對核心進(jìn)行版本升級時(shí),有部分jdk相關(guān)插件安裝時(shí),選擇的時(shí)區(qū)有誤,與北京時(shí)間相差8小時(shí)。
如果0點(diǎn)執(zhí)行批量后,會(huì)因?yàn)槿掌诓幌喾麑?dǎo)致客戶賬戶余額異常,會(huì)引起較大的影響,可能需要進(jìn)行大規(guī)模數(shù)據(jù)恢復(fù)。行方在升級完之后復(fù)核時(shí)沒有發(fā)現(xiàn)問題,被中亦一線工程師團(tuán)隊(duì),在執(zhí)行批量之前發(fā)現(xiàn)并且上報(bào)了問題,沒有繼續(xù)進(jìn)一步操作。
蝴蝶效應(yīng)的存在,讓任何一個(gè)小問題,都有可能演變成巨大損失。
8小時(shí)時(shí)差,主要是在于每天0點(diǎn)會(huì)做利息結(jié)算, 時(shí)間遲滯8小時(shí)會(huì)導(dǎo)致日期切換不到第二天,就會(huì)少收取一天的貸款利息,損失的金額也將十分巨大!
“也算是運(yùn)氣比較好”,一線工程師說“當(dāng)然跟我們平時(shí)工作比較細(xì)心嚴(yán)謹(jǐn),主動(dòng)運(yùn)維,主動(dòng)發(fā)現(xiàn)問題也有一定關(guān)系?!?/span>
沒有任何一個(gè)客戶和消費(fèi)者愿意忍受高延遲、頻宕機(jī)、數(shù)據(jù)丟失的體驗(yàn),IT環(huán)境一旦出錯(cuò),更可能影響千行百業(yè)和日常生產(chǎn)。
“軟件故障、硬件故障、機(jī)房故障、甚至人為操作所導(dǎo)致的故障,這些無處不在的隱患,實(shí)際上就是中亦工程師每天要面對的問題?!?a href="http://www.jymurui.com/" target="_blank" title="中亦科技">中亦科技專家團(tuán)隊(duì)工程師說。
前段時(shí)間專家團(tuán)隊(duì)工程師總結(jié)的《Linux內(nèi)核權(quán)限提升漏洞(CVE-2024-1086)解決方案》受到了客戶的高度認(rèn)可。
這件事情其實(shí)起源于客戶提出的漏洞問題——CVE-2024-1086是一個(gè)影響Linux內(nèi)核的高風(fēng)險(xiǎn)權(quán)限提升漏洞。由于Netfilter模塊的nf_tables子系統(tǒng)中存在釋放后重用(Use-After-Free)問題,這個(gè)漏洞允許本地經(jīng)過身份驗(yàn)證的攻擊者(包括具有低權(quán)限的用戶)利用該缺陷提升至root權(quán)限。
專家團(tuán)隊(duì)工程師起初收到的客戶反饋是碎片化的幾個(gè)小問題,在與客戶溝通交流后,立刻鎖定了漏洞,并且在解決問題之外,“庖丁解牛”從漏洞描述、影響范圍、各個(gè)版本影響情況、臨時(shí)規(guī)避方法等方面整理了解決方案,讓客戶更全面地了解了漏洞。
客戶在之后的行業(yè)交流中發(fā)現(xiàn),這個(gè)漏洞并非個(gè)例,將《Linux內(nèi)核權(quán)限提升漏洞(CVE-2024-1086)解決方案》分享給同行客戶,都收到了不錯(cuò)的反饋。于是,中亦項(xiàng)目經(jīng)理團(tuán)隊(duì)遍尋了所有可能遭遇問題的客戶,幫助客戶防患于未然。
在中亦,運(yùn)維工程師,既要“向前看”,緊跟技術(shù)潮流,不斷學(xué)習(xí)最新的運(yùn)維工具與技術(shù)趨勢,以適應(yīng)瞬息萬變的業(yè)務(wù)需求;也要“向下沉”,將運(yùn)維專家經(jīng)驗(yàn)沉淀下來,為團(tuán)隊(duì)賦能,讓智慧在實(shí)踐中開花結(jié)果。
“這種事情其實(shí)就是我們?nèi)粘5墓ぷ鳌保瑢<覉F(tuán)隊(duì)工程師說,“中亦的二三線工程師涉及的客戶面更廣,問題更復(fù)雜,習(xí)慣于‘向下沉’,庖丁解牛,思考更多,做的更多?!?/span>
是的,這就是中亦工程師的日常。
19年,6000余天,在中亦,像上面這兩件近期發(fā)生的“小”事兒,其實(shí)每天都在上演。無論是一線工程師還是專家團(tuán)隊(duì),運(yùn)維工作或許都沒有轟轟烈烈,有的只是日復(fù)一日,對服務(wù)質(zhì)量的堅(jiān)持,對IT環(huán)境穩(wěn)定的堅(jiān)守。
只要IT環(huán)境穩(wěn)定,運(yùn)維人甘愿一直做“無名英雄”!