發(fā)布日期:2023-09-12 16:41:44
01. 故事背景
IT運(yùn)維部門平均每月都會(huì)接收1-2次內(nèi)部辦公系統(tǒng)訪問(wèn)緩慢的用戶反饋或投訴,月月被投訴,IT不勝其煩。經(jīng)排查,絕大部分時(shí)候是由于與某個(gè)應(yīng)用有關(guān)的Windows服務(wù)器的CPU資源占用奇高,導(dǎo)致系統(tǒng)無(wú)法響應(yīng)用戶請(qǐng)求,從而產(chǎn)生“慢”的現(xiàn)象。
02. 問(wèn)題排查
在羊城晚報(bào),內(nèi)部辦公(OA)系統(tǒng)需要遵循“報(bào)業(yè)網(wǎng)絡(luò)安全等保第二級(jí)”的要求,對(duì)服務(wù)器日志進(jìn)行集中收集和留存。
羊城晚報(bào)使用的日志審計(jì)系統(tǒng),采用的時(shí)C/S架構(gòu),需要在每臺(tái)服務(wù)器上安裝一個(gè)客戶端,該客戶端會(huì)收集那臺(tái)服務(wù)器產(chǎn)生的日志,并將日志轉(zhuǎn)發(fā)到集中日志接收和存儲(chǔ)系統(tǒng)。
可能是bug等原因,安裝在Windows服務(wù)器上的日志收集客戶端軟件,時(shí)不時(shí)“發(fā)瘋”一樣搶占CPU資源,導(dǎo)致資源耗盡,響應(yīng)卡死。該客戶端安裝在linux服務(wù)器上卻一切正常。
03. 臨時(shí)方案
臨時(shí)的故障解決方法是在Windows服務(wù)器上,將該日志收集客戶端先停掉,再次啟動(dòng),故障即可解決。
羊城晚報(bào)數(shù)次找到日志審計(jì)系統(tǒng)的廠家,要求廠家解決此問(wèn)題,但廠家反饋是自身日志審計(jì)系統(tǒng)是基于開源社區(qū)的工具進(jìn)行二開,該問(wèn)題屬于原始工具的問(wèn)題,他們也無(wú)法徹底處理,并且只在Windows服務(wù)器上不定時(shí)出現(xiàn),他們暫時(shí)不會(huì)花精力投入研究,建議客戶每次問(wèn)題出現(xiàn)后,就手動(dòng)處理,但每次問(wèn)題出現(xiàn)時(shí),都伴隨對(duì)IT部門的投訴。
*廠家推測(cè):客戶端在向集中日志存儲(chǔ)系統(tǒng)傳送日志時(shí),如果出現(xiàn)失敗(比如網(wǎng)絡(luò)中斷),會(huì)再次嘗試,這種再次傳送行為在Windows系統(tǒng)上,可能觸發(fā)了一些兼容性問(wèn)題,導(dǎo)致嘗試次數(shù)越多,舊的資源不會(huì)被釋放,同時(shí),不斷搶占新資源,最終導(dǎo)致服務(wù)器資源“耗盡”。
04. WeOps應(yīng)對(duì)及效果
用WeOps監(jiān)控告警,先于用戶發(fā)現(xiàn)該問(wèn)題,并在用戶保障前處理,避免用戶投訴。
① 監(jiān)控所有Windows服務(wù)器的資源情況,并設(shè)定告警規(guī)則,按照“提醒”“預(yù)警”“致命”三個(gè)層級(jí),發(fā)送告警通知給IT管理員,管理員手工處理,與用戶投訴搶時(shí)間。
② 計(jì)劃進(jìn)一步優(yōu)化到自動(dòng)化處置(技術(shù)上可行,但處置風(fēng)險(xiǎn)和管理要求在評(píng)估中),如告警后無(wú)人處理,則等待一段時(shí)間后,WeOps自動(dòng)化處置并記錄,無(wú)需人為干預(yù)。
WeOps監(jiān)控告警還幫助羊城晚報(bào)加快發(fā)現(xiàn)其它生產(chǎn)故障,例如采編系統(tǒng)抽圖異常、通訊社稿件無(wú)法入庫(kù)到編輯系統(tǒng)稿件庫(kù)等,提升核心系統(tǒng)的可用性。
「WeOps監(jiān)控告警不僅幫助了羊城晚報(bào)的OA訪問(wèn)慢問(wèn)題,還加快發(fā)現(xiàn)其它生產(chǎn)故障,例如采編系統(tǒng)抽圖異常、通訊社稿件無(wú)法入庫(kù)到編輯系統(tǒng)稿件庫(kù)等,提升核心系統(tǒng)的可用性。」
羊城晚報(bào)隨著業(yè)務(wù)的迅速發(fā)展,羊城晚報(bào)IT系統(tǒng)架構(gòu)愈加復(fù)雜,IT設(shè)備的數(shù)量和種類也在與日俱增。如何及時(shí)發(fā)現(xiàn)故障,預(yù)防故障,從而縮短故障恢復(fù)時(shí)間,降低故障發(fā)生率,對(duì)保障IT系統(tǒng)的可靠性與高可用性至關(guān)重要,羊城晚報(bào)計(jì)劃建設(shè)一體化運(yùn)維平臺(tái),為社內(nèi)構(gòu)建IT資源的集中監(jiān)控、統(tǒng)一告警和故障自動(dòng)化處置等能力,支撐核心業(yè)務(wù)穩(wěn)健運(yùn)行。
中遠(yuǎn)海運(yùn)特種運(yùn)輸股份有限公司(簡(jiǎn)稱:中遠(yuǎn)海運(yùn)特運(yùn)),隸屬于中國(guó)遠(yuǎn)洋海運(yùn)集團(tuán),主營(yíng)特種船運(yùn)輸及相關(guān)業(yè)務(wù),致力于打造世界一流的特種船隊(duì)。目前擁有規(guī)模和綜合實(shí)力居世界前列的特種運(yùn)輸船隊(duì),經(jīng)營(yíng)管理各類型船舶100多艘300多萬(wàn)載重噸。覆蓋近百個(gè)國(guó)家和地區(qū)、200多個(gè)港口的全球服務(wù)網(wǎng)絡(luò)......
港華集團(tuán)為香港中華煤氣在內(nèi)地投資及營(yíng)運(yùn)管理的業(yè)務(wù)組合,自1994年進(jìn)入內(nèi)地以來(lái)持續(xù)深耕燃?xì)馐袌?chǎng),業(yè)務(wù)覆蓋天然氣上、中、下游,目前在24個(gè)省、自治區(qū)及直轄市經(jīng)營(yíng)逾300個(gè)燃?xì)忭?xiàng)目,服務(wù)客戶逾4000萬(wàn)戶......
申請(qǐng)演示