亚洲狼友综合在线导航|国产在线拍揄自揄拍无码男男|跪求一个免费的黄色在线网址|国产r级片在线观看完整版视频|国产欧美亚洲日本视频|视频成人一二区啊轻点插|免费观看!毛片久热久|欧美成人高清导航|无码高清色情97视频在线|精品黄色成人网站在线观看

云系統(tǒng)中的告警質(zhì)量調(diào)研和告警優(yōu)化策略

本文發(fā)表于DSN2022(CCF-B),作者為楊天益(香港中文大學(xué)博士研究生),相關(guān)工作為華為-港中文聯(lián)合實驗室研究中產(chǎn)出。原文鏈接Characterizing and Mitigating Anti-patterns of Alerts in Industrial Cloud Systems

摘要

告警對于云系統(tǒng)異常時人工接入處理的及時性至關(guān)重要。告警的質(zhì)量會顯著影響云系統(tǒng)可靠性和云服務(wù)商的業(yè)務(wù)收入。在實踐中,由于云系統(tǒng)海量的告警數(shù)據(jù)中存在一些沒有信息量的、錯誤的、有誤導(dǎo)性的告警,使得oncall的工程師無法快速定位根因和修復(fù)故障。我們將這些無效的告警的稱為“告警的anti-pattern”。為了更好地理告警的anti-pattern,并提供可操作的措施來治理anti-pattern,本文首次對工業(yè)云系統(tǒng)中治理告警的anti-pattern的實踐進行了實證研究。我們研究了業(yè)界領(lǐng)先的云服務(wù)商華為云的告警策略和告警處理過程,研究結(jié)合了兩年內(nèi)數(shù)百萬個告警的定量分析,以及對18名經(jīng)驗豐富的運維工程師的調(diào)查。因此,我們總結(jié)了四種單獨的anti-pattern和兩種集體的anti-pattern。我們還總結(jié)了當(dāng)前治理告警anti-pattern的四種措施,以及告警策略配置的一些建議。最后,我們建議探索告警質(zhì)量(QoA)的自動評估,包括告警的指示性、精度和可操作性作為未來的研究方向,幫助自動檢測告警的anti-pattern。我們的研究結(jié)果對于優(yōu)化云監(jiān)控系統(tǒng)和提高云服務(wù)的可靠性具有重要價值。

圖片描述

云系統(tǒng)中海量的告警數(shù)據(jù)中存在一些沒有信息量的、錯誤的、有誤導(dǎo)性的告警。我們統(tǒng)稱這些問題為告警的反模式(反模式),本文主要是針對告警的反模式進行實證分析,并針對實際告警治理的實踐給出一些分析和建議。

圖片描述

針對告警的反模式,本文研究了以下四個研究問題:

  1. 告警中存在哪些反模式?
  2. 這些反模式是如何影響運維診斷告警的?
  3. 目前運維人員對于無效告警的應(yīng)對方式是什么?
  4. 目前如何避免無效告警?
告警中的反模式
  • 單個告警產(chǎn)生的反模式

    • 告警描述籠統(tǒng)不清晰,導(dǎo)致運維人員無法得到明確的結(jié)論,影響分析
    • 告警嚴(yán)重性不準(zhǔn)確,導(dǎo)致運維人員把時間浪費在處理不重要的告警上。而且由于云系統(tǒng)的迭代更新,嚴(yán)重性也會隨之改變
    • 不合適的/過期的告警生成規(guī)則。比如系統(tǒng)會對底層基礎(chǔ)架構(gòu)和上層業(yè)務(wù)都進行監(jiān)控并生成告警,雖然底層告警可能是某些故障的根因,但是由于容錯機制的存在,底層的告警一般對服務(wù)質(zhì)量不會有太大的影響。
    • 閃斷和震蕩告警。持續(xù)很短時間,或者反復(fù)在正常和異常直接切換,通常是因為告警策略太敏感
  • 告警風(fēng)暴
    • 重復(fù)告警:由相同告警策略生成,比如下圖中haproxy的告警占到了大約30%

圖片描述

一個告警風(fēng)暴例子中的重復(fù)告警

  • 級聯(lián)告警:由于模塊依賴和調(diào)用關(guān)系,由告警傳播生成
現(xiàn)有對反模式的回應(yīng)

當(dāng)告警數(shù)量比較少的時候,運維人員一般會手工處理每個告警,但是當(dāng)短時間內(nèi)生成告警數(shù)量較多的時候,通常會有以下幾種方式:

  • 告警屏蔽:對于噪聲類告警,設(shè)置規(guī)則屏蔽瞬時告警、反復(fù)切換的告警和重復(fù)告警
  • 告警聚合:對于非噪聲類告警, 對告警進行聚合
  • 告警相關(guān)性分析:
    • 告警策略的依賴:比如一個源告警會出發(fā)生成另一個告警,運維人員會更關(guān)注源告警
    • 根據(jù)云服務(wù)的拓?fù)溥M行相關(guān)性分析
  • 檢測新出現(xiàn)的告警:采用在線LDA的方式。用LDA主題模型,新興告警通常在過去一段時間沒有出現(xiàn)過,topic表現(xiàn)會不一樣
防止出現(xiàn)反模式告警
  • 華為云采取了一些告警規(guī)約并且定期對告警策略進行回顧,主要從下面三個方面來考慮:

    • 監(jiān)控對象是什么?和服務(wù)質(zhì)量強相關(guān)的數(shù)據(jù)應(yīng)該被監(jiān)控
    • 什么時候生成告警?
    • 告警的屬性對診斷是不是有幫助?
  • 如果嚴(yán)格遵守告警規(guī)約,可以有效地減少無效告警,但是是否遵守告警規(guī)約依賴于人工檢查。

未來研究方向
  • 告警質(zhì)量評估 (QoA) 的幾個維度
    • 告警的指示性。這個告警是否可以代表一個故障
    • 準(zhǔn)確性。告警能否正確反映異常的嚴(yán)重性
    • 可處理性。告警能否被有效地處理,與告警目標(biāo)和告警屬性有關(guān)
  • 未來工作:
    • 結(jié)合人工知識和機器學(xué)習(xí)方法從上述三個角度來評估告警,比如基于人工知識來從上面三個角度給出標(biāo)注,然后采用機器學(xué)習(xí)模型來學(xué)習(xí),形成閉環(huán)。
    • 對于以上三個屬性,可以考慮使用human-in-the-loop的方式訓(xùn)練模型。具體來講,運維工程師在處理告警時對告警質(zhì)量的三個維度分別進行打分,有了這些分?jǐn)?shù)之后,再使用多模態(tài)學(xué)習(xí)將告警質(zhì)量分?jǐn)?shù)與當(dāng)時系統(tǒng)的監(jiān)控指標(biāo)進行融合學(xué)習(xí),從而得到一個自動化判斷告警質(zhì)量的模型,并在系統(tǒng)運行時不斷優(yōu)化此模型。

圖片描述

(左)嚴(yán)格的告警生成策略

(中)自動化告警質(zhì)量檢測,不斷利用人的標(biāo)注訓(xùn)練機器學(xué)習(xí)模型

(右)對低質(zhì)量的告警及時優(yōu)化處理