免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
數(shù)據(jù)驅(qū)動的智能運(yùn)維平臺

導(dǎo)語:伴隨著各類高新技術(shù)的出現(xiàn),“人工智能”一詞越來越多地出現(xiàn)在人們的日常生活中,而運(yùn)維朋友常聽到與自身工作息息相關(guān)的便是智能運(yùn)維了。

但在當(dāng)前,國內(nèi)大部分的智能運(yùn)維并沒有完全落地,整個(gè)行業(yè)處在一個(gè)初期的探索階段。因此,很多運(yùn)維人或多或少都有這樣的疑問:一個(gè)傳統(tǒng)企業(yè)的智能運(yùn)維之路該如何走?AIOps 的架構(gòu)設(shè)計(jì)與組成究竟從哪里落地?今天,小編就為大家?guī)砹巳罩疽桩a(chǎn)品總監(jiān)饒琛琳對于智能運(yùn)維平臺建設(shè)的演講分享實(shí)錄。


本篇分享,主要從運(yùn)維需求的源頭出發(fā),逐步推導(dǎo)出 AIOps 的架構(gòu)設(shè)計(jì)與組成,在推導(dǎo)過程中,饒琛琳詳細(xì)介紹了時(shí)序預(yù)測、異常檢測、模式概要的分析原理與實(shí)現(xiàn)方式的具體場景,以及對應(yīng)的開源項(xiàng)目選擇。實(shí)錄詳情如下,還等什么,快來收干貨吧!

講在前面

今天分享的是數(shù)據(jù)驅(qū)動的智能運(yùn)維平臺,可以看到,標(biāo)題有兩個(gè)點(diǎn),第一個(gè)是平臺,第二個(gè)是數(shù)據(jù)驅(qū)動。主要是分享平臺本身的主件架構(gòu),重點(diǎn)放在一些與數(shù)據(jù)分析相關(guān)的細(xì)節(jié),包括對異常檢測、時(shí)序預(yù)測、模塊聚類等場景的剖析。


我在參與編寫《企業(yè)級 AIOps 實(shí)施建議》白皮書期間,與騰訊、華為手機(jī)的一些朋友在討論“智能運(yùn)維”時(shí)候,得到了一個(gè)比較有趣說法:我們可以把 AIOps 進(jìn)行分級,像“異常檢測”這樣的細(xì)節(jié)點(diǎn),就認(rèn)為它是一個(gè)原子場景,不用再細(xì)分,或者是引用周志華教授的說法,稱其為“學(xué)件”,這種學(xué)件,類似于程序中的 API 或公共庫,可以放到四海而皆準(zhǔn);再往上層就是類似于“根因分析”的串聯(lián)應(yīng)用,通過多種算法、多個(gè)原子場景組建出來的串聯(lián)組合場景;再往上便是更高級的場景,最終達(dá)到終極 AIOps 。今天分享的皆是原子場景的使用方式。

談?wù)?AIOps

怎么構(gòu)建一個(gè) AIOps 平臺?我們先要確定目的,然后再談如何達(dá)到目的。


在定義 AIOps 時(shí)畫了一張圖,除了中間有機(jī)器學(xué)習(xí)、BigData、Platform 外,外層的內(nèi)容就是監(jiān)管控,這也就是做 AIOps 的目的。只不過是在做監(jiān)管控時(shí),要使用一些新的方式,以減輕運(yùn)維的工作量。

與傳統(tǒng)運(yùn)維相比,智能運(yùn)維可以更靈活、更易用,并且快速探索數(shù)據(jù)。比如有 1000 臺服務(wù)器,如果沒有一個(gè)統(tǒng)一的平臺,要發(fā)現(xiàn)問題會非常麻煩。


探索和實(shí)驗(yàn)平臺是什么意思呢?這其實(shí)是總結(jié)了運(yùn)維人員的一個(gè)工作狀態(tài):猜測、試錯(cuò),如果試錯(cuò)不對,再進(jìn)行下一次試錯(cuò),即一個(gè)探索發(fā)現(xiàn)的過程。如果這個(gè)過程執(zhí)行不夠快,就意味著解決故障的速度會慢下來。因此,我認(rèn)為,這個(gè)快慢問題對于運(yùn)維來說非常重要的一個(gè)點(diǎn)。

從實(shí)際情況來看,AIOps 平臺里應(yīng)該有哪些東西?我覺得下面的描述很有趣,數(shù)據(jù)湖,即存儲采集數(shù)據(jù),還有自動化系統(tǒng)、記錄系統(tǒng)、交互系統(tǒng)、監(jiān)控生態(tài)圈。

將這幾個(gè)系統(tǒng)拆分一下,我們可以發(fā)現(xiàn),監(jiān)控系統(tǒng)和交互系統(tǒng)在運(yùn)維的分類中比較混淆。一般來說,監(jiān)控系統(tǒng)負(fù)責(zé)的只是把數(shù)據(jù)抓下來,然后去判斷是不是有問題,但是實(shí)際上監(jiān)控系統(tǒng)還要負(fù)責(zé)一個(gè)重要的流程,也就是這個(gè)問題和其他問題有沒有聯(lián)系?應(yīng)該把這個(gè)問題發(fā)給誰?發(fā)送時(shí)只能告訴有這么一個(gè)問題,還是描述更多信息?這段流程要比數(shù)據(jù)采集部分更重要。要做好支撐運(yùn)維目的的平臺,就需要將其單獨(dú)拆分考慮。


這張幻燈看起來好像和 AI 沒有太大的關(guān)系,只要具備這些系統(tǒng),就可以承認(rèn)這是一個(gè) Ops 平臺了,但是在這個(gè)平臺中,AI 是什么?

下圖是阿里云 AI 平臺的一張截圖,類似于這種的機(jī)器學(xué)習(xí) Web 平臺,市面上應(yīng)該有三四十種,但這種平臺對運(yùn)維來說并沒有實(shí)際的意義。

我們運(yùn)維人真正需要的是機(jī)器學(xué)習(xí)在運(yùn)維工作中的運(yùn)用。AppDynamics 的 2016 年度總結(jié)中提出一些對于 APM 廠商來說可以做出的 AI 場景,可以對這些內(nèi)容進(jìn)行拆解,得出運(yùn)維人的真正需求。

我這里提供一種很好的拆解方式,下圖是《 Google SRE book 》書中的一張圖,對于運(yùn)維人員來說,最重要的還是要去解決底層需求,包括監(jiān)控、事件響應(yīng)、根因分析、CICD、容量規(guī)劃、部署,將這張圖與上圖中 AI 應(yīng)用場景進(jìn)行對照,便會得到從技術(shù)到需求應(yīng)用之間的關(guān)系。

從對應(yīng)的關(guān)系中可以看出,很多鏈條是相通的,而最終的目的都是要做好一個(gè)監(jiān)控,即最底層的需求。此外,還有一條鏈?zhǔn)恰案蚍治?智能報(bào)警-自動化”。也就是上面的鏈條發(fā)現(xiàn)故障,最后一條鏈發(fā)出報(bào)警,并明確后續(xù)流程。

典型應(yīng)用場景
時(shí)序預(yù)測

下面主要聊一下兩個(gè)大鏈條里幾個(gè)最常見、比較好入手的場景。第一個(gè)是時(shí)序預(yù)測,預(yù)測這個(gè)話題非常大。在與客戶交流時(shí),也會被問到一些離譜的預(yù)測需求,但真正可落地的需求,還是那些數(shù)據(jù)量足夠大、細(xì),且全面,同時(shí)預(yù)測的是比較細(xì)致情況的需求。

即使是靠譜的未來預(yù)測需求,也依然是太大的話題。例如下圖,有了時(shí)序數(shù)據(jù),以紅框?yàn)辄c(diǎn),中間的藍(lán)線是數(shù)據(jù)實(shí)際情況,剩下三條線是用了三種不同的預(yù)測算法得到的預(yù)測結(jié)果,你會發(fā)現(xiàn)依然千差萬別。


因此,即便有數(shù)據(jù),在要求不高的情況下,能不能做依然是一個(gè)需要?jiǎng)澐值膯栴}。

回到運(yùn)維領(lǐng)域,下面幾張圖是大家比較常見到的序列,對于四種常見的序列情況我們可以想到它應(yīng)該怎么走,這時(shí)就可以想辦法讓機(jī)器去想。

對于以上幾張圖來說,可以用統(tǒng)計(jì)學(xué)上的辦法去做時(shí)序預(yù)測,也就是指數(shù)平滑,從一階、二階、三階持續(xù)運(yùn)算,α、β、γ 會越來越多。


如果有 100 萬條這樣的線,依次去配 α、β、γ,那工作量將會非常浩大。就這么幾個(gè)參數(shù)、十幾條線,可能就要花費(fèi)兩三個(gè)月的時(shí)間來做,如果說所有的監(jiān)控指標(biāo)全這么做,那肯定是不現(xiàn)實(shí)的。

在此基礎(chǔ)上,就可以考慮用一些減輕人工作量的辦法,我們可以用各種不同統(tǒng)計(jì)學(xué)里的函數(shù)確定情況,最后獲取一個(gè)相對最好的MSE,確定最佳參數(shù),這樣工作量就會減輕一些。

對于時(shí)序預(yù)測的開源選擇有很多,除了剛才講到的 RRDtool 、Holt-Winters 外,還有 Facebook、hawkular 的開源項(xiàng)目。


前面講的對自動化調(diào)參的過程,很多具體的細(xì)節(jié)來自 Redhat 項(xiàng)目,雖然主項(xiàng)目已經(jīng)沒有更新,但是這個(gè)子項(xiàng)目還是推薦大家看一下。

異常檢測

第二個(gè)場景是異常檢測。其實(shí)預(yù)測本身就是異常檢測的一種方式,但異常檢測并不只是這種方式。例如下面這兩種,雖然是比較離譜的情況,但并不代表在長時(shí)間維度下不會出現(xiàn),這種情況應(yīng)用任何平滑的方法,對這條線的異常檢測都沒有任何意義。

再如下面這種線,在不同的障礙階段差別很大,但用平均值的話,整個(gè)這一段中平均值都在一條線上,根本無法判斷這條線的任何區(qū)別。

此外,異常檢測還要考慮一個(gè)最基本的同環(huán)比,也要考慮同比的魯棒性。

這里可以介紹一下 datadog 的異常檢測,提供 4 種檢測方法, Basic 采用的是四分位方法,Agile 用的是 SARIMA 算法,Robust 用的是趨勢分解,Adaptive 在我看起來,采用的是 sigma 標(biāo)準(zhǔn)差。

下面是在不同場景下,這四種不同算法對這一條線是否異常的判斷,我們可以看到,如果不需要對本身業(yè)務(wù)的理解,單純就是一個(gè)算法,一切都正常,如第一個(gè)想過對比,但在實(shí)際工作中卻不太可能。


所以當(dāng)我們真的要去做異常檢測時(shí),必須對業(yè)務(wù)要有一定的了解,明白 metric 這條線背后代表的含義,才能對各種算法進(jìn)行選擇,這個(gè)地方?jīng)]有萬能鑰匙。

對于異常檢測的開源庫選擇,有些是原子的,有些是組合的。Etsy 的 skyline 是比較高級的場景,里面帶有數(shù)據(jù)存儲、異常檢測分析、告警等;Twitter、Netflix、Numenta 是純粹的機(jī)器學(xué)習(xí)算法庫,沒有任何附加內(nèi)容;Yahoo 的 egads 庫可以算是異常檢測的原子場景,比 Twitter 和 Netflix 層級稍高。

模式聚類

第三個(gè)要講的是數(shù)據(jù)概要-文本聚類。我們知道,前面講的兩類都是監(jiān)控 metric 情況,但是一些故障單純看 metric 是無法找出故障的。在排障過程中可以看幾條線,包括時(shí)間相關(guān)性或者時(shí)序聚類,也可以做根因分析,但這些還不足夠。

我這邊可以提供的是另外一條思路,日志易是一款日志分析產(chǎn)品,企業(yè)有各種各樣的系統(tǒng),產(chǎn)生各種各樣的日志,如果通過ETL的方式把日志收集起來,可能要寫上萬個(gè)表達(dá)式,是不可能完成的任務(wù)。

我們可以看到下圖有四行日志的輸出代碼,可以看出日志格式和種類是有限的。假如這四行代碼打了 1000 萬條,其實(shí)也就是這四行代碼打的而已。如果從人的理解上看,這四行代碼就說了兩件事:1. 有一個(gè) User 登錄了,2. 定義了一個(gè)常量。我們要干的是什么?就是把 1000 萬行代碼反推到四個(gè)不同的日志樣式。

另外一個(gè)細(xì)節(jié),在處理自然語言時(shí),逗號還是分號沒有任何意義,我們關(guān)注的是文本,但日志里面的每一個(gè)符號都很關(guān)鍵,是一個(gè)獨(dú)特的聚類聚合方式。如果我們不想上機(jī)器學(xué)習(xí)技術(shù),只想先跨出第一步,就可以利用這個(gè)特性,除去文本,留下這堆標(biāo)點(diǎn)符號。

替換之后,留下的內(nèi)容也足夠反映出一些信息。例如下面這個(gè)實(shí)例,這個(gè)思科的 ASA 日志情況,進(jìn)行處理后,得到了一些一模一樣的標(biāo)點(diǎn)符號,我們就可以推測應(yīng)該是同樣的內(nèi)容,這個(gè)是最簡單的方式,因?yàn)楸容^粗略,所以推測得也不是特別有效。

可以再往前一步,加上一點(diǎn)聚類的東西,先走 TFIDF ,提取一些文本的特征值,再走一個(gè) DBSCAN ,拿每個(gè)聚類的樣本情況來看。當(dāng)看到某個(gè)樣本不太對,就單獨(dú)把這個(gè)樣本拿出來,調(diào)整參數(shù),將聚類里的日志重新聚類,再觀察一下情況。

聚類的思路是相通的,先提取,做聚類,聚類出來有問題,再切分一個(gè)小類。但是實(shí)際上線使用的話,還是有很多問題需要考慮的。用 DBScan 聚類的運(yùn)行時(shí)間比較長,是一個(gè)偏離線運(yùn)行狀態(tài),而且占用的資源也多。


除了這類算法上的問題,還有一個(gè)思路上的問題,單純只是完全的聚類,沒有辦法合適地判斷邏輯代碼,也就不足以達(dá)到知道它的原始代碼是什么樣的目的。

這里我們參考一下日本電器美國實(shí)驗(yàn)室曾經(jīng)發(fā)表的一篇論文,他們的算法叫 HLAer,原理是不直接上一大堆文本的聚類方式,而是反過來去推導(dǎo)。

我們做的是運(yùn)維日志,大多數(shù)情況下,運(yùn)維日志有很多東西不需要耗費(fèi) CPU 處理。第一個(gè),像 Num、Date、IP、ID 等都是運(yùn)維 IT 日志里一定會出現(xiàn)的,但在關(guān)注模式時(shí)不會關(guān)注這些。因此,可以在開始就把這些信息替換,節(jié)省工作量。


第二個(gè)是對齊,對齊也是耗資源的,如何減少對齊的時(shí)候強(qiáng)行匹配資源呢?可以開始先走一個(gè)距離極其小的聚類,這樣每一類中的原始文本差異非常小。此時(shí)意味著第二步得到的最底層聚類去做對齊時(shí),在這個(gè)類里的對齊耗損就會非常小,可以直接做模式發(fā)現(xiàn)。


到第四步的時(shí)候,雖然還是聚類,但是消耗的資源已經(jīng)非常少,因?yàn)榻o出的數(shù)據(jù)量已經(jīng)很小,可以快速完成整個(gè)速度的迭代。

這是一個(gè)事例,首先將兩條日志去做分層,再去做一個(gè)發(fā)現(xiàn),然后去做一個(gè)對齊和一個(gè)模式發(fā)現(xiàn)。通過這種方式,可以把所有日志一層一層往上推,最終把整個(gè)結(jié)果全部推導(dǎo)出來。

比如一開始給出的是 15 種,覺得不合適,往下走一層,看 13、14 是怎么樣的,還不合適,再往下走一層,看 9、10、11、12 是什么,總有一層是合適的,就可以把前面的 8 條日志得到一個(gè)樹狀結(jié)構(gòu)。

當(dāng)然,為了方便使用,可以提前中止結(jié)構(gòu)樹生成,不一定要推到頂上那個(gè)點(diǎn)。一般會在提前、合適的情況下,終止這個(gè)數(shù)的生成,從機(jī)器辦法來說,可以記錄下每一層剩下多少個(gè)這樣的模式,找到拐點(diǎn),這個(gè)拐點(diǎn)能夠證明再往下已經(jīng)不方便合并即可,但是這種方式計(jì)算量比較大。


因此,目前會選擇一個(gè)簡單但是對肉眼比較合適的方式,即每一行都有分詞,如果一行里面分了 20 個(gè),其中,要被替換成新的東西超過了 5%,覺得不太合適看,這個(gè)時(shí)候就可以停下來了。


本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊舉報(bào)
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
日志易AIOps實(shí)踐:日志數(shù)據(jù)大有用途
阿里巴巴大數(shù)據(jù)運(yùn)維之道
必示科技2019智能運(yùn)維技術(shù)應(yīng)用大會:國內(nèi)首款可編排智能運(yùn)維平臺亮相
AIops | 一文了解日志異常檢測
AIOps在美團(tuán)的探索與實(shí)踐——故障發(fā)現(xiàn)篇
首發(fā)|半年內(nèi)完成兩輪融資,「擎創(chuàng)科技」再獲GGV千萬美元級B 輪融資
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服