使用ML預(yù)測(cè)磁盤(pán)故障、智能診斷部署,MSRA在云端將AIOps玩出高度
運(yùn)維是一家公司正常運(yùn)行的重要組成部分。為了保證在線(xiàn)體系的服務(wù)質(zhì)量和用戶(hù)體會(huì),公司運(yùn)維部分需求實(shí)時(shí)監(jiān)控體系運(yùn)行狀況,以便對(duì)反常及時(shí)進(jìn)行分析和處理。傳統(tǒng)的人工運(yùn)維辦法耗時(shí)耗力,之后呈現(xiàn)了使用很多自動(dòng)化腳本的自動(dòng)化運(yùn)維辦法,但跟著體系規(guī)模日益增長(zhǎng),海量用戶(hù)、大規(guī)模集群、雜亂的體系架構(gòu)自動(dòng)化運(yùn)維漸漸無(wú)能為力。
如何實(shí)時(shí)檢測(cè)反常、快速響應(yīng)毛病、猜測(cè)毛病、合理規(guī)劃容量等成為了重要研討課題。大數(shù)據(jù)和 AI 時(shí)代的到來(lái)使公司運(yùn)維邁入了智能化階段,智能運(yùn)維(AIOps)應(yīng)運(yùn)而生。
AIOps 是「Artifical Intelligence for IT Operations」的縮寫(xiě),由 Gartner 在 2016 年提出。據(jù)其解說(shuō),AIOps 有兩個(gè)主要組成部分,別離是大數(shù)據(jù)和機(jī)器學(xué)習(xí)。AIOps 需求遠(yuǎn)離數(shù)據(jù)孤島,在大數(shù)據(jù)渠道中將觀測(cè)數(shù)據(jù)(如在監(jiān)控體系和作業(yè)日志中發(fā)現(xiàn)的數(shù)據(jù))和互動(dòng)數(shù)據(jù)(如在突發(fā)事件和記載中發(fā)現(xiàn)的數(shù)據(jù))聚合起來(lái)。然后,對(duì)組合 IT 數(shù)據(jù)履行全面分析和機(jī)器學(xué)習(xí)戰(zhàn)略。終究取得自動(dòng)化驅(qū)動(dòng)的洞察力,這些洞察力能夠完成運(yùn)維渠道持續(xù)的修復(fù)和改進(jìn)。
圖源:Gartner
伴跟著各行業(yè)數(shù)字化轉(zhuǎn)型的趨勢(shì)以及近年來(lái)新冠疫情帶來(lái)的長(zhǎng)途作業(yè)、協(xié)同協(xié)作需求,云核算進(jìn)一步蓬勃發(fā)展。Gartner 研討副總裁 Sid Nag 以為云現(xiàn)已成為干流戰(zhàn)略,「下一代的產(chǎn)品方案,幾乎都是搭建于云渠道上的?!乖絹?lái)越多的使用服務(wù)轉(zhuǎn)向了云端,5G 也為云核算的發(fā)展注入了新的生機(jī)。可是,跟著越來(lái)越多的用戶(hù)上云,體系辦理正面對(duì)著前所未有的應(yīng)戰(zhàn)。
AIOps 與云服務(wù)的交融
在 1 月 13 日的微軟亞洲研討院「智能運(yùn)維」媒體交流會(huì),微軟亞洲研討院副院長(zhǎng)、微軟杰出首席科學(xué)家張冬梅以為,AIOps 應(yīng)經(jīng)過(guò)立異的 AI 或 ML 技能,有用且高效地規(guī)劃、構(gòu)建并運(yùn)營(yíng)大規(guī)模的雜亂云服務(wù)。
張冬梅。圖源:msra
其間,AIOps 又可分為不同的服務(wù)對(duì)象以及不同的服務(wù)方針:
AI for System(服務(wù) / 體系):規(guī)劃和構(gòu)建更可靠、更高功能和更高功率的高質(zhì)量服務(wù);
AI for DevOps(開(kāi)發(fā) / 運(yùn)維):使用智能工具為工程人員賦能,在 DevOps 中完成高生產(chǎn)力;
AI for Customer(客戶(hù)):經(jīng)過(guò)智能化和更好的用戶(hù)體會(huì),改進(jìn)客戶(hù)滿(mǎn)意度。
下圖為 AIOps 別離針對(duì)服務(wù) / 體系、開(kāi)發(fā) / 運(yùn)維和客戶(hù)的使用場(chǎng)景:
從使用場(chǎng)景能夠看出,AIOps 的研討主要聚焦于檢測(cè)、確診、猜測(cè)和優(yōu)化四個(gè)范疇,每個(gè)范疇包括的運(yùn)維使命不同,又各自面對(duì)不同的應(yīng)戰(zhàn)。咱們以檢測(cè)為例,包含了時(shí)刻序列的反常檢測(cè)、根據(jù)日志的反常檢測(cè)以及多維度變化檢測(cè)等使命,但檢測(cè)過(guò)程中面對(duì)著差異化需求、噪音數(shù)據(jù)、高緯度以及標(biāo)示數(shù)據(jù)缺少等應(yīng)戰(zhàn)。
一直以來(lái),微軟亞洲研討院致力于探索 AIOps 范疇的研討邊界。10 年前,率先開(kāi)發(fā)云智能以及 AIOps 相關(guān)范疇的研討,在該范疇提出了全新的辦法與規(guī)劃,如自動(dòng)體系規(guī)劃(Proactive System Design)、數(shù)據(jù)驅(qū)動(dòng)型安全布置(Data-driven Safe Deployment),并在 ICSE/FSE(軟件工程范疇)、OSDI/NSDI(核算機(jī)網(wǎng)絡(luò)體系范疇)以及 AAAI/IJCAI(人工智能范疇)等全球高影響力學(xué)術(shù)會(huì)議上發(fā)表論文 50 多篇。
其間,與天津大學(xué)智能與核算學(xué)部軟件工程團(tuán)隊(duì)、紐斯卡爾大學(xué)等協(xié)作完成的論文《 How Long Will it Take to Mitigate this Incident for Online Service Systems? 》更是取得了 ISSRE 2021 唯一最佳論文獎(jiǎng)。
實(shí)踐中的 AIOps 技能
利用大規(guī)模數(shù)據(jù)發(fā)掘、機(jī)器學(xué)習(xí)和人工智能技能,微軟亞洲研討院開(kāi)發(fā)了一系列 AIOps 立異技能,并現(xiàn)已在云體系的毛病猜測(cè)、反常檢測(cè)、智能確診、容量規(guī)劃、事端辦理等許多實(shí)際使用場(chǎng)景中落地,極大地提升了工業(yè)生產(chǎn)力、服務(wù)質(zhì)量和用戶(hù)體會(huì)和。研討成果現(xiàn)已使用到了微軟 Skype、OneDrive、Office 365、Azure 等許多在線(xiàn)服務(wù)中。
微軟亞洲研討院首席研討員林慶維以磁盤(pán)毛病猜測(cè)、安全布置確診和智能虛擬機(jī)預(yù)裝備(PPS)為例展示了 AIOps 在軟硬件毛病猜測(cè)、智能確診和智能化建議 / 提示等三個(gè)使用場(chǎng)景中的落地及完成作用。
首先,硬盤(pán)毛病猜測(cè)。在毛病產(chǎn)生之前,提前猜測(cè)以防止可能的損失是智能服務(wù)的殺手锏。咱們知道,硬件毛病是形成虛擬機(jī)(VM)宕機(jī)和重啟的最主要原因之一,而磁盤(pán)毛病又是形成硬件毛病的主要原因。在磁盤(pán)完全失效前,虛擬機(jī)就會(huì)遭到影響,并且磁盤(pán)數(shù)據(jù)存儲(chǔ)散布極點(diǎn)失衡,磁盤(pán)健康狀態(tài)也會(huì)遭到鄰近磁盤(pán)的影響,
針對(duì)這些特征,微軟亞研在論文《NTAM: Neighborhood-Temporal Attention Model for Disk Failure Prediction in Cloud Platforms》中提出了鄰域 - 時(shí)刻注意力模型(Neighborhood-Temporal Attention Model, NTAM),這是一種根據(jù)深度學(xué)習(xí)的全新磁盤(pán)毛病猜測(cè)辦法。此外,本文還提出了時(shí)刻漸進(jìn)采樣法(Temporal Progressive Sampling, TPS),一種用于處理極點(diǎn)數(shù)據(jù)失衡的數(shù)據(jù)增強(qiáng)辦法。
論文地址:https://dl.acm.org/doi/10.1145/3442381.3449867
下圖為 NTAM 模型概覽。微軟亞研在公共數(shù)據(jù)集以及從微軟 Azure 中收集數(shù)百萬(wàn)個(gè)磁盤(pán)創(chuàng)立的兩個(gè)工業(yè)數(shù)據(jù)集上對(duì)該模型進(jìn)行了評(píng)估。結(jié)果表明,NTAM 顯著優(yōu)于其他 SOTA 模型。更值得重視的是,NTAM 和 TPS 辦法現(xiàn)已使用到了微軟 Azure 和微軟 365 等云渠道中,并在工業(yè)實(shí)踐中取得收益。
其次,安全布置確診。不規(guī)范、不安全布置會(huì)可能會(huì)引發(fā)災(zāi)難事端,因而針對(duì)布置的反常檢測(cè)(Anomaly Detection)非常重要。微軟亞研采用的辦法如下圖所示:
其間,在檢測(cè)反常過(guò)程中,微軟亞研在論文《Cross-dataset Time Series Anomaly Detection for Cloud Systems》中提出了自動(dòng)遷移學(xué)習(xí)反常檢測(cè)(Active Transfer Anomaly Detection, ATAD),它集成了遷移學(xué)習(xí)和自動(dòng)學(xué)習(xí)技能。遷移學(xué)習(xí)用于將知識(shí)從源數(shù)據(jù)集遷移至方針數(shù)據(jù)集,自動(dòng)學(xué)習(xí)用于確認(rèn)未標(biāo)示數(shù)據(jù)集中一小部分樣本的信息標(biāo)簽。
論文地址:https://www.usenix.org/conference/atc19/presentation/zhang-xu
ATAD 概覽如下。微軟亞研經(jīng)過(guò)實(shí)驗(yàn)證明了 ATAD 在跨數(shù)據(jù)集時(shí)刻序列反常檢測(cè)中的有用性,只需求少于 0.1% 的人工標(biāo)示即可完成杰出的準(zhǔn)確率。
最后,智能虛擬機(jī)預(yù)裝備。作為最常見(jiàn)的核心操作,虛擬機(jī)裝備對(duì)用戶(hù)體會(huì)產(chǎn)生直接影響。裝備功能不良會(huì)形成長(zhǎng)時(shí)刻等候?qū)е驴蛻?hù)不滿(mǎn)意,并且難以處理大客戶(hù)的批量懇求,形成巨大經(jīng)濟(jì)損失。微軟 Azure 中的預(yù)裝備服務(wù)(Pre-Provisioning Service, PPS)經(jīng)過(guò)創(chuàng)立預(yù)裝備的虛擬機(jī)提升了 VM 布置的功能,帶來(lái)了可靠性和延遲收益。
不過(guò),仍然面對(duì)一些應(yīng)戰(zhàn),比如可猜測(cè)的 VM 需求量少,存在很多的 VM 類(lèi)型和差異化 VM 需求形式。此外,猜測(cè)不確認(rèn)不可防止,難以歸入優(yōu)化體系中。決議計(jì)劃變量和約束條件是離散,且離散域的優(yōu)化是 NP - 難問(wèn)題。對(duì)此,微軟亞研提出了全新的辦法結(jié)構(gòu),將不確認(rèn)性感知結(jié)構(gòu)用于猜測(cè)與優(yōu)化。結(jié)果表明,微軟亞研提出的辦法完成了相較于其他競(jìng)品更優(yōu)的體現(xiàn)。
未來(lái),微軟亞洲研討院將致力于「更自動(dòng)化、更自動(dòng)化和更通用化」的智能運(yùn)維,更高效地賦能于運(yùn)維人員、開(kāi)發(fā)者和客戶(hù)。