亞馬遜云科技Amazon DevOps Agent智能運(yùn)維助手正式可用
北京——2025年4月7日 亞馬遜云科技宣布Amazon DevOps Agent現(xiàn)已正式可用。Amazon DevOps Agent是用戶全天候隨時待命的智能運(yùn)維助手。它可跨亞馬遜云科技、多云及本地環(huán)境,快速排查故障、主動預(yù)防問題,優(yōu)化應(yīng)用可靠性與性能,并高效處理各類SRE任務(wù)。
運(yùn)維團(tuán)隊常因繁瑣排障、多工具數(shù)據(jù)比對、手動分類告警耗費(fèi)大量時間,擠占創(chuàng)新與戰(zhàn)略工作精力。Amazon DevOps Agent可像資深DevOps工程師那樣排查問題。它能夠?qū)W習(xí)用戶的應(yīng)用及其相互關(guān)系,與用戶的可觀測工具、運(yùn)維手冊、代碼庫和CI/CD管道協(xié)同工作,并關(guān)聯(lián)所有這些工具中的遙測數(shù)據(jù)、代碼和部署數(shù)據(jù)。Amazon DevOps Agent預(yù)覽版數(shù)據(jù)顯示,客戶和合作伙伴的平均修復(fù)時間(MTTR)最多可降低75%,排查速度提高80%,根因定位準(zhǔn)確率高達(dá)94%,故障解決速度提高3至5倍。
自預(yù)覽版發(fā)布以來,眾多行業(yè)客戶已將Amazon DevOps Agent集成到其運(yùn)維工作流程中。他們已將其與Amazon CloudWatch以及Datadog、Dynatrace、New Relic、Splunk、GitHub、GitLab、ServiceNow和Slack等合作伙伴工具連接起來。在此次正式版發(fā)布中,Amazon DevOps Agent又新增對Azure、Azure DevOps、PagerDuty、Grafana等集成的支持,后續(xù)將持續(xù)拓展集成能力。
Amazon DevOps Agent的工作原理
Amazon DevOps Agent代表了一種新型的前沿Agent——自主系統(tǒng),它們能夠獨(dú)立完成目標(biāo),大規(guī)模擴(kuò)展以處理并發(fā)任務(wù),并且無需持續(xù)的人工干預(yù)即可持久運(yùn)行。Amazon DevOps Agent與用戶的運(yùn)維團(tuán)隊緊密協(xié)作,覆蓋故障從檢測、排查、恢復(fù)到預(yù)防的全生命周期。
? 自主響應(yīng)故障:Amazon DevOps Agent會在收到警報后立即開始調(diào)查,無論是在凌晨兩點(diǎn)還是高峰時段。這可以縮短平均修復(fù)時間(MTTR),并快速將應(yīng)用程序恢復(fù)到最佳性能。
? 主動預(yù)防事故:Amazon DevOps Agent幫助團(tuán)隊從被動應(yīng)對突發(fā)故障轉(zhuǎn)變?yōu)橹鲃痈倪M(jìn)運(yùn)營。它分析歷史故障中的規(guī)律,提供針對性的建議,以預(yù)防后續(xù)故障發(fā)生,并提升流程和系統(tǒng)的彈性。
? 按需處理SRE運(yùn)維任務(wù):憑借對運(yùn)行環(huán)境的深入了解,Amazon DevOps Agent不僅能通過提問查詢,更能深入分析應(yīng)用環(huán)境。用戶還可創(chuàng)建、保存和共享自定義圖表和報告。
正式版新增功能
Amazon DevOps Agent正式版發(fā)布吸取客戶反饋,功能全面擴(kuò)展,進(jìn)一步提升了用戶在多樣化運(yùn)維環(huán)境中的故障響應(yīng)能力,使其更加靈活、智能且易于擴(kuò)展。
新增更多使用場景
? Azure支持:Amazon DevOps Agent現(xiàn)已擴(kuò)展到亞馬遜云科技環(huán)境之外,能夠調(diào)查Azure工作負(fù)載中的故障,可跨多云部署關(guān)聯(lián)數(shù)據(jù),為運(yùn)行在亞馬遜云科技、Azure或混合環(huán)境中的應(yīng)用提供統(tǒng)一的故障響應(yīng)能力。
? 本地部署支持:Amazon DevOps Agent現(xiàn)在使用模型上下文協(xié)議(MCP),可對本地部署的應(yīng)用進(jìn)行故障排查。它能夠通過分析指標(biāo)、日志與代碼發(fā)現(xiàn)本地資源,構(gòu)建完整架構(gòu)拓?fù)?,?shí)現(xiàn)跨亞馬遜云科技、Azure及本地環(huán)境的統(tǒng)一故障響應(yīng)。
? 按需執(zhí)行SRE任務(wù):通過對話式AI助手可使用自然語言查詢應(yīng)用架構(gòu)、分析系統(tǒng)健康狀況,覆蓋亞馬遜云科技、多云及本地環(huán)境。支持查詢資源信息、系統(tǒng)指標(biāo)、告警狀態(tài)、部署歷史和故障規(guī)律,即時獲取關(guān)聯(lián)分析結(jié)果,還能創(chuàng)建自定義圖表和報告,保存并分享給團(tuán)隊成員。
? 分診Agent:自動評估故障嚴(yán)重程度,識別重復(fù)工單。當(dāng)檢測到重復(fù)工單時,會將其標(biāo)記為“已關(guān)聯(lián)”并鏈接到主排查任務(wù)中。關(guān)聯(lián)任務(wù)不會自動執(zhí)行,幫助減少無效告警干擾,讓團(tuán)隊集中精力處理核心故障。
智能能力升級
? 技能學(xué)習(xí):Amazon DevOps Agent可學(xué)習(xí)企業(yè)的排查模式、工具使用習(xí)慣與系統(tǒng)架構(gòu),基于團(tuán)隊處理各類故障的方式沉淀專屬能力,長期使用后能更高效解決企業(yè)特有的運(yùn)維難題。
? 技能自定義:可添加適配自身系統(tǒng)的排查流程、最佳實(shí)踐與內(nèi)部運(yùn)維知識,工作流一次創(chuàng)建即可在所有相關(guān)故障排查中自動復(fù)用。技能還可定向分配至不同類型Agent(按需查詢、故障分診、根因分析、故障緩解、效果評估),減少信息干擾,提升處理專注度。
? 代碼索引:支持為應(yīng)用代碼倉庫建立索引,可理解代碼結(jié)構(gòu),在故障排查中識別潛在缺陷,并在緩解方案中提供代碼級修復(fù)建議。
全新集成能力
在與現(xiàn)有Datadog、Dynatrace、New Relic、Splunk、GitHub Actions、GitLab CI/CD和ServiceNow等集成基礎(chǔ)上,Amazon DevOps Agent正在添加以下集成功能:
? PagerDuty:原生集成,用于由PagerDuty警報觸發(fā)的自動故障響應(yīng)。
? Grafana:內(nèi)置的Grafana MCP服務(wù)器可連接到任意Grafana實(shí)例,包括自建實(shí)例、Grafana Cloud實(shí)例和Amazon Managed Grafana實(shí)例。連接后,即可訪問該實(shí)例下配置的所有數(shù)據(jù)源,如Prometheus、Loki、OpenSearch等,實(shí)現(xiàn)開源監(jiān)控數(shù)據(jù)的采集與系統(tǒng)深度分析。
? Azure DevOps:對接Azure Pipelines,可追蹤Azure環(huán)境中的部署記錄與代碼變更。
? Amazon EventBridge:排查相關(guān)事件可通過Amazon EventBridge獲取,用于構(gòu)建自定義自動化工作流程。
? 新增API:升級了對Amazon CLI、Amazon SDK和Amazon MCP Server的支持。
這些集成將使Amazon DevOps Agent能夠無縫融入用戶現(xiàn)有的運(yùn)維工具體系。
企業(yè)級功能
? 區(qū)域擴(kuò)展:Amazon DevOps Agent現(xiàn)已覆蓋全球六個亞馬遜云科技區(qū)域,包括北美地區(qū)的美國東部(弗吉尼亞)、美國西部(俄勒岡),歐洲地區(qū)的法蘭克福、愛爾蘭,以及亞太地區(qū)的悉尼和東京。全球部署讓Agent更貼近業(yè)務(wù)運(yùn)行環(huán)境。既滿足數(shù)據(jù)駐留要求,又降低運(yùn)維團(tuán)隊操作延遲。
? 私有MCP:可連接私有MCP服務(wù)器以對接更多工具。讓Amazon DevOps Agent安全訪問內(nèi)部工具、數(shù)據(jù)和工作流程,基于企業(yè)真實(shí)環(huán)境給出更精準(zhǔn)的分析并自主執(zhí)行操作,機(jī)密數(shù)據(jù)不會通過公網(wǎng)傳輸。
? 安全能力:Amazon DevOps Agent支持客戶托管密鑰,并可通過Okta、Microsoft Entra ID等身份提供商直接登錄操作員控制臺。
? 本地化支持:Amazon DevOps Agent會根據(jù)瀏覽器語言設(shè)置自動適配,包括回復(fù)內(nèi)容翻譯。全球各地團(tuán)隊均可用偏好語言與之交互。
客戶成功案例:首批客戶已實(shí)現(xiàn)運(yùn)維效率大幅提升
西部州長大學(xué)
西部州長大學(xué)(WGU)是一所知名的在線大學(xué),在校生超19.1萬人,也是首批將Amazon DevOps Agent投入生產(chǎn)環(huán)境的機(jī)構(gòu)之一。作為Dynatrace深度用戶,該校用Amazon DevOps Agent與Dynatrace的原生集成,實(shí)現(xiàn)Dynatrace故障工單自動轉(zhuǎn)發(fā)排查,分析結(jié)果直接回傳。在最近一次生產(chǎn)環(huán)境故障調(diào)查中,WGU的SRE團(tuán)隊借助Amazon DevOps Agent將預(yù)計2小時的修復(fù)時長縮短至28分鐘,平均修復(fù)時間降低77%。該Agent快速定位Lambda函數(shù)配置問題,挖掘出未歸檔的關(guān)鍵運(yùn)維信息。WGU計劃啟用Amazon DevOps Agent Skills功能,有望進(jìn)一步壓縮故障排查耗時。WGU技術(shù)運(yùn)營總監(jiān)Angel Marchena表示:“它直接找到了關(guān)鍵證據(jù),確認(rèn)是Amazon Lambda導(dǎo)致的問題。排查指標(biāo)與前端觀測情況高度吻合。此次排查對我們而言是重大勝利。若能持續(xù)加快問題定位效率,對企業(yè)的價值將難以估量?!?
Zenchef
Zenchef是一家餐飲技術(shù)平臺,它幫助餐廳通過一個免傭金的系統(tǒng)管理預(yù)訂、餐桌運(yùn)營、電子菜單、支付和顧客營銷。其DevOps團(tuán)隊曾在公司黑客松活動期間,突發(fā)面向用戶的線上問題,多數(shù)工程師正專注于活動,且監(jiān)控系統(tǒng)未出現(xiàn)明確異常指向。團(tuán)隊僅將問題描述輸入Amazon DevOps Agent,由其系統(tǒng)性排查,整個排查僅耗時20–30分鐘,相較傳統(tǒng)人工1–2小時的處理時長,效率提升約75%。分析結(jié)果可直接同步給對應(yīng)工程師,實(shí)現(xiàn)無縫交接。Zenchef平臺工程經(jīng)理Theo Massard表示:“黑客松期間我們幾乎無人手可用,而有了Amazon DevOps Agent后也無需額外投入。我們始終力求領(lǐng)先一步,但這類自主排查以往很難實(shí)現(xiàn)。Amazon DevOps Agent為我們提供了全新的平臺運(yùn)行狀況分析方式?!?
T-Mobile
T-Mobile US, Inc.是美國領(lǐng)先的無線運(yùn)營商之一,為全美超過1.4億用戶提供移動語音、短信和數(shù)據(jù)服務(wù)。T-Mobile技術(shù)運(yùn)營高級副總裁Aravind Manchireddy表示:“亞馬遜云科技推出Amazon DevOps Agent之初,T-Mobile就參與其中。作為設(shè)計合作伙伴,我們親眼見證了這款產(chǎn)品如何顯著提升生產(chǎn)環(huán)境的根因分析效率。我們來自真實(shí)業(yè)務(wù)場景的反饋,也直接推動了產(chǎn)品功能的迭代優(yōu)化。我們的基礎(chǔ)設(shè)施覆蓋多云和本地機(jī)房環(huán)境,應(yīng)用日志統(tǒng)一集中在本地部署的Splunk中。在持續(xù)試點(diǎn)過程中,Amazon DevOps Agent能夠與Splunk無縫集成,并跨這些復(fù)雜環(huán)境分析日志,這一點(diǎn)給我們帶來了非常大的價值?!?
Granola
Granola是一款基于的記事本工具,能自動完成錄音轉(zhuǎn)寫和內(nèi)容總結(jié)。Amazon DevOps Agent與Granola的AI故障管理工作流無縫集成,加快了根因定位速度,并縮短了故障平均恢復(fù)時間。Granola產(chǎn)品工程師Eddie Bruce表示:“我們已經(jīng)把Amazon DevOps Agent直接接入故障響應(yīng)流程,它會在收到高危CloudWatch告警時自動啟動排查。Amazon DevOps Agent的數(shù)據(jù)庫排查能力明顯優(yōu)于我們測試過的其他工具,尤其是在分析PostgreSQL日志、挖掘RDS性能問題方面表現(xiàn)突出。隨著我們SRE能力不斷擴(kuò)展,Amazon DevOps Agent已經(jīng)成為故障管理工具中可靠的組成部分?!?





