永新鸵吻水电安装有限公司

亞馬遜承諾提高數(shù)據(jù)中心冗余 應(yīng)對(duì)停電事故
來(lái)源:比特網(wǎng) 發(fā)布時(shí)間:2011年08月18日

      亞馬遜網(wǎng)絡(luò)服務(wù)(AWS)從都柏林?jǐn)?shù)據(jù)中心停電事故中學(xué)到了很多的經(jīng)驗(yàn)教訓(xùn).該公司表示,他們已經(jīng)從此次事件中充分總結(jié)了經(jīng)驗(yàn)教訓(xùn),將改善數(shù)據(jù)中心電源冗余、負(fù)載均衡以及當(dāng)云計(jì)算出現(xiàn)故障時(shí)的通信的方式。

      檢驗(yàn)報(bào)告對(duì)造成停電的原因進(jìn)行了深入的研究,此次停電事故影響到了亞馬遜的EC2(彈性計(jì)算云Elastic Compute Cloud)、EBS(彈性數(shù)據(jù) 塊存儲(chǔ)Elastic Block Store)、關(guān)系數(shù)據(jù)庫(kù)服務(wù)以及亞馬遜的網(wǎng)絡(luò)。服務(wù)中斷從八月七日上午10:41開(kāi)始,當(dāng)時(shí)亞馬遜的的公用事業(yè)供應(yīng)商 遭受了變壓器故障。起初,被認(rèn)為是由雷擊造成的,但供應(yīng)商認(rèn)為那不是真實(shí)的原因,據(jù)亞馬遜表示,該事件目前還在繼續(xù)調(diào)查中。

      通常情況下,當(dāng)主電源發(fā)生故障,電力負(fù)荷將無(wú)縫啟動(dòng)備用發(fā)電機(jī)??删幊踢壿嬁刂破?PLC)保證在電氣階段在線聯(lián)機(jī)同步發(fā)電機(jī)。但在這 種情況下,PLC沒(méi)有完成其任務(wù),可能是因?yàn)橐粋€(gè)大的接地故障,從而導(dǎo)致一些發(fā)電機(jī)的失敗,據(jù)亞馬遜介紹,為了避免再次發(fā)生類似事件,亞馬遜將增加冗余,并隔離其PLC,使他們與其他故障絕緣。

      亞馬遜的云基礎(chǔ)設(shè)施分為地理區(qū)域(Region Zone)和可用區(qū)域(Availability Zone)。所謂的地理區(qū)域:例如,在都柏林的數(shù)據(jù)中心,又被稱為西歐聯(lián)盟區(qū)域,由一個(gè)或多個(gè)可用性區(qū)域組成,它們被設(shè)計(jì)為與同一地區(qū)的其他區(qū)域中的故障絕緣。這種想法是源于方便客戶可以使 用多個(gè)區(qū)域,以提高可靠性,亞馬遜用來(lái)簡(jiǎn)化工作。

      在中斷時(shí)間內(nèi),西歐聯(lián)盟可用區(qū)域的多家曾采用了EC2和EBS卷的客戶并沒(méi)有經(jīng)歷服務(wù)中斷,據(jù)亞馬遜介紹。但是,管理服務(wù)器超載導(dǎo)致了停電,對(duì)整個(gè)地理地區(qū)都造成了影響。

      為了避免再次發(fā)生這種情況,亞馬遜將實(shí)現(xiàn)更好的負(fù)載平衡。此外,在過(guò)去的幾個(gè)月中,亞馬遜已經(jīng)“進(jìn)一步發(fā)展了隔離EC2控制面板元件, 以消除因一個(gè)可用性區(qū)域可能的延遲或失敗對(duì)我們處理調(diào)用其他可用性區(qū)域能力所帶來(lái)的影響。這項(xiàng)工作仍在進(jìn)行之中,將需要幾個(gè)月的時(shí)間來(lái)完成,據(jù)亞馬遜介紹說(shuō)。

      亞馬遜服務(wù)的最大的問(wèn)題來(lái)自于其EBS,是用來(lái)存儲(chǔ)EC2的數(shù)據(jù)的。通過(guò)耐用性和可用性的節(jié)點(diǎn)服務(wù)復(fù)制整個(gè)卷中的數(shù)據(jù)。之后,停運(yùn)的節(jié)點(diǎn) 便開(kāi)始互相復(fù)制更改。亞馬遜其實(shí)有能力做到這一點(diǎn),只是此次的數(shù)據(jù)流量太大。

      當(dāng)一個(gè)卷中的所有節(jié)點(diǎn)都同時(shí)斷電,在某些情況下,亞馬遜必須通過(guò)匯集恢復(fù)快照重新創(chuàng)建數(shù)據(jù)。而產(chǎn)生這些快照的過(guò)程是相當(dāng)費(fèi)時(shí)的,因?yàn)閬嗰R遜已經(jīng)將所有的數(shù)據(jù)都移動(dòng)到了亞馬遜簡(jiǎn)單存儲(chǔ)服務(wù)(S3)進(jìn)行處理,將其變成了快照存儲(chǔ)格式,然后使用戶可以通過(guò)他們的賬戶訪問(wèn)數(shù)據(jù)。

      亞馬遜表示,截至8月10日下午8:25,98%的恢復(fù)快照均已交付,剩下的需要手動(dòng)。

      對(duì)于EBS中,亞馬遜的目標(biāo)將是在一次重大停電事故之后大大縮減其恢復(fù)時(shí)間。他們會(huì)做到的,例如,在恢復(fù)供電后,直接在EBS服務(wù)器恢復(fù) 卷,而無(wú)需將數(shù)據(jù)移動(dòng)到其他地方。

      提供的存儲(chǔ)服務(wù)不僅僅只是受到了停電的影響,而且還受到不同的軟件和人為因素的影響,當(dāng)硬件故障沒(méi)有正確處理時(shí),這種現(xiàn)象就會(huì)發(fā)生。

      因此,一些數(shù)據(jù)塊被錯(cuò)誤地標(biāo)記為刪除。后來(lái),在作進(jìn)一步數(shù)據(jù)分析時(shí)發(fā)現(xiàn)了這些錯(cuò)誤標(biāo)簽,但人為檢查過(guò)程中卻沒(méi)有發(fā)現(xiàn)刪除過(guò)程被執(zhí)行了,據(jù)亞馬遜介紹。為了防止再次發(fā)生,他們正在建立一個(gè)新的報(bào)警功能,將提醒亞馬遜任何異常情況的發(fā)生。

      用戶如何能夠體驗(yàn)到這種斷電也取決于這些受斷電影響的公司是否及時(shí)的進(jìn)行了更新。

      “客戶對(duì)于他們?cè)跀嚯娀謴?fù)期間應(yīng)該做些什么的焦慮心情是可以理解的。”亞馬遜表示。盡管該公司盡了最大努力保證了用戶在第一時(shí)間的 知情權(quán),但他們?nèi)匀淮嬖谟写倪M(jìn)的地方。例如,他們可以加快早期響應(yīng)的速度,派遣工作人員支持團(tuán)隊(duì),更早的告訴用戶他們的資源是否受到了影響,亞馬遜表示。

      該公司正在研發(fā)后者的工具,并希望能在未來(lái)幾個(gè)月的時(shí)間里問(wèn)世。

      亞馬遜同時(shí)還為斷電停運(yùn)事故進(jìn)行了道歉,將給予受影響的用戶服務(wù)折扣。 EC2/EBS和RDS數(shù)據(jù)庫(kù)的用戶將獲得相當(dāng)于10天的服務(wù)折扣。此外,受到EBS軟件bug影響的公司將獲得30天的EBS服務(wù)折扣。服務(wù)折扣將會(huì)自動(dòng)從未來(lái)的AWS的合同中扣除。

本文鏈接:http://m.8t2k.cn/Article/20110818/1561.html 點(diǎn)擊復(fù)制鏈接

奎屯市| 西昌市| 邻水| 文化| 珲春市| 文昌市| 巴中市| 内江市| 新巴尔虎右旗| 华安县| 科技| 东乌珠穆沁旗| 乌兰浩特市| 宿州市| 江孜县| 从化市| 门头沟区| 黑山县| 小金县| 阿坝| 威宁| 涞水县| 互助| 禄劝| 彭阳县| 得荣县| 深圳市| 平塘县| 鲁甸县| 龙川县| 清流县| 河南省| 津南区| 钟祥市| 阿巴嘎旗| 延庆县| 惠水县| 兴和县| 宁乡县| 纳雍县| 雷波县|