隨著企業(yè)級(jí)大數(shù)據(jù)存儲(chǔ)需求的不斷增加,存儲(chǔ)廠商和系統(tǒng)管理人員都需要確定在大數(shù)據(jù)環(huán)境下的最佳實(shí)踐是怎樣的。因此,我們看到有越來(lái)越多像是Hadoop和“云”之類的東西。但根據(jù)Toigo Partners International的最主要的合作伙伴Jon Toigo的看法,這些方法并不是大數(shù)據(jù)環(huán)境下最好的。
在該播客中,Toigo與網(wǎng)站編輯助理Sarah Wilson就大數(shù)據(jù)環(huán)境下的存儲(chǔ)市場(chǎng)變革進(jìn)行了討論。收聽(tīng)音頻或閱讀下文中的對(duì)話內(nèi)容,了解他關(guān)于大數(shù)據(jù)環(huán)境下存儲(chǔ)、云、備份和容災(zāi)如何進(jìn)行調(diào)整的觀點(diǎn)。
你認(rèn)為存儲(chǔ)市場(chǎng)會(huì)如何發(fā)展以更好地適應(yīng)大數(shù)據(jù)?
Jon Toigo:好的,我認(rèn)為大家會(huì)看到兩種不同的趨勢(shì)。其中之一是Hadoop與大數(shù)據(jù)已密不可分。我們說(shuō)的是Hadoop集群。關(guān)于這一點(diǎn)基本上業(yè)界拋棄了共享存儲(chǔ)——SAN(存儲(chǔ)區(qū)域網(wǎng)絡(luò))和NAS(網(wǎng)絡(luò)附加存儲(chǔ))——更傾向于使用直連存儲(chǔ)(DAS),尤其是使用閃存的DAS。IBM已經(jīng)登上了舞臺(tái),他們存儲(chǔ)部門的主管強(qiáng)調(diào)說(shuō),“我們認(rèn)為閃存是所有存儲(chǔ)的未來(lái)。”于是他們推崇基于閃存的存儲(chǔ),直連到集群上作為大數(shù)據(jù)分析的數(shù)據(jù)存儲(chǔ)介質(zhì)。我不曉得這是不是解決問(wèn)題的最佳方案,但我認(rèn)為這樣會(huì)花掉一大筆錢。它回退到1999年以前的存儲(chǔ)架構(gòu),它再次引入了幾十年前我們有過(guò)的兩個(gè)問(wèn)題,忽略了存儲(chǔ)孤島上的數(shù)據(jù)保護(hù)問(wèn)題。你將不得不進(jìn)行節(jié)點(diǎn)間的復(fù)制以確定存儲(chǔ)孤島間提供保護(hù)所需要的帶寬。然而,考慮到存儲(chǔ)銷售額放緩的一般趨勢(shì),這樣做的確會(huì)賣出更多的設(shè)備,是業(yè)內(nèi)人士希望看到的。
另外一種趨勢(shì)是以整體的視角看待這個(gè)問(wèn)題。客戶會(huì)說(shuō),“過(guò)去十年里我們一直在部署共享存儲(chǔ),部署光纖通道架構(gòu)。我們跟隨著科技進(jìn)步的方向,無(wú)論是用InfiniBand或SAS或者下一代新技術(shù)。為什么我們要花十年把這些搭起來(lái),然后又把他們分開(kāi)拆掉?”這樣做沒(méi)什么意義。你看像是DataCore Software這樣的公司,或者一些使用SAN卷控制器的IBM的產(chǎn)品,以及其他人在試著對(duì)存儲(chǔ)做虛擬化,從而向服務(wù)器提供虛擬卷,就像這些服務(wù)器直連存儲(chǔ)一樣。這樣做會(huì)更有意義,能整體地管理與存儲(chǔ)相關(guān)的所有設(shè)備。這方面我認(rèn)為還有很多事情要做,而不是把存儲(chǔ)分開(kāi),為服務(wù)器添加直連存儲(chǔ)。并且我認(rèn)為,最終我們會(huì)到達(dá)后一種模型。
對(duì)于在大數(shù)據(jù)環(huán)境下的存儲(chǔ)來(lái)說(shuō),“云”似乎是一個(gè)很流行的選擇。你認(rèn)為云提供商是否在調(diào)整他們的服務(wù)以更好地適應(yīng)大數(shù)據(jù)?
Toigo:正如你知道的,我對(duì)云的目前發(fā)展有些迷惑??傮w來(lái)說(shuō)我不是一個(gè)典型的云技術(shù)推崇者,但是,我們認(rèn)為這可能是云發(fā)展過(guò)程中較好的模型之一——應(yīng)用于云的可持續(xù)業(yè)務(wù)模型,即為承載大量特定類型的數(shù)據(jù)進(jìn)行定制的云。就此我咨詢過(guò)專家。我問(wèn)IBM的Jeff Jonas,由云服務(wù)提供商來(lái)搭建一個(gè)大數(shù)據(jù)是否有意義,是否這樣我就不必自己買基礎(chǔ)設(shè)施了?我認(rèn)為對(duì)于一個(gè)不想去花大筆錢來(lái)買支持Hadoop的基礎(chǔ)設(shè)施的公司是有意義的,對(duì)于他們Hadoop上的業(yè)務(wù)分析項(xiàng)目可能只用一回,或者頻率很低,就像選民登記分析。為什么你會(huì)搭建一個(gè)幾百美元的基礎(chǔ)設(shè)施來(lái)分析數(shù)據(jù)的某一方面之后就回家并簡(jiǎn)單地關(guān)掉它?至少對(duì)我來(lái)說(shuō)沒(méi)什么意義。
Jonas對(duì)這個(gè)觀點(diǎn)不太同意,我對(duì)此有些迷惑不解,他解釋了自己的觀點(diǎn)。他說(shuō)定位云中的數(shù)據(jù)需要大量時(shí)間,訪問(wèn)云中的數(shù)據(jù)需要付費(fèi)帶寬,與數(shù)據(jù)和云相關(guān)的初始安全問(wèn)題、彈性問(wèn)題,以及一些云運(yùn)維其他方面問(wèn)題,導(dǎo)致云不是托管大數(shù)據(jù)分析所需數(shù)據(jù)的最佳位置。
現(xiàn)在我考慮,假設(shè)這些問(wèn)題中一部分可以解決,這個(gè)假設(shè)有些托大,你就會(huì)發(fā)現(xiàn)云提供商會(huì)這樣說(shuō),“我們?yōu)閲?guó)家研究所處理所有關(guān)于癌癥治療的診療數(shù)據(jù)。我們已經(jīng)正確地取出所有病人自身的參考,所有的原始數(shù)據(jù)都在這兒?!爆F(xiàn)在如果約翰霍普金斯大學(xué)想對(duì)他們正在做的新藥試驗(yàn)進(jìn)行大數(shù)據(jù)分析,這應(yīng)該是可行的,即作為一種服務(wù),插入數(shù)據(jù)集并把它包含在分析模型中。這樣做是有意義的,因?yàn)槟阋呀?jīng)有了擁有需要這類數(shù)據(jù)的多個(gè)客戶。
是否我會(huì)把自己的數(shù)據(jù)上傳到云中?大概不會(huì)。現(xiàn)在不這樣做,未來(lái)也不會(huì)這樣做,因?yàn)樵品?wù)提供商受制于這樣一個(gè)事實(shí):對(duì)于連接到我工場(chǎng)的網(wǎng)絡(luò),他無(wú)所有權(quán)。那他怎么能義正言辭地說(shuō)能保證我服務(wù)質(zhì)量?對(duì)于我訪問(wèn)服務(wù)器的途徑他有心無(wú)力。如果我的電話系統(tǒng)每個(gè)月重啟上幾回,是否擁有一個(gè)超穩(wěn)定的云服務(wù)并不重要,我將無(wú)法訪問(wèn)它。所以我沒(méi)法相信任何一個(gè)云服務(wù)提供商告訴我的。如果數(shù)據(jù)在云中,我很難相信我的信息是安全的?,F(xiàn)在這樣的話沒(méi)啥大問(wèn)題,如果我采用某種形式的單向散列(IBM的Jonas這樣建議的)并去掉數(shù)據(jù)中的私人信息,我沒(méi)有什么可擔(dān)心的。但是對(duì)于我的業(yè)務(wù)流程,這是關(guān)鍵業(yè)務(wù),對(duì)于我的商業(yè)交易、我的財(cái)務(wù)信息、信用卡信息,無(wú)論如何,我可以肯定地說(shuō)我不打算把它們置于云端。底線:我覺(jué)得云有問(wèn)題,我不確定它把一切都做好了。另外,關(guān)于云的使用情況——我最近讀到一篇文章提到,投入使用的云增加了340%,不過(guò)僅調(diào)查了19人。
在大數(shù)據(jù)環(huán)境下備份和容災(zāi)發(fā)生了怎樣的變化?
Toigo:如果你研究一下Hadoop的模型,會(huì)發(fā)現(xiàn)它基本上拋棄了你的共享存儲(chǔ),它部署于獨(dú)立的節(jié)點(diǎn)和直連存儲(chǔ)形式之上,于是面臨一個(gè)巨大的問(wèn)題就是如何對(duì)數(shù)據(jù)進(jìn)行副本和保護(hù)。這是一個(gè)重要問(wèn)題。我們遇到過(guò)已使用VMware的客戶,因?yàn)閂Mware與傳統(tǒng)共享存儲(chǔ)無(wú)法很好的協(xié)作。VMware需要你做的就是,解除您的SAN配置,以直連方式將存儲(chǔ)部署到集群中的每個(gè)VMware服務(wù)器。這就引入了一個(gè)問(wèn)題,你必須依賴后端的副本策略和節(jié)點(diǎn)間鏡像,而鏡像的問(wèn)題是在于沒(méi)人做檢查。將一個(gè)鏡像關(guān)閉是一件痛苦的事情:使應(yīng)用進(jìn)入靜默狀態(tài),將緩存中的數(shù)據(jù)刷到磁盤上,并將數(shù)據(jù)復(fù)制到二級(jí)鏡像,然后關(guān)閉整個(gè)操作,進(jìn)行文件級(jí)比對(duì),然后交叉手指祈禱好運(yùn)并進(jìn)行重啟,希望你不會(huì)遇到未正常同步的解決能力之外的問(wèn)題。因此,沒(méi)有人會(huì)去檢查鏡像。這便是構(gòu)建在Hadoop架構(gòu)之上的大數(shù)據(jù)方案的“阿喀琉斯之踵”。
現(xiàn)在,我會(huì)這樣說(shuō),使用大數(shù)據(jù)分析建立模型和監(jiān)控存儲(chǔ)基礎(chǔ)設(shè)施,我有一大堆的“各種信息”,諸如磁盤的smart技術(shù)和各種管理存儲(chǔ)組件的基本管理器——實(shí)時(shí)或主動(dòng)的關(guān)聯(lián)這些信息并定位問(wèn)題,實(shí)際上我能夠避免很多災(zāi)難的發(fā)生。一方面,我喜歡大數(shù)據(jù),因?yàn)閺母玫臑?zāi)難恢復(fù)的角度來(lái)看,可以提供給我更優(yōu)質(zhì)的信息和更好的基礎(chǔ)設(shè)施管理,這樣我就可以規(guī)避這類風(fēng)險(xiǎn)。另一方面,我不喜歡Hadoop這樣的基礎(chǔ)設(shè)施,因?yàn)閺臄?shù)據(jù)保護(hù)的角度來(lái)看,它會(huì)把我的生活弄得復(fù)雜。
聯(lián)系客服