大數(shù)據(jù)對(duì)數(shù)據(jù)中心意味著怎樣的機(jī)遇
發(fā)布時(shí)間:2014-04-03
點(diǎn)擊次數(shù):3228
-
計(jì)算機(jī)
-
“大數(shù)據(jù)”需要大量計(jì)算資源來(lái)存儲(chǔ)、組織處理與報(bào)告結(jié)果。這一新興領(lǐng)域改變了數(shù)據(jù)中心服務(wù)器與其他基礎(chǔ)設(shè)施的選擇與部署方式。
為了在現(xiàn)今的商業(yè)環(huán)境中競(jìng)爭(zhēng)并獲得成功,公司必須通過對(duì)現(xiàn)有數(shù)據(jù)進(jìn)行***度的分析,才能做出業(yè)務(wù)決策。分析這些不斷膨脹的大數(shù)據(jù)已經(jīng)成為越來(lái)越重要的趨勢(shì)與機(jī)遇。
SearchDataCenter咨詢委員會(huì)將介紹受大數(shù)據(jù)影響的商業(yè)模式,如何改變企業(yè)數(shù)據(jù)中心的運(yùn)作,并為大家提供關(guān)于新數(shù)據(jù)中心機(jī)會(huì)的獨(dú)特見解。
只需添加SAN
大數(shù)據(jù)其實(shí)不是個(gè)很嚴(yán)重的問題。我的意思是,數(shù)據(jù)中心不會(huì)突然因?yàn)榇髷?shù)據(jù)的來(lái)到而突然變更他們處理海量數(shù)據(jù)的方式。
我的看法相當(dāng)簡(jiǎn)單:只需添加另一個(gè)存儲(chǔ)區(qū)域網(wǎng)絡(luò)(SAN),現(xiàn)在的SAN比早期具備更高的可擴(kuò)展性。這意味著企業(yè)可以開始學(xué)習(xí)處理兩個(gè)不同等級(jí)存儲(chǔ)網(wǎng)絡(luò)的數(shù)據(jù):一個(gè)是他們正在使用的關(guān)鍵數(shù)據(jù),一個(gè)是仍然需要被保存,但不那么重要的數(shù)據(jù)。
業(yè)務(wù)應(yīng)用會(huì)帶來(lái)越來(lái)越多的大數(shù)據(jù)機(jī)會(huì)
我們還處在真正企業(yè)級(jí)大數(shù)據(jù)的起跑線上,路還很長(zhǎng)。
現(xiàn)在,數(shù)據(jù)中心使用存儲(chǔ)虛擬化來(lái)組織聯(lián)合數(shù)據(jù)源。商業(yè)智能(BI)提供更先進(jìn)的大數(shù)據(jù)處理方案,如Pentaho、Logi、QlikTech與Birst?;贘ava的編程框架Hadoop被更先進(jìn)的企業(yè)作為非持久性過濾器來(lái)處理多重?cái)?shù)據(jù)類型。NoSQL數(shù)據(jù)庫(kù),例如MongoDB與CouchBase,成為處理非結(jié)構(gòu)化數(shù)據(jù)的有效利器。管理工具則有Splunk,可以協(xié)助完成服務(wù)器之間的數(shù)據(jù)文件管理等工作。
這些工具都需要使用自己的基礎(chǔ)設(shè)施來(lái)支持,并需要精心設(shè)計(jì)以得到理想的結(jié)果。分析及服務(wù)提供商不斷涌現(xiàn),提供BI與云計(jì)算能力——許多組織最終都會(huì)朝這個(gè)方向發(fā)展,以避免混合環(huán)境的復(fù)雜性。IBM、Teradata、EMC與其他廠商提供混合設(shè)備來(lái)滿足業(yè)務(wù)需求,可以滿足用戶保留所有在線數(shù)據(jù)并從外部資源吸取額外的信息?;旌显O(shè)備處理架構(gòu)處理介于與非結(jié)構(gòu)化數(shù)據(jù),處理方式比當(dāng)前的大數(shù)據(jù)結(jié)構(gòu)更加工程化,但造價(jià)也相當(dāng)不菲。
選好服務(wù)器、存儲(chǔ)與架構(gòu)
選好用于數(shù)據(jù)分析的工具,如Hadoop與MapReduce軟件,它可以將任務(wù)分布到數(shù)千節(jié)點(diǎn)(處理器)上進(jìn)行計(jì)算,并負(fù)責(zé)將結(jié)果收集起來(lái)。
軟件所使用的高可擴(kuò)展性任務(wù)分布式計(jì)算方案與傳統(tǒng)的單線程執(zhí)行有著本質(zhì)上的不同,意味著大型服務(wù)器就擁有最大與最強(qiáng)的計(jì)算能力。可以假設(shè)大型的服務(wù)器也擁有最多的處理器核心,如Intel的Xeon E7-8800 v2處理器,擁有15個(gè)核心,并且支持超線程。數(shù)據(jù)中心可以通過購(gòu)買這些服務(wù)器來(lái)解決大數(shù)據(jù)計(jì)算處理的問題。
精簡(jiǎn)指令集處理器是許多大數(shù)據(jù)服務(wù)器的另一種選擇,它可以提供大量的處理器核心,而產(chǎn)生的熱量比傳統(tǒng)的x86處理器少得多。Dell開發(fā)了基于Calxeda ARM芯片的Zinc服務(wù)器來(lái)支持企業(yè)應(yīng)用。
雖然更多處理器需要額外的內(nèi)存空間來(lái)處理與存儲(chǔ)結(jié)果,大數(shù)據(jù)更專注于計(jì)算任務(wù),所以服務(wù)器的內(nèi)存總和可能會(huì)非常之大,甚至超過大幾百G。例如,HP的ConvergedSystem的Vertica Analytics Platform擁有128G內(nèi)存,IBM的 System x針對(duì)Hadoop的參考架構(gòu)要求服務(wù)器具備384G內(nèi)存。
大數(shù)據(jù)服務(wù)器同樣還可以集成圖形處理單元,如NVIDIA公司的Tesla K40,因?yàn)镚PU被設(shè)計(jì)為處理復(fù)雜的數(shù)學(xué)計(jì)算,如雙精度浮點(diǎn)計(jì)算可以達(dá)到 1.4T flops(一個(gè)TFLOPS(teraFLOPS)等于每秒一兆(=1012)次的浮點(diǎn)運(yùn)算)。大量數(shù)學(xué)計(jì)算可以從多個(gè)處理器中卸載到單個(gè)GPU上,還無(wú)需附加系統(tǒng)內(nèi)存。
任何大數(shù)據(jù)平臺(tái)在評(píng)估時(shí)都必須考慮基礎(chǔ)設(shè)施,如網(wǎng)絡(luò)和存儲(chǔ)。多端口網(wǎng)卡可以幫助服務(wù)器之間分配工作量。從千兆以太網(wǎng)升級(jí)到萬(wàn)兆以太網(wǎng),可以在大數(shù)據(jù)環(huán)境下發(fā)揮更高利用率。還必須有足夠多的交換機(jī)端口(千兆或者萬(wàn)兆以太網(wǎng)),以滿足所有服務(wù)器端口的連接需求。此外,IT架構(gòu)師還可以考慮將每個(gè)服務(wù)器的端口分?jǐn)偟讲煌慕粨Q機(jī)上,構(gòu)建更強(qiáng)大可用的環(huán)境。數(shù)據(jù)中心可能需要為更新型號(hào)的網(wǎng)絡(luò)交換機(jī),提供更多預(yù)算。
Hadoop與其他大數(shù)據(jù)應(yīng)用程序通常通過使用本地存儲(chǔ)與獨(dú)立處理器,而不是共享存儲(chǔ)來(lái)提升性能。將磁盤任務(wù)分配到許多磁盤上獨(dú)立運(yùn)行,可以最小化磁盤延時(shí)。同樣還可以考慮使用固態(tài)硬盤替換傳統(tǒng)的機(jī)械硬盤,甚至還可以使用更快的、基于PCIE接口的固態(tài)硬盤加速卡來(lái)提升性能。
上一條:“大數(shù)據(jù)時(shí)代文化產(chǎn)業(yè)的機(jī)遇與挑戰(zhàn)高層論壇”洛陽(yáng)舉行
下一條:大數(shù)據(jù)”改變小微企業(yè)融資生態(tài)