畢業(yè)設(shè)計(jì)(論文)
題目:分布式存儲(chǔ)相關(guān)技術(shù)的研究
學(xué) 院:計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院
專(zhuān) 業(yè):網(wǎng)絡(luò)工程
摘要:分布式存儲(chǔ)技術(shù)因其能為用戶(hù)提供安全、海量、隨時(shí)隨地的數(shù)據(jù)存儲(chǔ)功能而得到了迅速的發(fā)展。本文首先介紹了有關(guān)分布式存儲(chǔ)系統(tǒng)的一些概念及發(fā)展現(xiàn)狀,其次介紹了有關(guān)云計(jì)算和云存儲(chǔ)的有關(guān)知識(shí),并詳細(xì)介紹了云存儲(chǔ)的結(jié)構(gòu),優(yōu)勢(shì),發(fā)展現(xiàn)狀以及涉及的關(guān)鍵技術(shù)等,讓大家對(duì)云存儲(chǔ)有大致的了解。接著介紹了Hadoop架構(gòu)的一些知識(shí),目的是對(duì)于這一開(kāi)源項(xiàng)目有一定的了解并在hadoop的基礎(chǔ)上設(shè)計(jì)實(shí)現(xiàn)一個(gè)分布式云存儲(chǔ),通過(guò)統(tǒng)計(jì)單詞出現(xiàn)頻率的實(shí)驗(yàn),讓我們更加了解分布式存儲(chǔ)的計(jì)算過(guò)程,對(duì)分布式存儲(chǔ)有一個(gè)更加清晰的了解。
關(guān)鍵詞:分布式存儲(chǔ) 云存儲(chǔ) 分布式文件存儲(chǔ)系統(tǒng)
Abstract:Because able to provide users with safety and mass data storage function, Distributed storage technology developed very rapidly in recent years. This paper first introduced some concepts and development status of the distributed storage system. Followed by introduction of the related knowledge about the cloud computing and cloud storage, and gave details of cloud storage structure, advantage, development status and key technologies involved, so that we have a general understanding of the cloud storage. And then introduces some knowledge about the Hadoop architecture, the purpose is that we can have a certain understanding about the open source projects and design and implement a distributed cloud storage on the base of Hadoop. Through the statistics of word frequency e*periment, we know more abo
……(新文秘網(wǎng)http://m.120pk.cn省略1826字,正式會(huì)員可完整閱讀)……
利用多臺(tái)存儲(chǔ)服務(wù)器分擔(dān)存儲(chǔ)負(fù)荷,利用位置服務(wù)器定位存儲(chǔ)信息,它不但提高了系統(tǒng)的可靠性、可用性和存取效率,還易于擴(kuò)展。
1.2 分布式存儲(chǔ)目前的兩個(gè)研究熱點(diǎn)
一是基于P2P的分布式存儲(chǔ);赑2P的分布式存儲(chǔ)系統(tǒng)是一種基于對(duì)等網(wǎng)絡(luò)技術(shù)的數(shù)據(jù)存儲(chǔ)系統(tǒng),它可以提供高效率、可擴(kuò)展、魯棒和負(fù)載平衡的數(shù)據(jù)存取功能。對(duì)于存儲(chǔ)系統(tǒng),用戶(hù)關(guān)心數(shù)據(jù)的吞吐量以及定位、搜索和路由的效率。傳統(tǒng)的集中方式無(wú)法滿(mǎn)足大規(guī)模數(shù)據(jù)存取的要求,就需要采用新的體系來(lái)管理系統(tǒng)中的數(shù)據(jù)。基于P2P的分布式存儲(chǔ)系統(tǒng)可以利用大量節(jié)點(diǎn)的計(jì)算和帶寬資源用于數(shù)據(jù)存取,具有弱結(jié)構(gòu)化、沒(méi)有單一故障點(diǎn)、可靠性好、易于擴(kuò)展、數(shù)據(jù)吞吐率高等優(yōu)點(diǎn)。不過(guò),基于P2P的分布式存儲(chǔ)系統(tǒng)仍有很多技術(shù)問(wèn)題需要解決。
二是集群存儲(chǔ)。服務(wù)器集群技術(shù)已經(jīng)非常成熟,應(yīng)用也非常廣泛,效果也非常顯著。應(yīng)用集群技術(shù),不僅可以有效提升數(shù)據(jù)中心服務(wù)器系統(tǒng)的穩(wěn)定性、可用性及可管理性,同時(shí),允許用戶(hù)使用價(jià)格相對(duì)低廉的配置(如刀片)捆綁來(lái)替代昂貴的單塊集成電路的高端服務(wù)器,在不影響性能的情況下節(jié)約了存儲(chǔ)成本。在傳統(tǒng)的集群系統(tǒng)中,每一個(gè)節(jié)點(diǎn)服務(wù)器都有自己的本地存儲(chǔ),這些存儲(chǔ)資源并沒(méi)有被統(tǒng)一利用,在節(jié)點(diǎn)之間也沒(méi)有一致的視圖。如果能夠?qū)⒓褐谐擞?jì)算資源外的存儲(chǔ)資源也利用起來(lái),既可以提高存儲(chǔ)資源利用率,又可以互為容錯(cuò)與備份,這是集群存儲(chǔ)的內(nèi)在要求。目前市面上出售的存儲(chǔ)集群產(chǎn)品主要分為兩大類(lèi):一類(lèi)是集群文件系統(tǒng),一類(lèi)是建立在集群的架構(gòu)之上的獨(dú)立硬件設(shè)備。不過(guò),集群存儲(chǔ)效率有待提高。
1.3 分布式存儲(chǔ)發(fā)展現(xiàn)狀
國(guó)外的信息產(chǎn)業(yè)起步早于國(guó)內(nèi),人均計(jì)算資源占有率也遠(yuǎn)遠(yuǎn)高于國(guó)內(nèi),云計(jì)算的概念和運(yùn)營(yíng)由國(guó)外企業(yè)率先發(fā)起,現(xiàn)在幾乎所有的一線(xiàn)IT企業(yè)都有參與到了國(guó)際云計(jì)算領(lǐng)域中,各公司依據(jù)自己傳統(tǒng)的技術(shù)領(lǐng)域和市場(chǎng)策略都提出了自己的云計(jì)算架構(gòu),從各個(gè)方向進(jìn)軍云計(jì)算。云計(jì)算是一個(gè)綜合性的技術(shù),現(xiàn)在的國(guó)際企業(yè)由于都有很好的技術(shù)背景,他們通過(guò)深挖技術(shù)基礎(chǔ)把大量以前的產(chǎn)品和技術(shù)的云計(jì)算特征挖掘出來(lái),由于各個(gè)企業(yè)定位不同,基礎(chǔ)各異,所提出的云計(jì)算以及相應(yīng)的云服務(wù)有一定差別。云存儲(chǔ)作為云計(jì)算的重要組成部分,目前已有許多的云存儲(chǔ)服務(wù)供應(yīng)商,他們主要將應(yīng)用技術(shù)、搜索和存儲(chǔ)相結(jié)合,構(gòu)建云存儲(chǔ)給企業(yè)和個(gè)人提供一系列的存儲(chǔ)服務(wù)。
在國(guó)外,在云存儲(chǔ)方面比較有代表性的企業(yè)和服務(wù)主要有Amazon(亞馬遜)的S3(簡(jiǎn)單存儲(chǔ)服務(wù)),S3 提供的Web Services 為開(kāi)發(fā)者提供了開(kāi)發(fā)接口,并允許第三方工具例如S3 Backup、Duplictiy、S3 Solutions 等等在A(yíng)mazonS3 上開(kāi)發(fā);Google(谷歌)在2009 年正式對(duì)外提供云存儲(chǔ)服務(wù),以GFS[10]作為基礎(chǔ);云存儲(chǔ)初創(chuàng)廠(chǎng)商 Zetta 發(fā)布了 Enterprise Cloud Storage Service這種存儲(chǔ)服務(wù);EMC 攜手AT&T 發(fā)布了云存儲(chǔ)服務(wù)Synaptic Storage as aService;賽門(mén)鐵克的一款用于云存儲(chǔ)環(huán)境的集群文件系統(tǒng) FileStore,它可用來(lái)為 900 萬(wàn)用戶(hù)提供總共 40PB 的在線(xiàn)存儲(chǔ)空間。IBM 的Blue Cloud(藍(lán)云)以開(kāi)源的HDFS 用來(lái)作為大規(guī)模數(shù)據(jù)存儲(chǔ)與處理的基礎(chǔ),并對(duì)外提供了云存儲(chǔ)解決方案 IBM Smart Business Storage 等等。
在國(guó)內(nèi),云存儲(chǔ)服務(wù)業(yè)也引起了廣泛的關(guān)注,世紀(jì)互聯(lián) CloudE* 云存儲(chǔ)為企業(yè)和個(gè)人提供安全、可靠云存儲(chǔ)服務(wù)。華為賽門(mén)鐵克科技有限公司根據(jù)云存儲(chǔ)業(yè)務(wù)特性,推出了業(yè)界第一款可實(shí)現(xiàn)S3 休眠模式的 OceanStor T3000 存儲(chǔ)節(jié)點(diǎn)設(shè)備,該設(shè)備具有高效節(jié)能、開(kāi)放、簡(jiǎn)化管理等特點(diǎn)。
從發(fā)展的趨勢(shì)來(lái)看,云存儲(chǔ)是云計(jì)算大規(guī)模推廣的第一步,它承接了網(wǎng)絡(luò)存儲(chǔ)的基礎(chǔ),融合了新的服務(wù)理念,因此不論是從技術(shù)上,還是從用戶(hù)使用習(xí)慣上,云存儲(chǔ)都比較貼近人們生活,成為了云計(jì)算應(yīng)用的前驅(qū),也逐步成為云計(jì)算研究和應(yīng)用的入手點(diǎn)【1】。
第二章 理論基礎(chǔ)
作為未來(lái)存儲(chǔ)的主要技術(shù)之一,分布式存儲(chǔ)越來(lái)越受到各個(gè)企業(yè)的重視。作為分布式存儲(chǔ)的一種,云存儲(chǔ)也得到了快速的發(fā)展。目前各企業(yè)對(duì)于存儲(chǔ)的主要要求是低成本、高性能、高安全性、高效率等,而傳統(tǒng)的存儲(chǔ)方式已不能滿(mǎn)足企業(yè)對(duì)存儲(chǔ)的要求,這就提出了分布式存儲(chǔ)的概念以及對(duì)相關(guān)技術(shù)的研究。
2.1 存儲(chǔ)歷程
在計(jì)算機(jī)科學(xué)和信息技術(shù)的不斷發(fā)展過(guò)程中,信息的處理需求越來(lái)越大促使了技術(shù)的不斷進(jìn)步,信息的存儲(chǔ)容量從最早期的KB(千字節(jié))級(jí)別發(fā)展到MB(百萬(wàn)字節(jié))、GB(十億字節(jié))級(jí)別,直到現(xiàn)在的TB(萬(wàn)億字節(jié))級(jí)別,甚至對(duì)PB(千萬(wàn)億字節(jié))級(jí)別也提出了需求。與對(duì)存儲(chǔ)容量不斷增長(zhǎng)的需求相適應(yīng),存儲(chǔ)結(jié)構(gòu)也在不斷的發(fā)生變化,從磁盤(pán)到磁盤(pán)陣列,從單點(diǎn)到多點(diǎn)再到網(wǎng)絡(luò)存儲(chǔ),而現(xiàn)在,存儲(chǔ)技術(shù)和結(jié)構(gòu)還在不斷發(fā)生變化。
隨著網(wǎng)絡(luò)技術(shù)的發(fā)展和計(jì)算機(jī)處理能力的不管提高,早期的傳統(tǒng)單機(jī)數(shù)據(jù)處理方式逐漸被以網(wǎng)絡(luò)數(shù)據(jù)為中心的處理方式所取代,在成熟的網(wǎng)絡(luò)存儲(chǔ)結(jié)構(gòu)中,比較有代表性結(jié)構(gòu)主要有以下三種方式,分別是直接附加存儲(chǔ)(Direct AttachedStorage ,DAS),網(wǎng)絡(luò)附加存儲(chǔ)(Network Attached Storage, NAS),和存儲(chǔ)區(qū)域網(wǎng)絡(luò)(Storage Area Network ,SAN)。
在直接附加存儲(chǔ)這種結(jié)構(gòu)中,將存儲(chǔ)設(shè)備通過(guò)SCSI 接口或者光纖通道直接和主機(jī)相連,通過(guò)總線(xiàn)來(lái)訪(fǎng)問(wèn)存儲(chǔ)設(shè)備,數(shù)據(jù)不能在不同主機(jī)之間共享。DAS 主要應(yīng)用在網(wǎng)絡(luò)資源不足、數(shù)據(jù)庫(kù)或應(yīng)用服務(wù)器程序需要直接訪(fǎng)問(wèn)存儲(chǔ)設(shè)備的時(shí)候,傳統(tǒng)的郵件服務(wù)器就是比較典型的代表。由于在DAS中,文件服務(wù)器需要參與所有的數(shù)據(jù)請(qǐng)求和傳送,在大規(guī)模的數(shù)據(jù)訪(fǎng)問(wèn)時(shí),文件服務(wù)器將成為制約整體性能的瓶頸;此外在需要多節(jié)點(diǎn)共享數(shù)據(jù)的情況下,DAS結(jié)構(gòu)也不適合,因此高性能計(jì)算環(huán)境也不適用DAS 結(jié)構(gòu)。
網(wǎng)絡(luò)附加存儲(chǔ)(Network Attached Storage, NAS)是一種文件網(wǎng)絡(luò)存儲(chǔ)結(jié)構(gòu),它通過(guò)以太網(wǎng)及其他標(biāo)準(zhǔn)的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)將存儲(chǔ)設(shè)備連接到許多計(jì)算機(jī)上,建立專(zhuān)用于數(shù)據(jù)存儲(chǔ)的存儲(chǔ)內(nèi)部網(wǎng)絡(luò)。應(yīng)用程序通過(guò)網(wǎng)絡(luò)訪(fǎng)問(wèn)文件系統(tǒng),具有結(jié)構(gòu)簡(jiǎn)單,跨平臺(tái)數(shù)據(jù)共享的優(yōu)點(diǎn),但是其性能受限,不能提供應(yīng)用程序需要的帶寬;
存儲(chǔ)區(qū)域網(wǎng)絡(luò)使用專(zhuān)用存儲(chǔ)網(wǎng)絡(luò)代替總線(xiàn),通過(guò)使用光纖通道連接到一群計(jì)算機(jī)上來(lái)建立專(zhuān)用于數(shù)據(jù)存儲(chǔ)的區(qū)域網(wǎng)絡(luò)。SAN 把存儲(chǔ)功能剝離出來(lái),實(shí)現(xiàn)了存儲(chǔ)設(shè)備和主機(jī)相分離,存儲(chǔ)設(shè)備在應(yīng)用程序之間共享,它能在更低層次的數(shù)據(jù)塊級(jí)提供數(shù)據(jù)共享,能夠?yàn)榧合到y(tǒng)提供更高的 I/O 性能,此外,使用光纖結(jié)構(gòu)使得物理跨度達(dá)到了10 公里的連接長(zhǎng)度,這使得物理上分離的存儲(chǔ)變得簡(jiǎn)單,但是成本代價(jià)高,用于系統(tǒng)的一致性維護(hù)和數(shù)據(jù)同步的代價(jià)開(kāi)銷(xiāo)很大。
2.2 云存儲(chǔ)的提出以及涉及的技術(shù)
作為未來(lái)存取數(shù)據(jù)和配置軟件及服務(wù)的基礎(chǔ)架構(gòu),現(xiàn)在“云計(jì)算”已經(jīng)越來(lái)越流行的被人所談?wù)。這并不奇怪,這種模糊性的概念被遮蓋在一個(gè)范圍廣泛,不同架構(gòu)之下的保護(hù)傘中,范圍從高度集成和集中(例如,軟件作為一個(gè)服務(wù)產(chǎn)品,如Salesfrce.com)或分解和抽象(例如,亞馬遜的使用計(jì)算EC2/S3)。原頻譜結(jié)束之前,在一個(gè)非常具體的數(shù)據(jù)中心,復(fù)雜的邏輯和抽象的資源捆綁在一起以提供一種高度特殊的服務(wù)——通過(guò)整合可能提供更高的性能和效率,而且還降低了靈活性和增加成本來(lái)更換提供商。在頻譜的另一個(gè)結(jié)束端,數(shù)據(jù)中心基礎(chǔ)設(shè)施供應(yīng)商提供最小的接口以提供很抽象的資源(例如,“存儲(chǔ)文件”),這將很便捷并且更換供應(yīng)商方便,但是卻可能由于服務(wù)器端應(yīng)用程序集成的缺陷而增加額外開(kāi)銷(xiāo)[2]。
為保證高可用、高可靠和經(jīng)濟(jì)性,云存儲(chǔ)采用分布式存儲(chǔ)的方式來(lái)存儲(chǔ)數(shù)據(jù),采用冗余存儲(chǔ)的方式來(lái)保證存儲(chǔ)數(shù)據(jù)的可靠性,即為同一份數(shù)據(jù)存儲(chǔ)多個(gè)副本。
另外,云存儲(chǔ)系統(tǒng)需要同時(shí)滿(mǎn)足大量用戶(hù)的需求,并行地為大量用戶(hù)提供服務(wù)。因此,云存儲(chǔ)的數(shù)據(jù)存儲(chǔ)技術(shù)必須具有高吞吐率和高傳輸率的特點(diǎn)。
云存儲(chǔ)系統(tǒng)由大量服務(wù)器組成,同時(shí)為大量用戶(hù)服務(wù),因此云存儲(chǔ)系統(tǒng)采用分布式存儲(chǔ)的方式存儲(chǔ)數(shù)據(jù),用冗余存儲(chǔ)的方式保證數(shù)據(jù)的可靠性。云存儲(chǔ)系統(tǒng)中廣泛使用的數(shù)據(jù)存儲(chǔ)系統(tǒng)是Google的GFS和Hadoop團(tuán)隊(duì)開(kāi)發(fā)的GFS的開(kāi)源實(shí)現(xiàn)HDFS。
云存儲(chǔ)的數(shù)據(jù)存儲(chǔ)技術(shù)未來(lái)的發(fā)展將集中在超大規(guī)模的數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)加密和安全性保障以及繼續(xù)提高I/O速率等方面。
GFS即Google文件系統(tǒng)(Google File System),是一個(gè)可擴(kuò)展的分布式文件系統(tǒng),用于大型的、分布式的對(duì)大量數(shù)據(jù)進(jìn)行訪(fǎng)問(wèn)的應(yīng)用。GFS的設(shè)計(jì)思想不同于傳統(tǒng)的文件系統(tǒng),是針對(duì)大規(guī)模數(shù)據(jù)處理和Google應(yīng)用特性而設(shè)計(jì)的。它運(yùn)行于練劍的普通硬件上,但可以提供容錯(cuò)功能。它可以給大量的用戶(hù)提供總體性能較高的服務(wù)。
GFS是一個(gè)管理大型分布式數(shù)據(jù)密集型計(jì)算的可擴(kuò)展的分布式文件系統(tǒng)它使用廉價(jià)的商用硬件搭建系統(tǒng)并向大量用戶(hù)提供容錯(cuò)的高性能的服務(wù)。
GFS系統(tǒng)由一個(gè)Master和大量的塊服務(wù)器構(gòu)成。Master存放文件系統(tǒng)的所有元數(shù)據(jù)包括名字空間、存取控制、文件分塊信息、文件塊的位置信息等。GFS中的文件塊分為64MB的塊進(jìn)行存儲(chǔ)。
在GFS文件系統(tǒng)中,采用冗余存儲(chǔ)的方式來(lái)保證數(shù)據(jù)的可靠性。每份數(shù)據(jù)在系統(tǒng)中保存3個(gè)以上的備份。為了保證數(shù)據(jù)的一致性,對(duì)于數(shù)據(jù)的所有修改哦在所有的備份上進(jìn)行,并用版本號(hào)的方式來(lái)確保所有備份處于一致的狀態(tài)。
客戶(hù)端不通過(guò)Master讀取數(shù)據(jù),避免了大量讀操作使Master成為系統(tǒng)瓶頸?蛻(hù)端從 ……(未完,全文共28514字,當(dāng)前僅顯示5129字,請(qǐng)閱讀下面提示信息。
收藏《畢業(yè)論文:分布式存儲(chǔ)相關(guān)技術(shù)的研究》)