畢業(yè)設(shè)計(論文)
題目:分布式存儲相關(guān)技術(shù)的研究
學(xué) 院:計算機科學(xué)與技術(shù)學(xué)院
專 業(yè):網(wǎng)絡(luò)工程
摘要:分布式存儲技術(shù)因其能為用戶提供安全、海量、隨時隨地的數(shù)據(jù)存儲功能而得到了迅速的發(fā)展。本文首先介紹了有關(guān)分布式存儲系統(tǒng)的一些概念及發(fā)展現(xiàn)狀,其次介紹了有關(guān)云計算和云存儲的有關(guān)知識,并詳細介紹了云存儲的結(jié)構(gòu),優(yōu)勢,發(fā)展現(xiàn)狀以及涉及的關(guān)鍵技術(shù)等,讓大家對云存儲有大致的了解。接著介紹了Hadoop架構(gòu)的一些知識,目的是對于這一開源項目有一定的了解并在hadoop的基礎(chǔ)上設(shè)計實現(xiàn)一個分布式云存儲,通過統(tǒng)計單詞出現(xiàn)頻率的實驗,讓我們更加了解分布式存儲的計算過程,對分布式存儲有一個更加清晰的了解。
關(guān)鍵詞:分布式存儲 云存儲 分布式文件存儲系統(tǒng)
Abstract:Because able to provide users with safety and mass data storage function, Distributed storage technology developed very rapidly in recent years. This paper first introduced some concepts and development status of the distributed storage system. Followed by introduction of the related knowledge about the cloud computing and cloud storage, and gave details of cloud storage structure, advantage, development status and key technologies involved, so that we have a general understanding of the cloud storage. And then introduces some knowledge about the Hadoop architecture, the purpose is that we can have a certain understanding about the open source projects and design and implement a distributed cloud storage on the base of Hadoop. Through the statistics of word frequency e*periment, we know more abo
……(新文秘網(wǎng)http://m.120pk.cn省略1826字,正式會員可完整閱讀)……
利用多臺存儲服務(wù)器分擔(dān)存儲負荷,利用位置服務(wù)器定位存儲信息,它不但提高了系統(tǒng)的可靠性、可用性和存取效率,還易于擴展。
1.2 分布式存儲目前的兩個研究熱點
一是基于P2P的分布式存儲;赑2P的分布式存儲系統(tǒng)是一種基于對等網(wǎng)絡(luò)技術(shù)的數(shù)據(jù)存儲系統(tǒng),它可以提供高效率、可擴展、魯棒和負載平衡的數(shù)據(jù)存取功能。對于存儲系統(tǒng),用戶關(guān)心數(shù)據(jù)的吞吐量以及定位、搜索和路由的效率。傳統(tǒng)的集中方式無法滿足大規(guī)模數(shù)據(jù)存取的要求,就需要采用新的體系來管理系統(tǒng)中的數(shù)據(jù)。基于P2P的分布式存儲系統(tǒng)可以利用大量節(jié)點的計算和帶寬資源用于數(shù)據(jù)存取,具有弱結(jié)構(gòu)化、沒有單一故障點、可靠性好、易于擴展、數(shù)據(jù)吞吐率高等優(yōu)點。不過,基于P2P的分布式存儲系統(tǒng)仍有很多技術(shù)問題需要解決。
二是集群存儲。服務(wù)器集群技術(shù)已經(jīng)非常成熟,應(yīng)用也非常廣泛,效果也非常顯著。應(yīng)用集群技術(shù),不僅可以有效提升數(shù)據(jù)中心服務(wù)器系統(tǒng)的穩(wěn)定性、可用性及可管理性,同時,允許用戶使用價格相對低廉的配置(如刀片)捆綁來替代昂貴的單塊集成電路的高端服務(wù)器,在不影響性能的情況下節(jié)約了存儲成本。在傳統(tǒng)的集群系統(tǒng)中,每一個節(jié)點服務(wù)器都有自己的本地存儲,這些存儲資源并沒有被統(tǒng)一利用,在節(jié)點之間也沒有一致的視圖。如果能夠?qū)⒓褐谐擞嬎阗Y源外的存儲資源也利用起來,既可以提高存儲資源利用率,又可以互為容錯與備份,這是集群存儲的內(nèi)在要求。目前市面上出售的存儲集群產(chǎn)品主要分為兩大類:一類是集群文件系統(tǒng),一類是建立在集群的架構(gòu)之上的獨立硬件設(shè)備。不過,集群存儲效率有待提高。
1.3 分布式存儲發(fā)展現(xiàn)狀
國外的信息產(chǎn)業(yè)起步早于國內(nèi),人均計算資源占有率也遠遠高于國內(nèi),云計算的概念和運營由國外企業(yè)率先發(fā)起,現(xiàn)在幾乎所有的一線IT企業(yè)都有參與到了國際云計算領(lǐng)域中,各公司依據(jù)自己傳統(tǒng)的技術(shù)領(lǐng)域和市場策略都提出了自己的云計算架構(gòu),從各個方向進軍云計算。云計算是一個綜合性的技術(shù),現(xiàn)在的國際企業(yè)由于都有很好的技術(shù)背景,他們通過深挖技術(shù)基礎(chǔ)把大量以前的產(chǎn)品和技術(shù)的云計算特征挖掘出來,由于各個企業(yè)定位不同,基礎(chǔ)各異,所提出的云計算以及相應(yīng)的云服務(wù)有一定差別。云存儲作為云計算的重要組成部分,目前已有許多的云存儲服務(wù)供應(yīng)商,他們主要將應(yīng)用技術(shù)、搜索和存儲相結(jié)合,構(gòu)建云存儲給企業(yè)和個人提供一系列的存儲服務(wù)。
在國外,在云存儲方面比較有代表性的企業(yè)和服務(wù)主要有Amazon(亞馬遜)的S3(簡單存儲服務(wù)),S3 提供的Web Services 為開發(fā)者提供了開發(fā)接口,并允許第三方工具例如S3 Backup、Duplictiy、S3 Solutions 等等在AmazonS3 上開發(fā);Google(谷歌)在2009 年正式對外提供云存儲服務(wù),以GFS[10]作為基礎(chǔ);云存儲初創(chuàng)廠商 Zetta 發(fā)布了 Enterprise Cloud Storage Service這種存儲服務(wù);EMC 攜手AT&T 發(fā)布了云存儲服務(wù)Synaptic Storage as aService;賽門鐵克的一款用于云存儲環(huán)境的集群文件系統(tǒng) FileStore,它可用來為 900 萬用戶提供總共 40PB 的在線存儲空間。IBM 的Blue Cloud(藍云)以開源的HDFS 用來作為大規(guī)模數(shù)據(jù)存儲與處理的基礎(chǔ),并對外提供了云存儲解決方案 IBM Smart Business Storage 等等。
在國內(nèi),云存儲服務(wù)業(yè)也引起了廣泛的關(guān)注,世紀(jì)互聯(lián) CloudE* 云存儲為企業(yè)和個人提供安全、可靠云存儲服務(wù)。華為賽門鐵克科技有限公司根據(jù)云存儲業(yè)務(wù)特性,推出了業(yè)界第一款可實現(xiàn)S3 休眠模式的 OceanStor T3000 存儲節(jié)點設(shè)備,該設(shè)備具有高效節(jié)能、開放、簡化管理等特點。
從發(fā)展的趨勢來看,云存儲是云計算大規(guī)模推廣的第一步,它承接了網(wǎng)絡(luò)存儲的基礎(chǔ),融合了新的服務(wù)理念,因此不論是從技術(shù)上,還是從用戶使用習(xí)慣上,云存儲都比較貼近人們生活,成為了云計算應(yīng)用的前驅(qū),也逐步成為云計算研究和應(yīng)用的入手點【1】。
第二章 理論基礎(chǔ)
作為未來存儲的主要技術(shù)之一,分布式存儲越來越受到各個企業(yè)的重視。作為分布式存儲的一種,云存儲也得到了快速的發(fā)展。目前各企業(yè)對于存儲的主要要求是低成本、高性能、高安全性、高效率等,而傳統(tǒng)的存儲方式已不能滿足企業(yè)對存儲的要求,這就提出了分布式存儲的概念以及對相關(guān)技術(shù)的研究。
2.1 存儲歷程
在計算機科學(xué)和信息技術(shù)的不斷發(fā)展過程中,信息的處理需求越來越大促使了技術(shù)的不斷進步,信息的存儲容量從最早期的KB(千字節(jié))級別發(fā)展到MB(百萬字節(jié))、GB(十億字節(jié))級別,直到現(xiàn)在的TB(萬億字節(jié))級別,甚至對PB(千萬億字節(jié))級別也提出了需求。與對存儲容量不斷增長的需求相適應(yīng),存儲結(jié)構(gòu)也在不斷的發(fā)生變化,從磁盤到磁盤陣列,從單點到多點再到網(wǎng)絡(luò)存儲,而現(xiàn)在,存儲技術(shù)和結(jié)構(gòu)還在不斷發(fā)生變化。
隨著網(wǎng)絡(luò)技術(shù)的發(fā)展和計算機處理能力的不管提高,早期的傳統(tǒng)單機數(shù)據(jù)處理方式逐漸被以網(wǎng)絡(luò)數(shù)據(jù)為中心的處理方式所取代,在成熟的網(wǎng)絡(luò)存儲結(jié)構(gòu)中,比較有代表性結(jié)構(gòu)主要有以下三種方式,分別是直接附加存儲(Direct AttachedStorage ,DAS),網(wǎng)絡(luò)附加存儲(Network Attached Storage, NAS),和存儲區(qū)域網(wǎng)絡(luò)(Storage Area Network ,SAN)。
在直接附加存儲這種結(jié)構(gòu)中,將存儲設(shè)備通過SCSI 接口或者光纖通道直接和主機相連,通過總線來訪問存儲設(shè)備,數(shù)據(jù)不能在不同主機之間共享。DAS 主要應(yīng)用在網(wǎng)絡(luò)資源不足、數(shù)據(jù)庫或應(yīng)用服務(wù)器程序需要直接訪問存儲設(shè)備的時候,傳統(tǒng)的郵件服務(wù)器就是比較典型的代表。由于在DAS中,文件服務(wù)器需要參與所有的數(shù)據(jù)請求和傳送,在大規(guī)模的數(shù)據(jù)訪問時,文件服務(wù)器將成為制約整體性能的瓶頸;此外在需要多節(jié)點共享數(shù)據(jù)的情況下,DAS結(jié)構(gòu)也不適合,因此高性能計算環(huán)境也不適用DAS 結(jié)構(gòu)。
網(wǎng)絡(luò)附加存儲(Network Attached Storage, NAS)是一種文件網(wǎng)絡(luò)存儲結(jié)構(gòu),它通過以太網(wǎng)及其他標(biāo)準(zhǔn)的網(wǎng)絡(luò)拓撲結(jié)構(gòu)將存儲設(shè)備連接到許多計算機上,建立專用于數(shù)據(jù)存儲的存儲內(nèi)部網(wǎng)絡(luò)。應(yīng)用程序通過網(wǎng)絡(luò)訪問文件系統(tǒng),具有結(jié)構(gòu)簡單,跨平臺數(shù)據(jù)共享的優(yōu)點,但是其性能受限,不能提供應(yīng)用程序需要的帶寬;
存儲區(qū)域網(wǎng)絡(luò)使用專用存儲網(wǎng)絡(luò)代替總線,通過使用光纖通道連接到一群計算機上來建立專用于數(shù)據(jù)存儲的區(qū)域網(wǎng)絡(luò)。SAN 把存儲功能剝離出來,實現(xiàn)了存儲設(shè)備和主機相分離,存儲設(shè)備在應(yīng)用程序之間共享,它能在更低層次的數(shù)據(jù)塊級提供數(shù)據(jù)共享,能夠為集群系統(tǒng)提供更高的 I/O 性能,此外,使用光纖結(jié)構(gòu)使得物理跨度達到了10 公里的連接長度,這使得物理上分離的存儲變得簡單,但是成本代價高,用于系統(tǒng)的一致性維護和數(shù)據(jù)同步的代價開銷很大。
2.2 云存儲的提出以及涉及的技術(shù)
作為未來存取數(shù)據(jù)和配置軟件及服務(wù)的基礎(chǔ)架構(gòu),現(xiàn)在“云計算”已經(jīng)越來越流行的被人所談?wù)。這并不奇怪,這種模糊性的概念被遮蓋在一個范圍廣泛,不同架構(gòu)之下的保護傘中,范圍從高度集成和集中(例如,軟件作為一個服務(wù)產(chǎn)品,如Salesfrce.com)或分解和抽象(例如,亞馬遜的使用計算EC2/S3)。原頻譜結(jié)束之前,在一個非常具體的數(shù)據(jù)中心,復(fù)雜的邏輯和抽象的資源捆綁在一起以提供一種高度特殊的服務(wù)——通過整合可能提供更高的性能和效率,而且還降低了靈活性和增加成本來更換提供商。在頻譜的另一個結(jié)束端,數(shù)據(jù)中心基礎(chǔ)設(shè)施供應(yīng)商提供最小的接口以提供很抽象的資源(例如,“存儲文件”),這將很便捷并且更換供應(yīng)商方便,但是卻可能由于服務(wù)器端應(yīng)用程序集成的缺陷而增加額外開銷[2]。
為保證高可用、高可靠和經(jīng)濟性,云存儲采用分布式存儲的方式來存儲數(shù)據(jù),采用冗余存儲的方式來保證存儲數(shù)據(jù)的可靠性,即為同一份數(shù)據(jù)存儲多個副本。
另外,云存儲系統(tǒng)需要同時滿足大量用戶的需求,并行地為大量用戶提供服務(wù)。因此,云存儲的數(shù)據(jù)存儲技術(shù)必須具有高吞吐率和高傳輸率的特點。
云存儲系統(tǒng)由大量服務(wù)器組成,同時為大量用戶服務(wù),因此云存儲系統(tǒng)采用分布式存儲的方式存儲數(shù)據(jù),用冗余存儲的方式保證數(shù)據(jù)的可靠性。云存儲系統(tǒng)中廣泛使用的數(shù)據(jù)存儲系統(tǒng)是Google的GFS和Hadoop團隊開發(fā)的GFS的開源實現(xiàn)HDFS。
云存儲的數(shù)據(jù)存儲技術(shù)未來的發(fā)展將集中在超大規(guī)模的數(shù)據(jù)存儲、數(shù)據(jù)加密和安全性保障以及繼續(xù)提高I/O速率等方面。
GFS即Google文件系統(tǒng)(Google File System),是一個可擴展的分布式文件系統(tǒng),用于大型的、分布式的對大量數(shù)據(jù)進行訪問的應(yīng)用。GFS的設(shè)計思想不同于傳統(tǒng)的文件系統(tǒng),是針對大規(guī)模數(shù)據(jù)處理和Google應(yīng)用特性而設(shè)計的。它運行于練劍的普通硬件上,但可以提供容錯功能。它可以給大量的用戶提供總體性能較高的服務(wù)。
GFS是一個管理大型分布式數(shù)據(jù)密集型計算的可擴展的分布式文件系統(tǒng)它使用廉價的商用硬件搭建系統(tǒng)并向大量用戶提供容錯的高性能的服務(wù)。
GFS系統(tǒng)由一個Master和大量的塊服務(wù)器構(gòu)成。Master存放文件系統(tǒng)的所有元數(shù)據(jù)包括名字空間、存取控制、文件分塊信息、文件塊的位置信息等。GFS中的文件塊分為64MB的塊進行存儲。
在GFS文件系統(tǒng)中,采用冗余存儲的方式來保證數(shù)據(jù)的可靠性。每份數(shù)據(jù)在系統(tǒng)中保存3個以上的備份。為了保證數(shù)據(jù)的一致性,對于數(shù)據(jù)的所有修改哦在所有的備份上進行,并用版本號的方式來確保所有備份處于一致的狀態(tài)。
客戶端不通過Master讀取數(shù)據(jù),避免了大量讀操作使Master成為系統(tǒng)瓶頸?蛻舳藦 ……(未完,全文共28514字,當(dāng)前僅顯示5129字,請閱讀下面提示信息。
收藏《畢業(yè)論文:分布式存儲相關(guān)技術(shù)的研究》)