<menuitem id="q2ech"></menuitem>

鍐欎綔鎸囧 | 棣栭〉鐧婚檰 | 浼氬憳娉ㄥ唽 | 娆㈣繋鎶曠ǹ | 鏈珯甯姪 | 绔欏唴鎼滅储 | 淇濆瓨妗岄潰 | 娴忚瓒宠抗 | 浼氬憳澧炲€�

您的位置：新文秘網(wǎng)>>畢業(yè)論文/文教論文/科技/文化/宣傳講話/>>正文

論文：數(shù)據(jù)挖掘技術(shù)在圖書館工作中的應(yīng)用

發(fā)表時(shí)間:2014/2/11 21:28:28

論文：數(shù)據(jù)挖掘技術(shù)在圖書館工作中的應(yīng)用

摘要：
　　數(shù)據(jù)挖掘是一門新興的數(shù)據(jù)分析技術(shù)。本文介紹數(shù)據(jù)挖掘在數(shù)字圖書館實(shí)現(xiàn)的流程和方法，并對(duì)其在圖書館應(yīng)用作出科學(xué)分析。使現(xiàn)代圖書館服務(wù)領(lǐng)域得以擴(kuò)寬，從傳統(tǒng)查詢服務(wù)擴(kuò)展到基于WEB信息空間或自動(dòng)化管理系統(tǒng)的知識(shí)服務(wù)。
關(guān)鍵詞：數(shù)據(jù)挖掘數(shù)字圖書館
Key word: Data mining Digital Library
　　　
引言
　　隨著IT技術(shù)的的迅速發(fā)展以及數(shù)據(jù)庫管理系統(tǒng)的廣泛應(yīng)用，人們積累的數(shù)據(jù)越來越多。激增的數(shù)據(jù)背后隱藏著許多重要的信息，人們希望能夠?qū)ζ溥M(jìn)行更高層次的分析，以便更好地利用這些數(shù)據(jù)。作為信息集中的載體，圖書館在數(shù)字化進(jìn)程中也面臨著同樣的問題。怎樣幫助讀者從茫茫的信息海洋中獲取有用的知識(shí)？數(shù)字圖書館白皮書指出: 數(shù)字圖書館系統(tǒng)的建設(shè)必須使用高新技術(shù)做支持。[1] 目前的數(shù)據(jù)庫系統(tǒng)可以高效地實(shí)現(xiàn)數(shù)據(jù)的錄入、查詢、統(tǒng)計(jì)等
……（新文秘網(wǎng)http://m.120pk.cn省略659字，正式會(huì)員可完整閱讀）……　
，檢查數(shù)據(jù)的完整性及數(shù)據(jù)
的一致性，消除噪聲或不一致數(shù)據(jù)。
（4）數(shù)據(jù)挖掘算法：使用智能方法提供挖掘的知識(shí)。這些知識(shí)可以用一種特定的方式
表示或使用一些常用的表示方式。
　�。�5）知識(shí)評(píng)估：根據(jù)需要對(duì)知識(shí)發(fā)現(xiàn)過程中的某些處理階段進(jìn)行優(yōu)化，直到滿足要求。
　�。�6）知識(shí)發(fā)現(xiàn)：使用可視化和知識(shí)表示技術(shù)，向用戶提供挖掘的知識(shí)。
2．?dāng)?shù)據(jù)挖掘主要的功能：
　　目前數(shù)據(jù)挖掘技術(shù)很多，從功能上主要有關(guān)聯(lián)分析、序列模式分析、分類分析、聚類模式分析等方法[4]。
基于關(guān)聯(lián)的分析：關(guān)聯(lián)是指兩個(gè)或者多個(gè)變量的取值之間存在某種規(guī)律性,例如一個(gè)
模式的出現(xiàn)意味著另一個(gè)模式的出現(xiàn)。它是數(shù)據(jù)庫中存在的一類重要的可被發(fā)現(xiàn)的知識(shí)，目的是為了挖掘隱藏在數(shù)據(jù)間的相互關(guān)系，包括簡(jiǎn)單關(guān)聯(lián)、時(shí)序關(guān)聯(lián)和因果關(guān)聯(lián)等。通常關(guān)聯(lián)規(guī)則需要找出的是支持度和置信度分別大于或等于用戶指定的最小支持度和置信度。在圖書館應(yīng)用中可用來分析讀者的興趣。
　　關(guān)聯(lián)分析包含兩種客觀度量。一種客觀度量是規(guī)則的支持度S%(support),即滿足規(guī)則的樣本百分比，表示同時(shí)包含*和Y的事務(wù)概率。另一種客觀度量是置信度C%（confidence），表示既包含*的事務(wù)也包含Y的概率。用公式表示為：Support(*Y)=P(*Y)，Confidence(*Y)=P(*/Y) 。
　　2）基于序列的分析。重點(diǎn)在于分析數(shù)據(jù)間的前后或因果關(guān)系。如時(shí)間序列模式是根據(jù)數(shù)據(jù)隨時(shí)間的變化趨勢(shì)預(yù)測(cè)將來的值，要考慮到時(shí)間的特殊性質(zhì)，比如一些周期性的時(shí)間定義，不同的日期，如節(jié)假日可能造成的影響，時(shí)間前后的相關(guān)性（過去事情對(duì)將來的影響力等）。在圖書館中可以用來預(yù)測(cè)讀者下一階段最可能借的書。以同一讀者為標(biāo)準(zhǔn)，在兩個(gè)Item間保持時(shí)間順序關(guān)系，則可以得出一個(gè)簡(jiǎn)單的序列規(guī)則。表示讀者在借了A書后，接下來必定也會(huì)借B書，其支持度為*%，置信度為y%。分析結(jié)果可指導(dǎo)管理人員排架工作，方便讀者查找。
　　3）分類分析。分類是數(shù)據(jù)挖掘的一種非常重要的方法，是按照分析對(duì)象的屬性、特征，建立不同的組類來描述事物。分類分析的輸入集是一組記錄集合和幾種標(biāo)記，標(biāo)記是指一組具有不同特征的類別。首先為每一個(gè)記錄賦予一個(gè)標(biāo)記，然后檢查這些標(biāo)定的記錄，描述出這些記錄的特征。例如對(duì)讀者行為進(jìn)行分析，提取讀者一段時(shí)間內(nèi)的借閱量，按借書頻率來劃分讀者的級(jí)別，將讀者分為：一般、初級(jí)、中級(jí)、高級(jí)四類。用分類分析方法檢查這些記錄，然后給出讀者級(jí)別描述：“高級(jí)讀者是指那些年借閱量在*冊(cè)以上，年齡在y歲之間�！蓖ㄟ^分析結(jié)果了解讀者借閱習(xí)慣, 確定書目的復(fù)本數(shù)量，使館藏資源得到充分利用。
　　4）聚類分析。數(shù)據(jù)庫中的記錄可被劃分為一系列有意義的子集，這個(gè)過程被稱為聚類。它與分類和預(yù)測(cè)不同，聚類分析只是分析數(shù)據(jù)對(duì)象，而不考慮已知的類標(biāo)記。聚類前并不知道將要?jiǎng)澐值慕M的數(shù)量和類型，也不知道根據(jù)哪一個(gè)數(shù)據(jù)項(xiàng)來定義組。把數(shù)據(jù)劃分到不同的組中，組之間的差別盡可能大，組內(nèi)的差別盡可能小。將觀察到的內(nèi)容組織成類分層結(jié)構(gòu)，把類似的事件組織在一起。由此可以導(dǎo)出規(guī)則。它與分類分析法是互逆的過程。對(duì)于類型、數(shù)值及文本數(shù)據(jù)都可以處理。在圖書館應(yīng)用中可以對(duì)讀者數(shù)據(jù)進(jìn)行聚類，方便分類編制，以識(shí)別讀者的同類子群。
　　一般要使得到的分析結(jié)果更科學(xué)更真實(shí)，可綜合使用幾種挖掘技術(shù)。
　　　3.數(shù)據(jù)挖掘在圖書館中的應(yīng)用。
目前，數(shù)據(jù)挖掘技術(shù)廣泛在銀行、電信、保險(xiǎn)、交通、 ……（未完，全文共5274字，當(dāng)前僅顯示1852字，請(qǐng)閱讀下面提示信息。收藏《論文：數(shù)據(jù)挖掘技術(shù)在圖書館工作中的應(yīng)用》）

復(fù)制以上全部?jī)?nèi)容　下載word文檔(.doc)并保存在桌面

上一篇：論文：圖書館的核心能力及其基礎(chǔ)
下一篇：從圖書館的基礎(chǔ)工作看ILAS

文章搜索

相關(guān)文章

浣撹涓撴爮

琛屼笟涓撴爮

鑺傛棩涓撴爮

鏃舵斂涓撴爮

设为首页 | 加入收藏 | 首页登陆 | 会员注册 | 投稿提现赚钱 | 写作指导 | 本站帮助 | 站内搜索 | 付款方法 | 免费加入会员