大學(xué)本科畢業(yè)論文(設(shè)計(jì))開題報(bào)告
學(xué)院:計(jì)算機(jī)科學(xué)與技術(shù) 專業(yè)班級:08軟件工程A班
課題名稱 基于百度百科的網(wǎng)絡(luò)文本檢索
1、本課題的的研究目的和意義:
網(wǎng)絡(luò)上存在海量的中文文本資源,其稀疏性與不規(guī)范性令以詞組統(tǒng)計(jì)方式來進(jìn)行訓(xùn)練和分類的傳統(tǒng)分類方法效果不佳.百度百科是一個(gè)豐富的與社會熱點(diǎn)、網(wǎng)絡(luò)流行緊密相關(guān)的動(dòng)態(tài)中文知識庫,基于百度百科本文提出一種網(wǎng)絡(luò)文本分類方法,通過百科知識關(guān)系將文本從外延詞條集合映射到能體現(xiàn)其內(nèi)涵的語義主題空間中,再通過對文本語義主題的統(tǒng)計(jì)規(guī)律性來計(jì)算相似度,進(jìn)而完成文本分類. 有效地避開窮舉詞條的統(tǒng)計(jì)方式,解決現(xiàn)有文本分類算法需要大量訓(xùn)練數(shù)據(jù)和無法應(yīng)對網(wǎng)絡(luò)詞匯和新生詞匯的這兩大難題.
2、 文獻(xiàn)綜述(國內(nèi)外研究情況及其發(fā)展):
在中文領(lǐng)域,很多學(xué)者致力于文本分類的研究,并產(chǎn)生了一些應(yīng)用系統(tǒng),如清華大學(xué)的漢語語料自動(dòng)分類系統(tǒng);上海交大朱的中文科技文獻(xiàn)分類系統(tǒng);東北大學(xué)的新聞?wù)Z料漢語文本自動(dòng)分類模型.在分類算法方面有:朱靖波等提出一種基于知識的文本分類方,將領(lǐng)域知識引入文本分類,利用領(lǐng)域知識提取文本特征;李榮陸等使用最大熵模型進(jìn)行中文文本的分類;陳曉云等利用帶詞頻的頻繁模式挖掘分類規(guī)則并應(yīng)用于文本分類;張博鋒等為了
……(新文秘網(wǎng)http://m.120pk.cn省略887字,正式會員可完整閱讀)……
型,將這個(gè)模型應(yīng)用于未切分的測試集樣本,完成整個(gè)自動(dòng)切分的過程.自2003 年國際中文分詞評測活動(dòng)Bakeoff開展以來,有了統(tǒng)一的訓(xùn)練與測試語料,回避了“詞”的定義這樣一個(gè)棘手的問題.通過“分詞規(guī)范+詞表+分詞語料庫”的方法,使詞語在真實(shí)文本中得到了可計(jì)算的定義,這是實(shí)現(xiàn)計(jì)算機(jī)自動(dòng)分詞和可比評測的基礎(chǔ).
4、 擬解決的關(guān)鍵問題:
[1] 須從百度百科上下載數(shù)量兩百多萬的詞條,會花費(fèi)不少時(shí)間,并且大數(shù)量的詞條,帶來的是處理時(shí)間的負(fù)擔(dān)。所以,必須找到最優(yōu)的處理方法,盡量節(jié)省時(shí)間,提高效率。
[2]對于語義主題的判斷必須具備較高的準(zhǔn)確度,在處理規(guī)范文本和不規(guī)范文本時(shí)要統(tǒng)籌兼顧,盡力提高識別的準(zhǔn)確度。
5、研究思路、方法和步驟:
1. 從百度百科上下載所有詞條, 從 http://baike.baidu.com/view/1.html 開始,掃描到最后,對每個(gè)頁面抽取出詞條id、詞條名和開放分類。其中開放分類可能有多個(gè),如’百度百科’ 分類有‘百度,百度百科,網(wǎng)絡(luò),百科全書,百科詞典’。
2. 把每個(gè)詞條存進(jìn)數(shù)據(jù)庫(MySQL),建立一個(gè)表叫’baikewords’并按名字建立索引,包括id, 詞條名 和開放分類.有些詞條的開放分類之間并非以’,’相隔,存進(jìn)數(shù)據(jù)庫時(shí)需要處理成以英文符號’,’分隔,再存進(jìn)數(shù)據(jù)庫。
3. 把表’baikewords’中 所有即是詞條,又是開放分類的詞條找出,存進(jìn)語義主題表‘topics’,字段包括 ‘id 和 topic’ ,topic字段就是詞條名,id為該詞條在百度百科中的id。 把 topic當(dāng)作語義主題。
4. 寫一段算法,把一段文本中所有潛在詞條,都查找出來。如‘南京市長江大橋在大勝關(guān)’,所有潛在詞條有如下:南京 南京市 市長 長江 長江大橋 江大(長江大學(xué)) 大橋 大勝關(guān) 。
5. 把所有劃分為同一類的文本,如‘電影’類的所有文本當(dāng)作一個(gè)類文本。
6. 找出類文本中所有侯選詞條,并把這些候選詞條的開放分類全部作為該類別的語義主題侯選項(xiàng),對每一個(gè)侯選語義主題都進(jìn)行統(tǒng)計(jì),并歸一化為語義主題權(quán)重:
其中, 取值為1或0,取1時(shí)表示第j個(gè)詞條和 語義相關(guān), 反之值取0, 表示T的所有侯選詞條總數(shù),k為語義主題總數(shù),即表’topics’中的所有主題個(gè)數(shù)。
6、本課題的進(jìn)度安排:
2月:彩票類型相關(guān)新聞數(shù)據(jù)采集與代碼采集,寫腳本下載2000篇彩票類型文章。
3月:百科數(shù)據(jù)收集及代碼,以及百篇計(jì)算機(jī)主題和百篇股票主題的判斷。
4月:主題提出算法。
5月:
論文撰寫。
7、參考文獻(xiàn):
[1] Kim H, Howland P, Park H. Dimension reduction in te*t classification with support vector machines. Journal of Machine Learning Research, 2005,6(1):37-53.
[2] Kazama J, Tsujii J. Ma*imum entropy models with inequality constraints: A case study on te*t categorization. Machine Learning,2005,60(1-3):159-194.
[3] Liu WY, Song N. A fuzzy approach to classification of te*t documents. Journal of Computer Science and Technology, 2003,18(5):640-647.
[4] Bigi B. Using Kullback-Leibler distance for te*t categorization. In: Sebastiani F, ed. Proc. of the 25th European Conf. on Information Retrieval (ECIR-03). Pisa: Springer-Verlag, 2003. 305-319.
[5] Nunzio GMD. A bidimensional view of documents for te*t categorisation. In: McDonald S, Tai ……(未完,全文共4933字,當(dāng)前僅顯示2492字,請閱讀下面提示信息。
收藏《論文開題報(bào)告:基于百度百科的網(wǎng)絡(luò)文本檢索》)