<td id="9nzly"><big id="9nzly"><dfn id="9nzly"></dfn></big></td>

<li id="9nzly"><meter id="9nzly"></meter></li>

您的位置：新文秘網(wǎng)>>畢業(yè)論文/文教論文/通信/>>正文

論文開題報(bào)告：基于百度百科的網(wǎng)絡(luò)文本檢索

發(fā)表時(shí)間:2013/8/9 19:12:00

大學(xué)本科畢業(yè)論文(設(shè)計(jì))開題報(bào)告
學(xué)院：計(jì)算機(jī)科學(xué)與技術(shù)　　　　　　　　　　　　　專業(yè)班級：08軟件工程A班

課題名稱基于百度百科的網(wǎng)絡(luò)文本檢索

1、本課題的的研究目的和意義：

網(wǎng)絡(luò)上存在海量的中文文本資源,其稀疏性與不規(guī)范性令以詞組統(tǒng)計(jì)方式來進(jìn)行訓(xùn)練和分類的傳統(tǒng)分類方法效果不佳.百度百科是一個(gè)豐富的與社會熱點(diǎn)、網(wǎng)絡(luò)流行緊密相關(guān)的動(dòng)態(tài)中文知識庫,基于百度百科本文提出一種網(wǎng)絡(luò)文本分類方法,通過百科知識關(guān)系將文本從外延詞條集合映射到能體現(xiàn)其內(nèi)涵的語義主題空間中,再通過對文本語義主題的統(tǒng)計(jì)規(guī)律性來計(jì)算相似度,進(jìn)而完成文本分類. 有效地避開窮舉詞條的統(tǒng)計(jì)方式,解決現(xiàn)有文本分類算法需要大量訓(xùn)練數(shù)據(jù)和無法應(yīng)對網(wǎng)絡(luò)詞匯和新生詞匯的這兩大難題.

2、文獻(xiàn)綜述（國內(nèi)外研究情況及其發(fā)展）：

在中文領(lǐng)域,很多學(xué)者致力于文本分類的研究,并產(chǎn)生了一些應(yīng)用系統(tǒng),如清華大學(xué)的漢語語料自動(dòng)分類系統(tǒng)；上海交大朱的中文科技文獻(xiàn)分類系統(tǒng)；東北大學(xué)的新聞?wù)Z料漢語文本自動(dòng)分類模型.在分類算法方面有：朱靖波等提出一種基于知識的文本分類方,將領(lǐng)域知識引入文本分類,利用領(lǐng)域知識提取文本特征；李榮陸等使用最大熵模型進(jìn)行中文文本的分類；陳曉云等利用帶詞頻的頻繁模式挖掘分類規(guī)則并應(yīng)用于文本分類；張博鋒等為了
……（新文秘網(wǎng)http://m.120pk.cn省略887字，正式會員可完整閱讀）……　
型,將這個(gè)模型應(yīng)用于未切分的測試集樣本,完成整個(gè)自動(dòng)切分的過程.自2003 年國際中文分詞評測活動(dòng)Bakeoff開展以來,有了統(tǒng)一的訓(xùn)練與測試語料,回避了“詞”的定義這樣一個(gè)棘手的問題.通過“分詞規(guī)范+詞表+分詞語料庫”的方法,使詞語在真實(shí)文本中得到了可計(jì)算的定義,這是實(shí)現(xiàn)計(jì)算機(jī)自動(dòng)分詞和可比評測的基礎(chǔ).

4、擬解決的關(guān)鍵問題：
[1] 須從百度百科上下載數(shù)量兩百多萬的詞條，會花費(fèi)不少時(shí)間，并且大數(shù)量的詞條，帶來的是處理時(shí)間的負(fù)擔(dān)。所以，必須找到最優(yōu)的處理方法，盡量節(jié)省時(shí)間，提高效率。
[2]對于語義主題的判斷必須具備較高的準(zhǔn)確度，在處理規(guī)范文本和不規(guī)范文本時(shí)要統(tǒng)籌兼顧，盡力提高識別的準(zhǔn)確度。

5、研究思路、方法和步驟：
1. 從百度百科上下載所有詞條, 從 http://baike.baidu.com/view/1.html 開始，掃描到最后,對每個(gè)頁面抽取出詞條id、詞條名和開放分類。其中開放分類可能有多個(gè)，如’百度百科’ 分類有‘百度，百度百科，網(wǎng)絡(luò)，百科全書，百科詞典’。
2. 把每個(gè)詞條存進(jìn)數(shù)據(jù)庫（MySQL），建立一個(gè)表叫’baikewords’并按名字建立索引，包括id, 詞條名和開放分類.有些詞條的開放分類之間并非以’，’相隔，存進(jìn)數(shù)據(jù)庫時(shí)需要處理成以英文符號’,’分隔，再存進(jìn)數(shù)據(jù)庫。
3. 把表’baikewords’中所有即是詞條，又是開放分類的詞條找出，存進(jìn)語義主題表‘topics’，字段包括 ‘id 和 topic’ ，topic字段就是詞條名，id為該詞條在百度百科中的id。把 topic當(dāng)作語義主題。
4. 寫一段算法，把一段文本中所有潛在詞條，都查找出來。如‘南京市長江大橋在大勝關(guān)’,所有潛在詞條有如下：南京南京市市長長江長江大橋江大(長江大學(xué)) 大橋大勝關(guān) 。
5. 把所有劃分為同一類的文本，如‘電影’類的所有文本當(dāng)作一個(gè)類文本。
6. 找出類文本中所有侯選詞條，并把這些候選詞條的開放分類全部作為該類別的語義主題侯選項(xiàng),對每一個(gè)侯選語義主題都進(jìn)行統(tǒng)計(jì),并歸一化為語義主題權(quán)重：

其中, 取值為1或0,取1時(shí)表示第j個(gè)詞條和語義相關(guān), 反之值取0, 表示T的所有侯選詞條總數(shù),k為語義主題總數(shù)，即表’topics’中的所有主題個(gè)數(shù)。

6、本課題的進(jìn)度安排：

2月：彩票類型相關(guān)新聞數(shù)據(jù)采集與代碼采集，寫腳本下載2000篇彩票類型文章。

3月：百科數(shù)據(jù)收集及代碼，以及百篇計(jì)算機(jī)主題和百篇股票主題的判斷。

4月：主題提出算法。

5月：論文撰寫。

7、參考文獻(xiàn)：
[1] Kim H, Howland P, Park H. Dimension reduction in te*t classification with support vector machines. Journal of Machine Learning Research, 2005,6(1):37-53.

[2] Kazama J, Tsujii J. Ma*imum entropy models with inequality constraints: A case study on te*t categorization. Machine Learning,2005,60(1-3):159-194.

[3] Liu WY, Song N. A fuzzy approach to classification of te*t documents. Journal of Computer Science and Technology, 2003,18(5):640-647.

[4] Bigi B. Using Kullback-Leibler distance for te*t categorization. In: Sebastiani F, ed. Proc. of the 25th European Conf. on Information Retrieval (ECIR-03). Pisa: Springer-Verlag, 2003. 305-319.

[5] Nunzio GMD. A bidimensional view of documents for te*t categorisation. In: McDonald S, Tai ……（未完，全文共4933字，當(dāng)前僅顯示2492字，請閱讀下面提示信息。收藏《論文開題報(bào)告：基于百度百科的網(wǎng)絡(luò)文本檢索》）

復(fù)制以上全部內(nèi)容　下載word文檔(.doc)并保存在桌面

上一篇：論文開題報(bào)告：一類具有垂直傳染的SIR模型的穩(wěn)定性
下一篇：畢業(yè)論文：技術(shù)壁壘對中國出口的影響及對策

文章搜索

相關(guān)文章

<big id="joi1q"></big>

<var id="joi1q"><video id="joi1q"></video></var>