。ㄖ禧悾ㄉ虾?哲娬螌W(xué)院信息管理系))
摘要作為情報(bào)語言學(xué)研究對(duì)象之一的自然語言,在情報(bào)檢索中的應(yīng)用正日趨廣泛。本文將其與規(guī)范語言進(jìn)行了比較,重點(diǎn)討論了其應(yīng)用中的三個(gè)問題,自然語言標(biāo)引、標(biāo)引檢索用詞表及檢索語言整體化趨勢(shì),并就其未來發(fā)展作了闡述。
主題詞自然語言規(guī)范語言情報(bào)檢索
***
自然語言與規(guī)范語言
自然語言()是相對(duì)于規(guī)范語言()而言的,其本質(zhì)特征是不受控制。從情報(bào)檢索的發(fā)展歷程來看,作為語言保障的規(guī)范語言是對(duì)自然語言實(shí)施控制而出現(xiàn)的;而情報(bào)檢索的進(jìn)一步發(fā)展必使得曾被否定的自然語言重新得以肯定。
規(guī)范語言的產(chǎn)生
規(guī)范語言是適應(yīng)情報(bào)檢索需要而創(chuàng)制的一種人工語言,它在手工檢索條件下產(chǎn)生,并得到了充分發(fā)展及應(yīng)用。
如歷史最久遠(yuǎn)的分類語言,采用比較抽象的類號(hào)來表達(dá)概念,組織檢索系統(tǒng)。它具有良好的系統(tǒng)性,適于學(xué)科或?qū)I(yè)出發(fā)的族性檢索。同時(shí),隨著學(xué)科發(fā)展及用戶需求的變化,分類語言也由等級(jí)體系型日益向分面組配方向發(fā)展。
而規(guī)范語言的另一重要分支——主題語言,則以自然語言為基礎(chǔ),經(jīng)過人為的形
……(新文秘網(wǎng)http://m.120pk.cn省略756字,正式會(huì)員可完整閱讀)……
用的自然語言進(jìn)行情報(bào)檢索,符合檢索者的習(xí)慣,簡(jiǎn)便易行,對(duì)于日益增大的普遍檢索用戶群而言更是如此。
、鄄捎米匀徽Z言標(biāo)引與檢索,可達(dá)到足夠的專指度,且不存在類目或詞匯遲滯的問題。
、茏匀徽Z言具有通用性,不存在規(guī)范語言的統(tǒng)一兼容問題,在使用自然語言的各數(shù)據(jù)庫間可實(shí)現(xiàn)標(biāo)引、檢索成果的共享。
、葑匀徽Z言標(biāo)引為計(jì)算機(jī)的自動(dòng)處理創(chuàng)造了條件,其發(fā)展將可能取消費(fèi)時(shí)、費(fèi)力的人工標(biāo)引。
因此自、年代進(jìn)行的二次克蘭菲爾德得出最少實(shí)施控制的系統(tǒng)較之其它系統(tǒng)優(yōu)越的結(jié)果后,自然語言檢索系統(tǒng)得到了迅速發(fā)展,發(fā)達(dá)國家的聯(lián)機(jī)檢索已從只能利用受控的敘詞語言進(jìn)行布爾邏輯檢索的第一代發(fā)展能利用自然語言進(jìn)行語境邏輯檢索的第二代。
自然語言在標(biāo)引檢索中的應(yīng)用研究
如前所述,自然語言較之規(guī)范語言更適于當(dāng)前的信息狀況及機(jī)檢條件,并且數(shù)十年來在實(shí)踐中也得到了相當(dāng)?shù)膽?yīng)用和發(fā)展。同時(shí),由于它本身的不足,以及使用條件的不斷變化,自然語言也面臨著一些理論及實(shí)踐方面的不足。以下分三方面進(jìn)行論述。
自然語言標(biāo)引問題
按照蘭開斯特的劃分,自然語言標(biāo)引可分為三種形式,人工標(biāo)引(含賦詞標(biāo)引和抽詞標(biāo)引)、機(jī)器標(biāo)引(抽詞)和不標(biāo)引(又分全文本和部分文本)。在實(shí)際應(yīng)用中,人工標(biāo)引雖然效果好,但處理速度較慢,因此較常用且?guī)и呄蛐缘娜允亲詣?dòng)標(biāo)引(即上述的后兩種形式)以及部分人工的機(jī)助標(biāo)引。目前國內(nèi)已實(shí)現(xiàn)的自然語言標(biāo)引方式有以下幾種。
、贌o標(biāo)引,即全文單漢字標(biāo)引
這是與全文檢索技術(shù)相對(duì)應(yīng)的一種典型的自然語言標(biāo)引方式。它比較完全地實(shí)現(xiàn)了自動(dòng)化,且標(biāo)引深度大,檢索方便靈活,可以檢到一些細(xì)節(jié)性、邊緣性的信息。但由于以字為對(duì)象進(jìn)行處理,易產(chǎn)生虛假組配,檢索噪聲大而篩選負(fù)擔(dān)重,同時(shí)檢全率較低,擴(kuò)、縮、改檢比較困難。
、诨陬}名或文摘的抽詞標(biāo)引
這種方式應(yīng)用較早,至今仍在漢語文獻(xiàn)自動(dòng)標(biāo)引中占有較大比重。它一般需構(gòu)造一個(gè)抽詞詞典,然后根據(jù)各種算法用文獻(xiàn)中的自然語言匹配詞典(或相反),匹配或成功即成為標(biāo)引詞。由于采用先組式標(biāo)引,不像單漢字標(biāo)引需對(duì)字的字間關(guān)系進(jìn)行組配,因此檢索速度快。但它所能處理的自然語言受到抽詞詞典的構(gòu)造、維護(hù)狀況限制,且純機(jī)械的抽詞也無法完全避免誤差。
③基于題名的增補(bǔ)關(guān)鍵詞標(biāo)引
關(guān)鍵詞標(biāo)引是適應(yīng)科技文獻(xiàn)數(shù)量劇增及快速簡(jiǎn)便的檢索需要而產(chǎn)生的,早期主要基于題名的情報(bào)性,直接抽取其中的自然語詞(關(guān)鍵詞)并加以輪排而成。然而題名在表達(dá)概念的準(zhǔn)確性、專指性、完備性方面存在差異,對(duì)非科技文獻(xiàn)猶甚,因此出現(xiàn)了從文摘、正文甚至著者等方面增補(bǔ)關(guān)鍵詞的改進(jìn)方法,這同時(shí)也增加了人工輔助的成分。
、僭~串標(biāo)引
詞串標(biāo)引是在對(duì)自然語言的理解基礎(chǔ)上,由人將用自然語言書寫的主題描述句標(biāo)記成形式化主句(或稱詞串),然后由機(jī)器自動(dòng)完成相應(yīng)的索引款目。國外年代末年代初詞串標(biāo)引發(fā)展迅速,問世了一批進(jìn)行詞串標(biāo)引的機(jī)編索引系統(tǒng)如、、等。其中最著名的標(biāo)引專指度高,輪排準(zhǔn)確,款目與自然語言貼近。漢語是對(duì)其職能號(hào)、使用規(guī)則進(jìn)行修正調(diào)整后專用于漢語文獻(xiàn)的主題標(biāo)引系統(tǒng),與之配套的微機(jī)軟件亦已研制成功。
自然語言標(biāo)引與檢索詞表問題
自然語言檢索的理想模式是標(biāo)引、檢索階段均使用自然語言,且不使用任何控制手段。然而這將造成檢索策略構(gòu)造困難、檢全率的問題,同時(shí)也在不同程度上存在一些影響檢準(zhǔn)率的因素。同時(shí),由于計(jì)算機(jī)對(duì)自然語言的理解力以及漢語語詞切分、識(shí)別尚存在相當(dāng)距離,純自然語言自動(dòng)標(biāo)引與檢索未獲真正意義上的推廣及使用。
這種狀況使得自然語言也不得不研究吸取規(guī)范語言的某些控制手段或指導(dǎo)思想,以期在保持自然語言的基本特征及固有優(yōu)點(diǎn)下,最大限度地提高標(biāo)引、檢索效率。由此產(chǎn)生了各種自然語言標(biāo)引、檢索詞表(典)。
①后控制詞表
以往的規(guī)范文語言詞表是在文獻(xiàn)或情報(bào)輸入時(shí)就對(duì)索引詞先行加以控制(受控標(biāo)引),因此又稱為前控詞表。由于它的控制帶有一定的粗泛性 ……(未完,全文共6051字,當(dāng)前僅顯示2125字,請(qǐng)閱讀下面提示信息。
收藏《自然語言的應(yīng)用研究》)