目錄/提綱:……
一、研究背景與起源
二、四個主要研究領(lǐng)域
(一)宏觀經(jīng)濟(jì)領(lǐng)域
(二)大宗商品領(lǐng)域
(三)股市領(lǐng)域
(四)旅游領(lǐng)域
三、課題組相關(guān)研究成果
四、研究展望
……
干部學(xué)習(xí)講稿:網(wǎng)絡(luò)搜索與社會經(jīng)濟(jì)行為相關(guān)性研究
呂本富 教授
中國科學(xué)院研究生院管理學(xué)院常務(wù)副院長
我們這個研究也談不上有多么新的進(jìn)展,我就是想把國內(nèi)外做的關(guān)于網(wǎng)絡(luò)搜索方面的研究以及我們自己的課題組做的研究向大家報(bào)告一下。那么,這個應(yīng)該說是一個新的研究領(lǐng)域。它在未來會有什么樣的意義跟大家說一下。
我們說四個方面的內(nèi)容,研究的背景與起源;現(xiàn)在研究的四個主要領(lǐng)域;我們第三個是我們自己做的一些相關(guān)的成果;第四是說一下未來的展望。
一、研究背景與起源
傳統(tǒng)預(yù)測研究的數(shù)據(jù)來源主要是相關(guān)部門的統(tǒng)計(jì)數(shù)據(jù),這些數(shù)據(jù)收集和公布具有滯后性。舉一個例子來說,比如說CDC公布的疾病統(tǒng)計(jì)數(shù)據(jù),它怎么也得有一個、三個星期到一個月的滯后性,所以當(dāng)這個數(shù)據(jù)公布出來的時候再采取措施,某種意義上就晚了。因?yàn)樗臏笮跃蛯?dǎo)致了你在采取的措施的不可能很現(xiàn)實(shí)地來采取。
那么,網(wǎng)絡(luò)技術(shù)的發(fā)展為行為預(yù)測研究開辟了新的領(lǐng)域。因?yàn)椋阉饕嬗涗浟藬?shù)以億計(jì)用戶的關(guān)注及需求,所以我們有的時候把搜索引擎還有把一些網(wǎng)站上對數(shù)據(jù)的記錄稱為全樣本研究,因?yàn)橄窠y(tǒng)計(jì)局做的,由社調(diào)隊(duì)、城調(diào)隊(duì)做的樣本,再大也就1萬多個電話調(diào)查,可是網(wǎng)絡(luò)搜索是以“億”計(jì)的關(guān)注及需求,所以給社會經(jīng)濟(jì)預(yù)測提供了客觀、及時的數(shù)據(jù)基礎(chǔ)。
網(wǎng)絡(luò)搜索與社會經(jīng)濟(jì)行為相關(guān)性研究已成為一個新的研究熱點(diǎn)。
好,我們報(bào)告一下最近對國內(nèi)外文獻(xiàn)的梳理。第一個,搜索數(shù)據(jù)在國外用的最早的就是對流感
疫情的檢測,Johnson和Heather研究網(wǎng)站日志發(fā)現(xiàn)醫(yī)學(xué)網(wǎng)站訪問次數(shù)以及流感文章搜索次數(shù)與流感發(fā)病人數(shù)之間
……(新文秘網(wǎng)http://m.120pk.cn省略1075字,正式會員可完整閱讀)……
了很長時間,才有這樣的一個結(jié)果。所以在我們后面在做這個研究預(yù)測的時候,選擇關(guān)健詞,就像給上證指數(shù)選擇成份股一樣,就成為一個研究的熱點(diǎn),因?yàn)椴皇敲總研究機(jī)構(gòu)都可以搞大量的服務(wù)器群來運(yùn)算的,你想它是5000萬個關(guān)健詞,每個詞都和流感算一個相關(guān)性,這是一個很大的計(jì)算量。后來,我們可以通過經(jīng)濟(jì)學(xué)或者社會的原理來選詞了,這不是像這種海量計(jì)算的方法來選詞,總之這是他的一個貢獻(xiàn)。
第二個,他找到了搜索的合成指數(shù)和流行病發(fā)病率的半對數(shù)關(guān)系,就是函數(shù)的解析式,后來我們改進(jìn)了做了一個全對數(shù),可能比他還好一點(diǎn),就是我們改進(jìn)了對他的預(yù)測模型,比Jeremy Ginsberg預(yù)測效果還好一些。
那么,第三個貢獻(xiàn)就是通過這個預(yù)測的結(jié)果,說明確實(shí)比傳統(tǒng)CDC公布的數(shù)據(jù)可以提前2周,你當(dāng)天搜索,就再計(jì)算我就可以出來趨勢,然而CDC的統(tǒng)計(jì)怎么也得兩三周才出來,這對于流感來說已經(jīng)太晚了,控制不住了。所以,這就是Jeremy Ginsberg工作的最大價(jià)值。
到了2009年,Joshua Ritterma發(fā)現(xiàn)通過搜索引擎的關(guān)健詞預(yù)測也不一定太好,所以他自己做了一個蜘蛛程序?qū)iT從媒體方面方面抓取關(guān)健詞,也是一個辦法。通過UGC,就是在用戶的日志、微博、博客中間抓取,因?yàn)楹芏嗳烁忻皶l(fā)一條微博:“我今天感冒了”。他就是從UGC中抓關(guān)健詞,發(fā)現(xiàn)也還可以預(yù)測,UGC在有的時候結(jié)合流感的歷史數(shù)據(jù)和關(guān)鍵指標(biāo)預(yù)測效果可能還好一些,因?yàn)檫@個搜索引擎的數(shù)據(jù),可能比微博的數(shù)據(jù)時至要長,因?yàn)樗阉饕孀サ氖蔷W(wǎng)頁,在形成網(wǎng)頁搜索的時候,如果現(xiàn)在是用手機(jī)的情況下,可能感冒,他有時候會瞬時就會發(fā)一條“我今天感冒”的消息,因此這種UGC的內(nèi)容,時間就更段,所以 Ritterma對蜘蛛程序,對用戶產(chǎn)生的內(nèi)容,UGC內(nèi)容的抓取,因此效果就更好。這是我們講的這么一個起源。
二、四個主要研究領(lǐng)域
(一)宏觀經(jīng)濟(jì)領(lǐng)域
除了剛才我們說的公共衛(wèi)生的預(yù)測以外,現(xiàn)在搜索的數(shù)據(jù)在四個領(lǐng)域現(xiàn)在用得比較多。
第一個是宏觀經(jīng)濟(jì)領(lǐng)域。關(guān)于失業(yè)率的預(yù)測,Askitas(2009)對網(wǎng)絡(luò)搜索與德國失業(yè)率之間的關(guān)系做出了實(shí)證研究,結(jié)果表明就業(yè)類詞匯搜索量與當(dāng)月失業(yè)率有著較強(qiáng)的相關(guān)性;我們國家現(xiàn)在也不怎么公布失業(yè)率,但是這個玩意很準(zhǔn),為什么呢?因?yàn)槭I(yè)的人總要搜索就業(yè)網(wǎng)站,根據(jù)就業(yè)網(wǎng)站搜索詞的搜索量基本上可以搜索判斷出失業(yè)率大體上是多少,所以這個東西你隱瞞也隱瞞不了,除非他不找工作,一般人失業(yè)了還是去找。
第二個,F(xiàn)rancesco以意大利、美國的失業(yè)率為研究對象,用搜索數(shù)據(jù)與經(jīng)濟(jì)數(shù)據(jù)(工業(yè)生產(chǎn)指數(shù)、就業(yè)預(yù)期指數(shù))的預(yù)測相比較,發(fā)現(xiàn)搜索數(shù)據(jù)預(yù)測失業(yè)率效果優(yōu)于傳統(tǒng)經(jīng)濟(jì)數(shù)據(jù)。就是說通過搜索數(shù)據(jù)來預(yù)測失業(yè)率是比傳統(tǒng)的經(jīng)濟(jì)數(shù)據(jù)要優(yōu),或者說預(yù)測效果更好。
關(guān)于居民消費(fèi)的預(yù)測,Torsten和Simeon認(rèn)為基于統(tǒng)計(jì)調(diào)查的消費(fèi)者信心指數(shù)是宏觀因素的反映,就是不是有消費(fèi)者信息指數(shù),這類的調(diào)查,而并未體現(xiàn)出預(yù)期與決策之間的關(guān)系;而網(wǎng)絡(luò)搜索數(shù)據(jù)可以彌補(bǔ)該不足;對比發(fā)現(xiàn),搜索指數(shù)對消費(fèi)的預(yù)測精度好于消費(fèi)者信息指數(shù),那么這個搜索指數(shù)能夠預(yù)測,比如說他曾經(jīng)說搜索搜索指數(shù)能夠預(yù)測2008年12月的消費(fèi)拐點(diǎn)。什么意思呢?2008年不是金融危機(jī)么,他一下子就預(yù)測到這時候的消費(fèi)的拐點(diǎn)在急速地下降,就是他這個數(shù)據(jù)對經(jīng)濟(jì)拐點(diǎn)的預(yù)測也強(qiáng)于傳統(tǒng)的調(diào)查數(shù)據(jù),因?yàn)樗谴笈康摹?br> 關(guān)于居民消費(fèi)預(yù)測,Nicolás(2009)認(rèn)為搜索指數(shù)由6部分關(guān)鍵詞構(gòu)成,Google 搜索分成若干大類,他就直接用Google Insights的分類,根據(jù)分類的詞數(shù),然后和宏觀經(jīng)濟(jì)作了對比,他認(rèn)為Google Insights分類的前三類反映了消費(fèi)者意向的改變,因?yàn)镚oogle搜索他本身就有一個Google Insights,他對里邊關(guān)健詞有一些分類,這樣省得我們自己在分,直接采用Google的數(shù)據(jù),那比如說這前3類是和家庭債務(wù)負(fù)擔(dān)有關(guān)系,第二個是和能源與公共事務(wù)的花費(fèi)有關(guān)系,就是和水電煤氣的花費(fèi)有關(guān),第三顯示了商業(yè)景氣。后3類關(guān)健詞主要是指奢侈品的消費(fèi),信貸類商品消費(fèi)和保險(xiǎn)類的商品消費(fèi)。Nicolás是美國紐約大學(xué)研究網(wǎng)絡(luò)經(jīng)濟(jì)比較資深的專家,我們跟著他的時間還是比較久,那么他得出搜索指數(shù)預(yù)測力高于兩類消費(fèi)信息指數(shù),就是他根據(jù)消費(fèi)者信心指數(shù)要高一些。
那么Marta(2009)從消費(fèi)行為理論出發(fā),研究消費(fèi)與信息的關(guān)系,基礎(chǔ)有一個叫持久收入假說,預(yù)防性儲存藜蘆緩沖庫存模型等等。這個他從消費(fèi)行為理論出發(fā)。那么他把搜索數(shù)據(jù)作為信息的一個度量指標(biāo),結(jié)論發(fā)現(xiàn)信息對消費(fèi)支出有顯著的影響,但是這種應(yīng)該作用在很短時間內(nèi)就會衰減,這一現(xiàn)象不能充分地被上述消費(fèi)理論解釋,更加符合信號提取模型?傊甅arta不僅僅是是研究兩個量之間的預(yù)測關(guān)系,他力圖用搜索數(shù)據(jù)作為一種信號模型,來修改傳統(tǒng)的理論,他認(rèn)為傳統(tǒng)的持久收入假說,庫存模型通過這樣的一個修正就更加符合實(shí)際,換一句話說,對搜索行為的研究已經(jīng)不僅僅是在技術(shù)面的探索,有人認(rèn)為可能通過信號的改變會改變一些傳統(tǒng)的經(jīng)濟(jì)的理論。
那么,宏觀經(jīng)濟(jì)也有人研究經(jīng)濟(jì)周期與經(jīng)濟(jì)衰退的問題。第一個是Tanya Suhoy在2009年等人研究了經(jīng)濟(jì)衰退。最重要的數(shù)據(jù)的來源是以色列的一個科學(xué)家做的,他研究的對象就是2008年的經(jīng)濟(jì)衰退。
那么他回答的問題,以色列搜索數(shù)據(jù)是否能夠用于經(jīng)濟(jì)的預(yù)測,哪些搜索數(shù)據(jù)對經(jīng)濟(jì)的預(yù)測有顯著作用?其實(shí),跟我們剛剛說的一樣,哪些數(shù)據(jù)呢?搜集哪些數(shù)據(jù)就是哪些關(guān)健詞是有預(yù)測能力的?所以我們的課題組現(xiàn)在最重要的研究工作就是選擇在搜索詞里邊,每天成千上萬,把那些 ……(未完,全文共12690字,當(dāng)前僅顯示3019字,請閱讀下面提示信息。
收藏《干部學(xué)習(xí)講稿:網(wǎng)絡(luò)搜索與社會經(jīng)濟(jì)行為相關(guān)性研究》)