目錄/提綱:……
一、研究背景與起源
二、四個主要研究領(lǐng)域
(一)宏觀經(jīng)濟領(lǐng)域
(二)大宗商品領(lǐng)域
(三)股市領(lǐng)域
(四)旅游領(lǐng)域
三、課題組相關(guān)研究成果
四、研究展望
……
干部學習講稿:網(wǎng)絡(luò)搜索與社會經(jīng)濟行為相關(guān)性研究
呂本富 教授
中國科學院研究生院管理學院常務(wù)副院長
我們這個研究也談不上有多么新的進展,我就是想把國內(nèi)外做的關(guān)于網(wǎng)絡(luò)搜索方面的研究以及我們自己的課題組做的研究向大家報告一下。那么,這個應(yīng)該說是一個新的研究領(lǐng)域。它在未來會有什么樣的意義跟大家說一下。
我們說四個方面的內(nèi)容,研究的背景與起源;現(xiàn)在研究的四個主要領(lǐng)域;我們第三個是我們自己做的一些相關(guān)的成果;第四是說一下未來的展望。
一、研究背景與起源
傳統(tǒng)預測研究的數(shù)據(jù)來源主要是相關(guān)部門的統(tǒng)計數(shù)據(jù),這些數(shù)據(jù)收集和公布具有滯后性。舉一個例子來說,比如說CDC公布的疾病統(tǒng)計數(shù)據(jù),它怎么也得有一個、三個星期到一個月的滯后性,所以當這個數(shù)據(jù)公布出來的時候再采取措施,某種意義上就晚了。因為它的滯后性就導致了你在采取的措施的不可能很現(xiàn)實地來采取。
那么,網(wǎng)絡(luò)技術(shù)的發(fā)展為行為預測研究開辟了新的領(lǐng)域。因為,搜索引擎記錄了數(shù)以億計用戶的關(guān)注及需求,所以我們有的時候把搜索引擎還有把一些網(wǎng)站上對數(shù)據(jù)的記錄稱為全樣本研究,因為像統(tǒng)計局做的,由社調(diào)隊、城調(diào)隊做的樣本,再大也就1萬多個電話調(diào)查,可是網(wǎng)絡(luò)搜索是以“億”計的關(guān)注及需求,所以給社會經(jīng)濟預測提供了客觀、及時的數(shù)據(jù)基礎(chǔ)。
網(wǎng)絡(luò)搜索與社會經(jīng)濟行為相關(guān)性研究已成為一個新的研究熱點。
好,我們報告一下最近對國內(nèi)外文獻的梳理。第一個,搜索數(shù)據(jù)在國外用的最早的就是對流感
疫情的檢測,Johnson和Heather研究網(wǎng)站日志發(fā)現(xiàn)醫(yī)學網(wǎng)站訪問次數(shù)以及流感文章搜索次數(shù)與流感發(fā)病人數(shù)之間
……(新文秘網(wǎng)http://m.120pk.cn省略1075字,正式會員可完整閱讀)……
了很長時間,才有這樣的一個結(jié)果。所以在我們后面在做這個研究預測的時候,選擇關(guān)健詞,就像給上證指數(shù)選擇成份股一樣,就成為一個研究的熱點,因為不是每個研究機構(gòu)都可以搞大量的服務(wù)器群來運算的,你想它是5000萬個關(guān)健詞,每個詞都和流感算一個相關(guān)性,這是一個很大的計算量。后來,我們可以通過經(jīng)濟學或者社會的原理來選詞了,這不是像這種海量計算的方法來選詞,總之這是他的一個貢獻。
第二個,他找到了搜索的合成指數(shù)和流行病發(fā)病率的半對數(shù)關(guān)系,就是函數(shù)的解析式,后來我們改進了做了一個全對數(shù),可能比他還好一點,就是我們改進了對他的預測模型,比Jeremy Ginsberg預測效果還好一些。
那么,第三個貢獻就是通過這個預測的結(jié)果,說明確實比傳統(tǒng)CDC公布的數(shù)據(jù)可以提前2周,你當天搜索,就再計算我就可以出來趨勢,然而CDC的統(tǒng)計怎么也得兩三周才出來,這對于流感來說已經(jīng)太晚了,控制不住了。所以,這就是Jeremy Ginsberg工作的最大價值。
到了2009年,Joshua Ritterma發(fā)現(xiàn)通過搜索引擎的關(guān)健詞預測也不一定太好,所以他自己做了一個蜘蛛程序?qū)iT從媒體方面方面抓取關(guān)健詞,也是一個辦法。通過UGC,就是在用戶的日志、微博、博客中間抓取,因為很多人感冒會發(fā)一條微博:“我今天感冒了”。他就是從UGC中抓關(guān)健詞,發(fā)現(xiàn)也還可以預測,UGC在有的時候結(jié)合流感的歷史數(shù)據(jù)和關(guān)鍵指標預測效果可能還好一些,因為這個搜索引擎的數(shù)據(jù),可能比微博的數(shù)據(jù)時至要長,因為搜索引擎抓的是網(wǎng)頁,在形成網(wǎng)頁搜索的時候,如果現(xiàn)在是用手機的情況下,可能感冒,他有時候會瞬時就會發(fā)一條“我今天感冒”的消息,因此這種UGC的內(nèi)容,時間就更段,所以 Ritterma對蜘蛛程序,對用戶產(chǎn)生的內(nèi)容,UGC內(nèi)容的抓取,因此效果就更好。這是我們講的這么一個起源。
二、四個主要研究領(lǐng)域
(一)宏觀經(jīng)濟領(lǐng)域
除了剛才我們說的公共衛(wèi)生的預測以外,現(xiàn)在搜索的數(shù)據(jù)在四個領(lǐng)域現(xiàn)在用得比較多。
第一個是宏觀經(jīng)濟領(lǐng)域。關(guān)于失業(yè)率的預測,Askitas(2009)對網(wǎng)絡(luò)搜索與德國失業(yè)率之間的關(guān)系做出了實證研究,結(jié)果表明就業(yè)類詞匯搜索量與當月失業(yè)率有著較強的相關(guān)性;我們國家現(xiàn)在也不怎么公布失業(yè)率,但是這個玩意很準,為什么呢?因為失業(yè)的人總要搜索就業(yè)網(wǎng)站,根據(jù)就業(yè)網(wǎng)站搜索詞的搜索量基本上可以搜索判斷出失業(yè)率大體上是多少,所以這個東西你隱瞞也隱瞞不了,除非他不找工作,一般人失業(yè)了還是去找。
第二個,F(xiàn)rancesco以意大利、美國的失業(yè)率為研究對象,用搜索數(shù)據(jù)與經(jīng)濟數(shù)據(jù)(工業(yè)生產(chǎn)指數(shù)、就業(yè)預期指數(shù))的預測相比較,發(fā)現(xiàn)搜索數(shù)據(jù)預測失業(yè)率效果優(yōu)于傳統(tǒng)經(jīng)濟數(shù)據(jù)。就是說通過搜索數(shù)據(jù)來預測失業(yè)率是比傳統(tǒng)的經(jīng)濟數(shù)據(jù)要優(yōu),或者說預測效果更好。
關(guān)于居民消費的預測,Torsten和Simeon認為基于統(tǒng)計調(diào)查的消費者信心指數(shù)是宏觀因素的反映,就是不是有消費者信息指數(shù),這類的調(diào)查,而并未體現(xiàn)出預期與決策之間的關(guān)系;而網(wǎng)絡(luò)搜索數(shù)據(jù)可以彌補該不足;對比發(fā)現(xiàn),搜索指數(shù)對消費的預測精度好于消費者信息指數(shù),那么這個搜索指數(shù)能夠預測,比如說他曾經(jīng)說搜索搜索指數(shù)能夠預測2008年12月的消費拐點。什么意思呢?2008年不是金融危機么,他一下子就預測到這時候的消費的拐點在急速地下降,就是他這個數(shù)據(jù)對經(jīng)濟拐點的預測也強于傳統(tǒng)的調(diào)查數(shù)據(jù),因為他是大批量的。
關(guān)于居民消費預測,Nicolás(2009)認為搜索指數(shù)由6部分關(guān)鍵詞構(gòu)成,Google 搜索分成若干大類,他就直接用Google Insights的分類,根據(jù)分類的詞數(shù),然后和宏觀經(jīng)濟作了對比,他認為Google Insights分類的前三類反映了消費者意向的改變,因為Google搜索他本身就有一個Google Insights,他對里邊關(guān)健詞有一些分類,這樣省得我們自己在分,直接采用Google的數(shù)據(jù),那比如說這前3類是和家庭債務(wù)負擔有關(guān)系,第二個是和能源與公共事務(wù)的花費有關(guān)系,就是和水電煤氣的花費有關(guān),第三顯示了商業(yè)景氣。后3類關(guān)健詞主要是指奢侈品的消費,信貸類商品消費和保險類的商品消費。Nicolás是美國紐約大學研究網(wǎng)絡(luò)經(jīng)濟比較資深的專家,我們跟著他的時間還是比較久,那么他得出搜索指數(shù)預測力高于兩類消費信息指數(shù),就是他根據(jù)消費者信心指數(shù)要高一些。
那么Marta(2009)從消費行為理論出發(fā),研究消費與信息的關(guān)系,基礎(chǔ)有一個叫持久收入假說,預防性儲存藜蘆緩沖庫存模型等等。這個他從消費行為理論出發(fā)。那么他把搜索數(shù)據(jù)作為信息的一個度量指標,結(jié)論發(fā)現(xiàn)信息對消費支出有顯著的影響,但是這種應(yīng)該作用在很短時間內(nèi)就會衰減,這一現(xiàn)象不能充分地被上述消費理論解釋,更加符合信號提取模型?傊甅arta不僅僅是是研究兩個量之間的預測關(guān)系,他力圖用搜索數(shù)據(jù)作為一種信號模型,來修改傳統(tǒng)的理論,他認為傳統(tǒng)的持久收入假說,庫存模型通過這樣的一個修正就更加符合實際,換一句話說,對搜索行為的研究已經(jīng)不僅僅是在技術(shù)面的探索,有人認為可能通過信號的改變會改變一些傳統(tǒng)的經(jīng)濟的理論。
那么,宏觀經(jīng)濟也有人研究經(jīng)濟周期與經(jīng)濟衰退的問題。第一個是Tanya Suhoy在2009年等人研究了經(jīng)濟衰退。最重要的數(shù)據(jù)的來源是以色列的一個科學家做的,他研究的對象就是2008年的經(jīng)濟衰退。
那么他回答的問題,以色列搜索數(shù)據(jù)是否能夠用于經(jīng)濟的預測,哪些搜索數(shù)據(jù)對經(jīng)濟的預測有顯著作用?其實,跟我們剛剛說的一樣,哪些數(shù)據(jù)呢?搜集哪些數(shù)據(jù)就是哪些關(guān)健詞是有預測能力的?所以我們的課題組現(xiàn)在最重要的研究工作就是選擇在搜索詞里邊,每天成千上萬,把那些 ……(未完,全文共12690字,當前僅顯示3019字,請閱讀下面提示信息。
收藏《干部學習講稿:網(wǎng)絡(luò)搜索與社會經(jīng)濟行為相關(guān)性研究》)