[打印]我迄今為止最滿意的一個(gè)基金項(xiàng)目 這個(gè)項(xiàng)目是07年底拿到的,是一個(gè)只有二十多萬(wàn), 兩年時(shí)間(2008-2009)的小項(xiàng)目。說(shuō)來(lái)有趣,07年的時(shí)候張翼成老師向汪秉宏老師和我介紹了利用物理方法研究信息系統(tǒng)的思路,之前我們組的任捷已 經(jīng)跟隨張老師作了一些前期的研究工作。我在07年3月-6月到弗里堡訪問(wèn)了3個(gè)月,因?yàn)閺埨蠋煹闹笇?dǎo),和任捷、Matus的幫助(他們比我對(duì)這個(gè)問(wèn)題接觸 更早認(rèn)識(shí)也更深刻),我在那三個(gè)月參與合作了兩篇論文,后來(lái)發(fā)表在EPL和PRE上面,分別是張老師和我擔(dān)任第一作者。那個(gè)時(shí)候我對(duì)統(tǒng)計(jì)物理方法在信息系 統(tǒng)研究中的宏觀圖景沒(méi)有任何整體認(rèn)識(shí),但是對(duì)于推薦系統(tǒng)這個(gè)具體的研究問(wèn)題產(chǎn)生了一點(diǎn)感覺(jué),于是向汪老師建議提交一個(gè)這方面的申請(qǐng)書——這實(shí)際上是要冒很 大風(fēng)險(xiǎn)的,因?yàn)槲覀兘M這方面的前期工作和積累很少,不像復(fù)雜網(wǎng)絡(luò),申請(qǐng)不中都沒(méi)有道理!汪老師很支持,于是才有了這個(gè)項(xiàng)目。
項(xiàng)目是以信息學(xué)部主任基金的形式批準(zhǔn)的。李德毅老師是信息學(xué)部的主任,汪老師向他介 紹了我們的申請(qǐng)內(nèi)容,他表示支持。適逢后來(lái)在上海理工大學(xué)召開第三屆全國(guó)復(fù)雜網(wǎng)絡(luò)學(xué)術(shù)會(huì)議,會(huì)議第二天上午安排了五個(gè)大會(huì)報(bào)告,我的報(bào)告在李老師后面,講 的就是我們想做的內(nèi)容。會(huì)后李老師問(wèn)了幾個(gè)問(wèn)題,對(duì)于我們用物理學(xué)的方法研究信息科學(xué)中的問(wèn)題有一定興趣。我那個(gè)時(shí)候?qū)@個(gè)方向是有憧憬,但是也沒(méi)有信 心,我記得李老師問(wèn)了一個(gè)比較尖銳的問(wèn)題:“你們的研究中最根本的科學(xué)問(wèn)題是什么?”我不記得當(dāng)時(shí)是如何回答的了,但是這個(gè)問(wèn)題當(dāng)時(shí)我心中肯定是沒(méi)有清晰 答案的——即便現(xiàn)在,也最多只能有一個(gè)描述性的輪廓!
兩年多過(guò)去了,結(jié)題的時(shí)候看該基金參與支持下的22篇論文,覺(jué)得相對(duì)于這個(gè)基金的時(shí) 間和支持強(qiáng)度而言,答卷應(yīng)該還是優(yōu)秀的。這里的一點(diǎn)成績(jī)要?dú)w功于張老師和汪老師的指導(dǎo),以及劉建國(guó)、尚明生、呂琳媛、張子柯的合作研究。他們不僅是工作上 的好伙伴,也是我最好的一群朋友!和他們一起工作,本身就是一種很愉快的生活。
國(guó)家自然科學(xué)基金委信息科學(xué)部主任 基金 (項(xiàng)目批準(zhǔn)號(hào): 60744003)《動(dòng)態(tài)評(píng)價(jià)網(wǎng)絡(luò)的統(tǒng)計(jì)分析與信息挖掘》(2008-2009)項(xiàng)目的結(jié)題報(bào)告之中文簡(jiǎn)介
-----10篇代表性論文------
[1] 劉建國(guó),周濤,汪秉宏
個(gè)性化推薦系統(tǒng)的研究進(jìn)展
自然科學(xué)進(jìn)展,2009年1月,第19卷,1-15頁(yè)
該文根據(jù)推薦算法的不同,分別介紹了協(xié)同過(guò)濾系統(tǒng),基于內(nèi)容的推薦系統(tǒng),混合推薦系統(tǒng),以及最近興起的基于用戶—產(chǎn)品二部圖網(wǎng)絡(luò)結(jié)構(gòu)的推薦系 統(tǒng).并結(jié)合這些推薦系統(tǒng)的特點(diǎn)以及存在的缺陷,提出了改進(jìn)的方法和未來(lái)可能的若干研究方向。推薦系統(tǒng)的研究受到了信息科學(xué)、計(jì)算數(shù)學(xué)、統(tǒng)計(jì)物理學(xué)、認(rèn)知科 學(xué)等多學(xué)科的關(guān)注,它與管理科學(xué)、消費(fèi)行為等研究也密切相關(guān)。此文能夠?yàn)椴煌瑢W(xué)科領(lǐng)域的科研工作者研究推薦系統(tǒng)提供借鑒,有助于我國(guó)學(xué)者了解該領(lǐng)域的主要 進(jìn)展,也是本項(xiàng)目最重要的一篇總結(jié)性論文。
[2] 劉建國(guó),周濤,郭強(qiáng),汪秉宏
個(gè)性化推薦系統(tǒng)評(píng)價(jià)方法綜述
復(fù)雜系統(tǒng)與復(fù)雜性科學(xué),2009年9月,第6卷,1-10頁(yè)
該文根據(jù)推薦系統(tǒng)任務(wù)的不同,介紹了不同的準(zhǔn)確性度量指標(biāo)以及各自的優(yōu)缺點(diǎn);介紹了準(zhǔn)確度之外的其它指標(biāo),例如推薦多樣性、覆蓋率等;指出了目 前評(píng)價(jià)指標(biāo)存在的缺陷,以及未來(lái)可能的改進(jìn)方向。是本項(xiàng)目研究重要的總結(jié)性論文。
[3] Matus Medo, Yi-Cheng Zhang, Tao Zhou
Adaptive model for recommendation of news
Europhysics Letters 88 (2009) 38005
最近的一些大規(guī)模實(shí)證研究顯示,信息推薦中社會(huì)關(guān)系往往比推薦內(nèi)容與用戶喜好的匹配程度更加重要。事實(shí)上,用戶更喜歡來(lái)自朋友而非來(lái)自系統(tǒng)的推 薦。因此,社會(huì)過(guò)濾(social filtering)被認(rèn)為極有可能成為下一代信息過(guò)濾器(搜索引擎、推薦系統(tǒng)……)的核心之一。該文以Web 2.0系統(tǒng)中新聞共享和推薦為例,提出了基于適應(yīng)性網(wǎng)絡(luò)的一種社會(huì)過(guò)濾機(jī)制,該機(jī)制能夠明顯提高用戶體驗(yàn)。L’Atelier對(duì)文章作者進(jìn)行了專訪,并在 L’Atelier Report中對(duì)該文進(jìn)行了專題報(bào)道。
[4] Tao Zhou, Linyuan Lü, Yi-Cheng Zhang
Predicting missing links via local information
European Physical Journal B 71 (2009) 623
基于網(wǎng)絡(luò)的鏈路預(yù)測(cè)自08年Clauset等人發(fā)表Nature論文之后成為復(fù)雜網(wǎng)絡(luò)與信息挖掘方面研究的共同熱點(diǎn)。動(dòng)態(tài)評(píng)價(jià)網(wǎng)絡(luò)的信息挖掘本 質(zhì)上是二部分網(wǎng)絡(luò)上的鏈路預(yù)測(cè)。該文提出了兩種基于局部信息的相似性指標(biāo)——資源擴(kuò)散指數(shù)、局域路徑指數(shù),通過(guò)和9種廣為人知的局部相似性指標(biāo)再6種不同 真實(shí)網(wǎng)絡(luò)中進(jìn)行比較,文章指出新提出的兩種指標(biāo)明顯具有更好地刻畫節(jié)點(diǎn)相似及相近程度的能力。文章提出后立刻受到了廣泛的關(guān)注,已經(jīng)有其他三個(gè)研究團(tuán)隊(duì)跟 蹤討論了資源擴(kuò)散參數(shù)在信息推薦、有向網(wǎng)絡(luò)鏈路預(yù)測(cè)和社區(qū)結(jié)構(gòu)挖掘方面的應(yīng)用。這些結(jié)果均證明了該文提出的指數(shù)具有明顯優(yōu)于已知局部參數(shù)的性質(zhì)。
[5] Zi-Ke Zhang, Tao Zhou, Yi-Cheng Zhang
Personalized recommendation via integrated diffusion on user-item-tag tripartite graohs
Physica A 389 (2010) 179
協(xié)同標(biāo)簽系統(tǒng)最近幾年非常流行,其基本思想是允許用戶自由添加一些關(guān)鍵詞(標(biāo)簽)來(lái)描述自己收藏的各種資源。這些標(biāo)簽一方面反映了用戶的個(gè)人喜 好,另外一方面可以看作對(duì)所標(biāo)記資源的一種非常精簡(jiǎn)的內(nèi)容描述。該文首次嘗試將這些信息整合到基于物質(zhì)擴(kuò)散的推薦算法中,并且在精確性和多樣性方面均取得 了非常明顯的提高。此文推動(dòng)了一系列后續(xù)的基于標(biāo)簽的信息挖掘研究。
[6] Tao Zhou, Luo-Luo Jiang, Ri-Qi Su, Yi-Cheng Zhang
Effect of initial configuration on network-based Recommendation
Europhysics Letters 81 (2008) 58004
該文通過(guò)考慮基于物質(zhì)擴(kuò)散的信息推薦算法中初始物質(zhì)分布的精細(xì)結(jié)構(gòu),提出了一種改進(jìn)的算法,此算法相比原始算法,能夠?qū)⒕_性提高10% 左右。該文的真正重要的價(jià)值在于首次明確提出了基于用戶-資源的二部分網(wǎng)絡(luò)結(jié)構(gòu),如何對(duì)推薦的多樣性和新穎性進(jìn)行度量。盡管相應(yīng)的度量指標(biāo)尚較粗糙,但卻 是后面關(guān)于信息多樣性的一系列研究的初始。
[7] Tao Zhou, Zoltan Kuscsik, Jian-Guo Liu, Matus Medo, Joseph Wakeling, Yi-Cheng Zhang
Solving the apparent diversity-accuracy dilemma of recommender systems
PNAS doi: 10.1073/pnas.1000488107
該文章明確指出傳統(tǒng)意義上的信息推薦算法具有“過(guò)度強(qiáng)調(diào)精確性而忽略多樣性”的缺點(diǎn),而信息提供者的價(jià)值“往往更多地源于提供多樣和新穎的信 息”。該文第一次系統(tǒng)研究了僅知道網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的情況下如何考量推薦算法的多樣性和新穎性,這對(duì)于該方向的研究起到了基礎(chǔ)性的作用。文章還開創(chuàng)性地提出了 一種專門推薦“不太流行的冷門資源”的基于熱傳導(dǎo)的算法,該算法與所有已知的均傾向于發(fā)掘“流行資源”的算法大異其趣。文章通過(guò)大量基于真實(shí)數(shù)據(jù)的分析, 顯示了此算法與基于物質(zhì)擴(kuò)散的算法結(jié)合后,可以同時(shí)明顯提高推薦系統(tǒng)的準(zhǔn)確度、多樣性和新穎性。這一發(fā)現(xiàn)有望推動(dòng)甚至最終解決推薦系統(tǒng)中精確性與多樣性魚 和熊掌不可兼得之難題。
[8] Linyuan Lü, Tao Zhou
Link Prediction in weighted networks: The role of weak ties
Europhysics Letters 89 (2010) 18001
該文是本項(xiàng)目迄今為止發(fā)表的最為有趣的一篇論文!盡管復(fù)雜網(wǎng)絡(luò)中的鏈路預(yù)測(cè)問(wèn)題不乏討論,但是對(duì)于含權(quán)網(wǎng)絡(luò)的討論較少。一種直觀的想法是權(quán)重較 大的鏈路在預(yù)測(cè)中起到?jīng)Q定性的作用,該觀點(diǎn)也被最近基于一個(gè)問(wèn)答系統(tǒng)的實(shí)際分析所驗(yàn)證。與其觀點(diǎn)相反的是,該文作者發(fā)現(xiàn)大部分網(wǎng)絡(luò)中權(quán)重較小的鏈路反而起 到了更關(guān)鍵的作用。作者通過(guò)一種“模塊統(tǒng)計(jì)分析”的方法給出了如何預(yù)先判斷該網(wǎng)絡(luò)中權(quán)重大小與鏈路預(yù)測(cè)能力強(qiáng)弱關(guān)系的方法。盡管“弱連接理論”聲稱在維持 網(wǎng)絡(luò)連通能力和穩(wěn)定性方面權(quán)重較小的鏈路更加重要,但是在信息挖掘領(lǐng)域,該文是第一次強(qiáng)調(diào)了弱鏈接的重要性,從而從根本上質(zhì)疑了含權(quán)網(wǎng)絡(luò)鏈路預(yù)測(cè)的直觀理 念和已知結(jié)果。
[9] Jie Ren, Tao Zhou, Yi-Cheng Zhang
Information filtering via self-consistent refinement
Europhysics Letters 82 (2008) 58007
該文提出了一種自洽的迭代框架。只要一種推薦算法能夠表達(dá)為一個(gè)矩陣算子對(duì)于用戶-資源關(guān)聯(lián)矩陣上的操作,該算法就可以通過(guò)迭代尋優(yōu)的方式提高 原算法的精確性。這個(gè)方法已經(jīng)被證明對(duì)于協(xié)同過(guò)濾和矩陣分解是適用的。
[10] Tao Zhou, Ri-Qi Su, Run-Ran Liu, Luo-Luo Jiang, Bing-Hong Wang, Yi-Cheng Zhang
Accurate and diverse recommendations via eliminating redundant correlations
New Journal of Physics 11 (2009) 123008
該文指出從不同渠道得到的對(duì)于同一個(gè)對(duì)象的推薦信息有可能包含著嚴(yán)重的冗余!如何去除這種可能存在單又無(wú)法直接檢驗(yàn)的冗余信息是一個(gè)新的挑戰(zhàn)。 文章設(shè)計(jì)了一種利用二階關(guān)聯(lián)的方式,能夠簡(jiǎn)單快速的去除可能的冗余信息。在基于物質(zhì)擴(kuò)散的推薦算法框架下,該文提出的方法能夠?qū)⒕_性提高20%到 30%,所得到的結(jié)果是目前本項(xiàng)目所有工作中最為精確的,甚至超過(guò)了名噪一時(shí)的LDA算法。
------其他相關(guān)論文------
[11] Zi-Ke Zhang, Linyuan Lü, Jian-Guo Liu, Tao Zhou
Empirical analysis on a keyword-based semantic system
European Physical Journal B 66 (2008) 557
本文討論了學(xué)術(shù)期刊中關(guān)鍵詞出現(xiàn)的統(tǒng)計(jì)規(guī)律。該文與信息挖掘沒(méi)有直接聯(lián)系,卻是第一次嘗試關(guān)注和分析標(biāo)簽系統(tǒng),為后來(lái)一系列利用標(biāo)簽信息進(jìn)行信 息挖掘的工作奠定了基礎(chǔ)。
[12] Chun-Xia Jia, Run-Ran Liu, Duo Sun, Bing-Hong Wang,
A new weighting method in network-based recommendation
Physica A 387 (2008) 5887
該文提出了一種通過(guò)加權(quán)提高信息推薦精確度的方法,是07年本組一篇PRE論文的跟蹤研究。
[13] Run-Ran Liu, Chun-Xiao Jia, Tao Zhou, Duo Sun, Bing-Hong Wang
Personal recommendation via modified collaborative filtering
Physica A 388 (2009) 462
該文考慮了協(xié)同過(guò)濾中初始權(quán)重的問(wèn)題,是文獻(xiàn)[6]的跟蹤研究。
[14] Jian-Guo Liu, Michael Zhi-Qiang Chen, Jian-Chi Chen, Fei Deng, Hai-Tao Zhang, Zi-Ke Zhang, Tao Zhou
Recent Advances in Personal Recommneder Systems
International Journal of Information and Systems Sciences 5 (2009) 230
該文是一篇邀請(qǐng)綜述,總結(jié)了個(gè)性化推薦系統(tǒng)研究的一些最新進(jìn)展。
[15] Duo Sun, Tao Zhou, Jian-Guo Liu, Run-Ran Liu, Chun-Xiao Jia, Bing-Hong Wang,
Information filting based on transferring similarity
Physical Review E 80 (2009) 017101
該文提出了一種自洽的相似性指標(biāo),其基本思想是相似性可以在節(jié)點(diǎn)間轉(zhuǎn)移,簡(jiǎn)而言之就是A和B相似,B和C相似,則A和C很有可能也比較相似。該 算法大幅度提高了Pearson相似性指標(biāo)的推薦精確度。
[16] Linyuan Lü, Ci-Hang Jin, Tao Zhou
Similarity index based on local paths for link prediction of complex networks
Physical Review E 80 (2009) 046122
該文細(xì)致研究了局部路徑指數(shù)在鏈路預(yù)測(cè)中的作用,是文獻(xiàn)[4]的跟蹤研究。
[17] Ming-Sheng Shang, Linyuan Lü, Wei Zeng, Yi-Cheng Zhang, Tao Zhou
Relevance is more significant than correlation: Information filtering on sparse data
Europhysics Letters 88 (2009) 68008
該文的試驗(yàn)結(jié)果顯示,在稀疏系統(tǒng)(絕大部分真實(shí)系統(tǒng)都非常稀疏)中,是否有關(guān)系比打分高低更重要,換句話說(shuō),對(duì)于用戶而言,對(duì)一個(gè)對(duì)象打低分不 能簡(jiǎn)單理解為用戶憎惡這種類型的對(duì)象。事實(shí)上很可能是愛(ài)之愈切,要求愈高造成的。該文發(fā)現(xiàn),抹去所有分?jǐn)?shù)信息得到的推薦結(jié)果,比考慮分?jǐn)?shù)之間的 Pearson關(guān)聯(lián)得到的推薦效果更好!該結(jié)果推翻了根深蒂固的傳統(tǒng)看法并對(duì)絕大部分傳統(tǒng)算法提出了挑戰(zhàn)。因?yàn)椴豢紤]分?jǐn)?shù)信息計(jì)算更加快捷,該方法有很好 的應(yīng)用前景。此文系本項(xiàng)目中第二有趣之論文!
[18] Ming-Sheng Shang, Ci-Hang Jin, Tao Zhou, Yi-Cheng Zhang
Collaborative filtering based on multi-channel diffusion
Physica A 388 (2009) 4867
該文提出了針對(duì)打分系統(tǒng)的多道推薦算法,是07年本組發(fā)表的一篇PRE和一篇EPL論文方法的結(jié)合和推廣。
[19] Jian-Guo Liu, Tao Zhou, Bing-Hong Wang, Yi-Cheng Zhang
Effects of User’s Tastes on Personalized Recommendation
International Journal of Modern Physics C 20 (2009) 1925
該文考慮了用戶的喜好對(duì)推薦結(jié)果的影響,有望推動(dòng)形成更加個(gè)性化的推薦算法,實(shí)現(xiàn)從推薦結(jié)果的個(gè)性化到推薦算法的個(gè)性化的思想上的重大轉(zhuǎn)變。
[20] Jian-Guo Liu, Tao Zhou, Bing-Hong Wang, Yi-Cheng Zhang, Qiang Guo
Degree Correlation of Bipartite Network on Personalized Recommendation
International Journal of Modern Physics C 21 (2010) 137
該文通過(guò)考慮度度關(guān)聯(lián)提出了一種改進(jìn)的推薦算法。
[21] Jian-Guo Liu, Tao Zhou, Hong-An Che, Bing-Hong Wang, Yi-Cheng Zhang
Effects of high-order correlations on personalized recommendation for bipartite networks
Physica A 389 (2010) 881
該文通過(guò)考慮高階關(guān)聯(lián)提出了一種改進(jìn)算法,是文獻(xiàn)[10]的跟蹤研究。
[22] Ming-Sheng Shang, Zi-Ke Zhang, Tao Zhou, Yi-Cheng Zhang,
Collaborative filtering with diffusion-based similarity on tripartite graphs,
Physica A 389 (2010) 1259
該文考慮了用戶-對(duì)象-標(biāo)簽三部分圖上的物質(zhì)擴(kuò)散算法,是文獻(xiàn)[5]的跟蹤研究。