本站小編為你精心準(zhǔn)備了話題下微博信息傳播拓?fù)浣Y(jié)構(gòu)研究參考范文,愿這些范文能點(diǎn)燃您思維的火花,激發(fā)您的寫作靈感。歡迎深入閱讀并收藏。

摘要:
隨著互聯(lián)網(wǎng)的普及,論壇、微博、微信等新媒體已經(jīng)成為人們獲取和信息的重要渠道,而微博已經(jīng)成為輿情傳播的主要平臺,研究微博上輿情信息的傳播情況具有重大社會意義,文章基于話題研究微博信息的傳播特點(diǎn)。首先,通過對話題傳播過程中新增用戶數(shù)和參與話題用戶的累計(jì)概率分布的統(tǒng)計(jì),研究用戶對話題轉(zhuǎn)發(fā)的參與度,總結(jié)出話題傳播過程,包括產(chǎn)生期、爆發(fā)期和衰亡期;接著利用話題中用戶的轉(zhuǎn)發(fā)關(guān)系,整理出話題傳播的拓?fù)浣Y(jié)構(gòu),通過測量傳播拓?fù)浣Y(jié)構(gòu)中的平均路徑、網(wǎng)絡(luò)直徑和聚類系數(shù),并與無尺度網(wǎng)絡(luò)進(jìn)行比較,對話題傳播拓?fù)浣Y(jié)構(gòu)進(jìn)行進(jìn)一步的分析,總結(jié)出傳播網(wǎng)絡(luò)具有小世界特性,這些特性能夠加快話題在網(wǎng)絡(luò)中的傳播速度并擴(kuò)大傳播范圍。文章研究話題傳播的拓?fù)浣Y(jié)構(gòu),為研究網(wǎng)絡(luò)上的微博輿情提供了基礎(chǔ)。
關(guān)鍵詞:
微博;話題;信息傳播;拓?fù)?/a>結(jié)構(gòu)
引言
隨著互聯(lián)網(wǎng)和互聯(lián)網(wǎng)終端的迅速普及,涌現(xiàn)出了許多便捷的互聯(lián)網(wǎng)應(yīng)用,如電子商務(wù)、社交網(wǎng)絡(luò)、微博等。從美國的Twitter到我國的新浪、騰訊,微博在中國乃至全世界迅速普及。據(jù)統(tǒng)計(jì),中國的微博總注冊量已經(jīng)超過5億人次,每天更新的信息量已經(jīng)超過1億條。微博流行的原因主要在于它讓人們信息的門檻大大降低,任何人都可以發(fā)表內(nèi)容而且不必具有專業(yè)的文學(xué)撰寫水平,這滿足了大眾快速交流分享信息的需要。作為一種實(shí)時(shí)的交流、信息分享工具,用戶可以在任何時(shí)候任何地點(diǎn)微博信息,和他人互動(dòng),此外微博用戶還可以關(guān)注其他用戶,使得微博平臺成為了一個(gè)巨大的社會化網(wǎng)絡(luò)。微博的普及、海量的信息以及龐大的用戶群體,使得它也成為了一種實(shí)時(shí)信息來源工具,并且成了一種有著巨大社會影響力的社會媒體,近幾年一些重要的社會熱點(diǎn)話題都是由微博平臺率先報(bào)道出來的。研究話題在微博平臺上傳播的過程和形成的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),是對微博平臺上用戶行為、用戶影響力等進(jìn)行研究的基礎(chǔ)。目前對微博平臺上拓?fù)浣Y(jié)構(gòu)的測量和研究很多,GUO[1]等人對新浪微博上的用戶進(jìn)行分析,發(fā)現(xiàn)用戶網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)有很強(qiáng)的動(dòng)態(tài)性,用戶關(guān)注間的關(guān)系表現(xiàn)出馬太效應(yīng);微博用戶網(wǎng)絡(luò)中存在著影響力巨大的用戶,這些用戶成為“核心”,這些核心加速了話題在微博網(wǎng)絡(luò)上的傳播。WANG[2]等人對微博上的信息傳播進(jìn)行研究,提出了一個(gè)微博的信息瀑傳播模型,測量了微博的轉(zhuǎn)發(fā)數(shù)分布,指出其分布情況可以用一個(gè)廣延指數(shù)模型來表示。CHA[3]等人通過對入度、轉(zhuǎn)發(fā)和引用的對比研究,發(fā)現(xiàn)用戶的轉(zhuǎn)發(fā)行為主要受微博自身價(jià)值的影響,而且對于名人和微博大V的微博應(yīng)用明顯要多于其他人。WEBBERLEY[4]等人對微博傳播的深度和范圍進(jìn)行了研究,其目標(biāo)針對一條微博,傳播深度表示其最長的轉(zhuǎn)發(fā)路徑;傳播范圍表示其參與轉(zhuǎn)發(fā)的用戶群體數(shù)量;他們通過Twitter的數(shù)據(jù)進(jìn)行驗(yàn)證,實(shí)驗(yàn)結(jié)果顯示一條微博的平均最長轉(zhuǎn)發(fā)路徑為1.8,表示大多數(shù)消息被轉(zhuǎn)發(fā)2次左右;平均轉(zhuǎn)發(fā)規(guī)模在六左右,這和6度空間理論比較符合。平亮[5]等人基于網(wǎng)絡(luò)中心性對微博平臺上信息的傳播進(jìn)行研究,通過分析微博用戶的點(diǎn)度中心度、中介中心性和接近中心性三個(gè)屬性,證明了點(diǎn)度中心度可以衡量用戶傳播和獲取信息的能力,中介中心性表示用戶控制信息傳播的能力,接近中心性能夠衡量信息傳播到其他用戶的速度,這幾個(gè)參數(shù)都可以間接用來表示用戶的個(gè)人影響力大小。MISLOVE[6]等人對Flickr、YouTube、LiveJournal和Orkut四種社交網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)進(jìn)行研究,對社交網(wǎng)絡(luò)的冪率特性、小世界特性以及無標(biāo)度屬性進(jìn)行了驗(yàn)證。CHA[7]等人在MISLOVE的基礎(chǔ)上對Flickr上的圖片拓?fù)浣Y(jié)構(gòu)進(jìn)行研究,發(fā)現(xiàn)其中的信息傳播需要依靠關(guān)鍵節(jié)點(diǎn),并且時(shí)間可能較長。CHENG[8]等人對YouTube進(jìn)行了測量,分析了上面的用戶行為特征、社會網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)等,總結(jié)出了YouTube特有的統(tǒng)計(jì)行為方式。GUO[9]等人在對三種不同的共享型網(wǎng)絡(luò)(博客、書簽共享、知識問答網(wǎng))上的用戶行為進(jìn)行測量研究時(shí),發(fā)現(xiàn)用戶的使用時(shí)間長短不服從指數(shù)分布,用戶的貢獻(xiàn)服從廣延指數(shù)模型而不是服從冪率分布,證明了這種共享型網(wǎng)絡(luò)并不是由少數(shù)核心節(jié)點(diǎn)所支配。CHUN[10]等人利用用戶之間的交互信息,如留言、評論等進(jìn)行研究,發(fā)現(xiàn)利用這些信息形成的網(wǎng)絡(luò)結(jié)構(gòu)特征與好友關(guān)系形成的拓?fù)浣Y(jié)構(gòu)相似,并且二者的分布極為相似,得到了與Mislove相同的結(jié)論。袁毅[11]對微博的用戶網(wǎng)絡(luò)結(jié)構(gòu)、信息傳播路徑以及影響因素進(jìn)行研究,他們跟蹤一條微博,采集所有相關(guān)的評論數(shù)據(jù)和用戶數(shù)據(jù),同時(shí)獲取相關(guān)用戶的好友關(guān)系。研究將信息傳播歸為3種類型:偶發(fā)型、偶遇機(jī)會型和強(qiáng)勢節(jié)點(diǎn)呼應(yīng)型。其中的強(qiáng)勢節(jié)點(diǎn)越早加入轉(zhuǎn)發(fā)過程,越有利于信息的擴(kuò)散;另外,一個(gè)用戶的微博轉(zhuǎn)發(fā)數(shù)量與該用戶的粉絲數(shù)有一定的相關(guān)性。本文通過跟蹤騰訊微博話題,采集相關(guān)話題下的所有用戶數(shù)據(jù),根據(jù)用戶間話題數(shù)據(jù)的轉(zhuǎn)發(fā)關(guān)系,整理出話題在整個(gè)網(wǎng)絡(luò)上傳播的拓?fù)浣Y(jié)構(gòu),測量話題傳播拓?fù)浣Y(jié)構(gòu)的性質(zhì),總結(jié)拓?fù)浣Y(jié)構(gòu)的特征。相比于傳統(tǒng)的通過好友關(guān)系和跟蹤一條微博形成的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),這種通過轉(zhuǎn)發(fā)關(guān)系建立的拓?fù)浣Y(jié)構(gòu)更加完整,能夠展現(xiàn)出整個(gè)話題的擴(kuò)散速度和范圍,更有利于輿情信息的監(jiān)測和控制。
1微博數(shù)據(jù)采集
1.1微博爬蟲設(shè)計(jì)
為了獲取實(shí)驗(yàn)數(shù)據(jù),本文針對騰訊微博設(shè)計(jì)了一款微博主題爬蟲,根據(jù)特定主題獲取微博網(wǎng)絡(luò)上的微博信息和用戶信息。本文設(shè)計(jì)實(shí)現(xiàn)的騰訊微博數(shù)據(jù)爬取系統(tǒng)從功能上主要分為API爬蟲、Web爬蟲以及分布式控制三個(gè)模塊。其中,API爬蟲模塊通過微博平臺的開放API實(shí)現(xiàn)對微博用戶信息的采集,主要用于獲取用戶的個(gè)人好友關(guān)系、轉(zhuǎn)發(fā)關(guān)系等;Web爬蟲通過程序模擬瀏覽器進(jìn)行Web頁面瀏覽的過程,用于獲取用戶的微博信息,主要是對特定頁面的源代碼信息進(jìn)行解析,進(jìn)而獲取相應(yīng)的微博數(shù)據(jù),該模塊主要采集微博內(nèi)容信息和微博相關(guān)屬性信息;分布式控制模塊按照指定的分布式任務(wù)分配策略從數(shù)據(jù)庫中讀取關(guān)鍵字,控制爬蟲的爬取策略和速度。API爬蟲和Web爬蟲以數(shù)據(jù)庫作為信息交互的媒介,通過為這兩個(gè)爬蟲設(shè)置合適的線程數(shù)來達(dá)到兩者之間的供需動(dòng)態(tài)平衡。爬蟲系統(tǒng)的設(shè)計(jì)框架如圖1所示。為了采集微博平臺的話題傳播信息,并保證數(shù)據(jù)的安全性,爬蟲系統(tǒng)部署在四川大學(xué)網(wǎng)絡(luò)與可信計(jì)算研究所的科研網(wǎng)絡(luò)環(huán)境中,該科研網(wǎng)絡(luò)利用文偉平[12]等人和王永娟[13]等人的的信息安全風(fēng)險(xiǎn)評估技術(shù)對網(wǎng)絡(luò)安全性進(jìn)行評估,并根據(jù)評估結(jié)果對網(wǎng)絡(luò)進(jìn)行改造升級,從軟件層面保證數(shù)據(jù)信息的安全性;其基礎(chǔ)設(shè)施安全防護(hù)借鑒卿斯?jié)h[14]所論述的身份鑒別過程,加強(qiáng)基礎(chǔ)設(shè)施保護(hù)措施,從硬件層面保證數(shù)據(jù)安全性。程序運(yùn)行的服務(wù)器配置為:MicrosoftWindowsServer2003EnterpriseEdition;Intel(R)Xeon(R)CUPE55062.3gHz;8G內(nèi)存。為了提高數(shù)據(jù)的采集效率,爬蟲系統(tǒng)采用了分布式的爬行策略并行爬行。為了避免爬蟲系統(tǒng)被騰訊微博平臺識別為惡意程序而被封禁,保證爬蟲系統(tǒng)的連續(xù)運(yùn)行,爬蟲系統(tǒng)的爬行間隔設(shè)置為5分鐘。數(shù)據(jù)的采集時(shí)間為2014年7月至9月,系統(tǒng)持續(xù)跟蹤了這段時(shí)間內(nèi)的所有話題。圖1爬蟲系統(tǒng)設(shè)計(jì)框架
1.2數(shù)據(jù)采集結(jié)果
系統(tǒng)每天監(jiān)測排名前10的話題,由于每天的話題有重復(fù),在數(shù)據(jù)采集期間一共獲取話題數(shù)量207個(gè),獲取與所有話題相關(guān)的微博信息超過870萬條,用戶總量超過400萬。首先對話題的性質(zhì)進(jìn)行分析,通過統(tǒng)計(jì)發(fā)現(xiàn),話題主要分為娛樂性質(zhì)、社會性質(zhì)和其他性質(zhì)。娛樂性質(zhì)的話題主要和娛樂界的事件、人物相關(guān),例如某個(gè)明星開演唱會等;社會性質(zhì)的話題主要和社會事件、人物相關(guān),例如某地發(fā)生災(zāi)害或者草根爆料事件等;除了這兩種話題之外的其他話題屬性比較模糊,所占比例很小。表1是這3種性質(zhì)話題的統(tǒng)計(jì)結(jié)果。從表1中可以看出,社會性的話題數(shù)量占比為17.39%,而娛樂性話題的數(shù)量占比為73.91%,用戶比例表示相應(yīng)話題下所有參與話題討論或轉(zhuǎn)發(fā)的用戶占采集用戶總量的百分比。在話題數(shù)量差距巨大的前提下,參與話題的用戶數(shù)量卻基本相同,甚至社會性的話題參與人數(shù)還要略高于娛樂性的話題。從話題的平均持續(xù)時(shí)間可以分析出原因,對于娛樂性的話題,其平均持續(xù)時(shí)間為4天,比第三性質(zhì)的話題持續(xù)時(shí)間還短,遠(yuǎn)小于社會性話題持續(xù)時(shí)間,說明用戶群體雖然對娛樂性質(zhì)的話題關(guān)注度較高,但是沒有持續(xù)跟蹤的熱情,但是對社會性質(zhì)的話題有很高的持續(xù)跟蹤熱情。話題在持續(xù)發(fā)展的過程中,隨著其影響范圍逐漸擴(kuò)大,會吸引更多用戶參與其中,這和話題的傳播特點(diǎn)有關(guān)。根據(jù)采集的數(shù)據(jù),從中選擇了“云南昭通市魯?shù)榭h地震”和“江蘇昆山工廠發(fā)生爆炸”這兩個(gè)社會性的話題微博數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù)集,對話題傳播的特點(diǎn)進(jìn)行分析,測量話題傳播過程中通過轉(zhuǎn)發(fā)形成的拓?fù)浣Y(jié)構(gòu)。
2話題傳播的拓?fù)浣Y(jié)構(gòu)
2.1話題傳播的特點(diǎn)
微博平臺是由關(guān)注與被關(guān)注的機(jī)制連接起來的社交關(guān)系網(wǎng)絡(luò),是人們在現(xiàn)實(shí)生活中社交關(guān)系在互聯(lián)網(wǎng)上的映射和擴(kuò)大。信息在微博上的傳遞大多數(shù)是通過轉(zhuǎn)發(fā)方式來實(shí)現(xiàn)的。微博上話題傳播的第一個(gè)特點(diǎn)是話題傳播的間接性,信息不直接傳遞給用戶,而是首先通過幾個(gè)微博用戶進(jìn)行轉(zhuǎn)發(fā),然后關(guān)注這些用戶的粉絲會選擇性地對這些信息進(jìn)行轉(zhuǎn)發(fā),這樣經(jīng)過層層轉(zhuǎn)發(fā),信息間接地傳遞給受眾。根據(jù)YANG[15]等人對Twitter的研究發(fā)現(xiàn),其中有接近25.5%的內(nèi)容是從朋友的推文中轉(zhuǎn)發(fā)而來。在采集到的騰訊微博中去除個(gè)人心情相關(guān)的博文,只統(tǒng)計(jì)和話題相關(guān)的博文,統(tǒng)計(jì)結(jié)果顯示,轉(zhuǎn)發(fā)博文所占比例的平均值高達(dá)54.7%。但是話題轉(zhuǎn)發(fā)率高,并不代表該話題就可以大范圍地傳播以及產(chǎn)生巨大影響,話題能否產(chǎn)生巨大影響和話題本身以及受眾的偏好有直接關(guān)系。根據(jù)研究人員對Facebook用戶群體的研究[16],發(fā)現(xiàn)許多有影響力的用戶更傾向于彼此之間進(jìn)行關(guān)注,這個(gè)現(xiàn)象說明社交網(wǎng)絡(luò)存在明顯的同質(zhì)性。同質(zhì)性[17]是指有相似特征的用戶之間形成好友關(guān)系的傾向,即通常所說的“物以類聚,人以群分”。有些話題與娛樂明星或者體育等相關(guān),在關(guān)注這些人的圈子里,這方面的話題可以大量轉(zhuǎn)發(fā)和傳播,但卻不能在整個(gè)微博網(wǎng)絡(luò)平臺上產(chǎn)生廣泛關(guān)注,因?yàn)檫@些話題不能吸引圈子外其他人的興趣。相比之下與社會性相關(guān)度高的話題,能夠吸引更多人的興趣。而且微博網(wǎng)絡(luò)被證明符合六度空間理論。KWAK[18]等人對Twitter的轉(zhuǎn)發(fā)路徑研究表明,超過90%的轉(zhuǎn)發(fā)路徑長度都小于6,所以這類話題能夠在微博平臺上引起廣泛的關(guān)注和討論,傳播范圍更大。微博話題信息傳播的另一個(gè)特點(diǎn)是具有很強(qiáng)的時(shí)效性,即話題從產(chǎn)生到消亡的持續(xù)時(shí)間較短,不能長時(shí)間地保持很高話題熱度。話題的熱度發(fā)展趨勢可以分為產(chǎn)生期、爆發(fā)期和衰亡期,但是在產(chǎn)生期到爆發(fā)期之間可能會出現(xiàn)一個(gè)短暫的靜默期,同時(shí)在爆發(fā)期后也可能進(jìn)入靜默期,在受到一些條件的刺激后,再次進(jìn)入爆發(fā)期。其中話題在靜默期表現(xiàn)為話題的熱度基本維持不變或者是變化率很小;在爆發(fā)期時(shí)表現(xiàn)為話題的熱度呈現(xiàn)線性增長,話題迅速擴(kuò)散,用戶參與話題的數(shù)量也呈線性增長趨勢;進(jìn)入衰亡期后,熱度迅速下降,參與話題的總用戶量達(dá)到穩(wěn)定,變化率基本維持不變。根據(jù)從騰訊微博平臺采集的數(shù)據(jù),針對“云南昭通市魯?shù)榭h地震”和“江蘇昆山工廠發(fā)生爆炸”兩個(gè)話題的數(shù)據(jù)進(jìn)行分析,采用用戶的參與度來衡量微博話題的熱度。圖2為兩個(gè)話題每日新增用戶數(shù)量統(tǒng)計(jì),話題持續(xù)時(shí)間較短的是“工廠爆炸”,它的發(fā)展是一個(gè)典型的話題發(fā)展過程,從話題產(chǎn)生后直接進(jìn)入到爆發(fā)期。圖3是兩個(gè)微博話題參與用戶數(shù)的累計(jì)概率分布。從圖3可以看出,前3天的新增用戶量占了近90%,說明話題的傳播處于爆發(fā)期。然后迅速進(jìn)入衰亡期,持續(xù)時(shí)間只有一個(gè)星期,衰亡也非常迅速,充分體現(xiàn)了話題傳播的時(shí)效性。云南地震話題的持續(xù)時(shí)間較長,它的發(fā)展是一個(gè)非典型的過程,首先它的熱度持續(xù)了較長時(shí)間,超過了3個(gè)星期,而且它有兩個(gè)爆發(fā)期,從圖3中看出,前3天和第8~12天這兩段時(shí)間的新增用戶所占比例分別接近40%和30%,說明這兩個(gè)時(shí)間段話題的傳播正處于爆發(fā)期。兩個(gè)爆發(fā)期中間還有一個(gè)短暫的靜默期,從話題產(chǎn)生開始就迅速增長,其第一個(gè)爆發(fā)期持續(xù)了3天多,這和地震的黃金救援72小時(shí)時(shí)間基本吻合,這段時(shí)間內(nèi)用戶關(guān)注數(shù)量增長非常快。接下來新增用戶數(shù)量逐漸減少,趨于平緩,然后就進(jìn)入了靜默期。如果這個(gè)時(shí)期沒有其他的因素進(jìn)行刺激,那么話題就有可能慢慢進(jìn)入消亡期,熱度逐漸消退。但是話題卻再次被激活了,從靜默期又一次進(jìn)入了爆發(fā)期,因?yàn)檫@段時(shí)間內(nèi)發(fā)生了較大余震,并且許多救援問題凸顯,導(dǎo)致許多用戶又開始關(guān)注這一話題,于是進(jìn)入了第二個(gè)爆發(fā)期,新增用戶量又開始劇增。第二個(gè)爆發(fā)期后,由于事件中的所有問題都得到了妥善處理,沒有新的刺激點(diǎn),用戶的關(guān)注度也逐漸下降,新增用戶數(shù)量逐漸減少,直至趨于穩(wěn)定,然后話題就逐漸進(jìn)入消亡期,熱度逐漸消退。話題的發(fā)展趨勢和事件的發(fā)展及處理過程非常吻合。
2.2話題傳播的拓?fù)浣Y(jié)構(gòu)形態(tài)
微博話題通過轉(zhuǎn)發(fā)的方式進(jìn)行擴(kuò)散,從一個(gè)或少數(shù)的用戶開始,到被大量的用戶發(fā)現(xiàn)并進(jìn)行轉(zhuǎn)發(fā),最后進(jìn)行大規(guī)模傳播甚至擴(kuò)散至整個(gè)微博平臺,轉(zhuǎn)發(fā)方式是用戶獲取和傳播信息的主要途徑。通過獲取話題中有轉(zhuǎn)發(fā)標(biāo)志的微博用戶,并標(biāo)注出話題在這些用戶中傳播的路徑,得到了話題的轉(zhuǎn)發(fā)樹,表示話題在傳播時(shí)的拓?fù)浣Y(jié)構(gòu)。圖4表示的是“昆山工廠爆炸”話題轉(zhuǎn)發(fā)樹的拓?fù)浣Y(jié)構(gòu),表示的是用戶之間的轉(zhuǎn)發(fā)關(guān)系,一條線表示一個(gè)轉(zhuǎn)發(fā)關(guān)系。其中包含許多不同的“類”,這些類是若干個(gè)節(jié)點(diǎn)的集合,在這些類的內(nèi)部,各個(gè)節(jié)點(diǎn)之間聯(lián)系緊密,而各個(gè)類之間則僅僅通過少數(shù)的幾條邊相連接。從圖4可以看到各個(gè)點(diǎn)之間的聯(lián)系,而且很容易看出網(wǎng)絡(luò)的整體傳播結(jié)構(gòu)。形態(tài)。第1種形態(tài)是在關(guān)注朋友圈子里面的小范圍傳播,如圖4中的a)部分的簡單轉(zhuǎn)發(fā)結(jié)構(gòu)所示,話題微博僅僅被用戶的直接好友大量轉(zhuǎn)發(fā),短時(shí)間內(nèi)話題的轉(zhuǎn)發(fā)量和用戶參與數(shù)迅速增加,但是之后就不會再繼續(xù)向外擴(kuò)散,形成了一個(gè)小范圍的擴(kuò)散結(jié)構(gòu)。第2種形態(tài)如圖4中的c)部分的簡單轉(zhuǎn)發(fā)結(jié)構(gòu)所示,話題微博也只是被用戶的直接好友轉(zhuǎn)發(fā),但是參與數(shù)量很少,只有一個(gè)或幾個(gè),即使轉(zhuǎn)發(fā)之后話題微博也難以向外擴(kuò)散,很快就停止傳播。圖4中的兩個(gè)簡單轉(zhuǎn)發(fā)結(jié)構(gòu)表示的就是這種形態(tài)有共同的特點(diǎn),就是擴(kuò)散的用戶多但是路徑很短,擴(kuò)散范圍小,而且傳播速度較慢。第3種形態(tài)就是圖4中的b)部分所展示的方式,話題的傳播路徑相對較長,參與轉(zhuǎn)發(fā)的用戶數(shù)量很多,話題的傳播范圍很廣,我們將針對這種傳播范圍廣的轉(zhuǎn)發(fā)樹來進(jìn)一步研究。
2.3話題傳播拓?fù)浣Y(jié)構(gòu)的性質(zhì)
網(wǎng)絡(luò)平均路徑長度[19]指網(wǎng)絡(luò)中所有節(jié)點(diǎn)對之間最短路徑的平均值;而網(wǎng)絡(luò)直徑則是指網(wǎng)絡(luò)中任意節(jié)點(diǎn)對之間最短路徑的最大值。這兩個(gè)值可以用于描述網(wǎng)絡(luò)的信息傳輸速率、傳輸范圍等特性。節(jié)點(diǎn)的聚類系數(shù)[19](ClusteringCoefficient)表示一個(gè)節(jié)點(diǎn)與鄰居之間相互連接的緊密程度,刻畫了網(wǎng)絡(luò)中節(jié)點(diǎn)的集團(tuán)化程度;而網(wǎng)絡(luò)的平均聚類系數(shù)是所有節(jié)點(diǎn)聚類系數(shù)的平均值,刻畫整個(gè)網(wǎng)絡(luò)的聚類特性。網(wǎng)絡(luò)中的一個(gè)節(jié)點(diǎn)i有K條邊將它和其他節(jié)點(diǎn)相連,這K個(gè)節(jié)點(diǎn)就是節(jié)點(diǎn)i的鄰居,在這K個(gè)節(jié)點(diǎn)之間最多可能有K(K-1)/2條邊。而這K個(gè)節(jié)點(diǎn)之間實(shí)際存在的邊數(shù)E和總的可能存在的邊數(shù)之比就定義為節(jié)點(diǎn)i的聚類系數(shù),如公式(1)所示:很明顯,Ca≤1。當(dāng)且僅當(dāng)所有節(jié)點(diǎn)都為孤立節(jié)點(diǎn)時(shí),Ca=0。當(dāng)且僅當(dāng)網(wǎng)絡(luò)是全局耦合的時(shí)候,即網(wǎng)絡(luò)中任意兩個(gè)節(jié)點(diǎn)都直接相連時(shí),Ca=1。為了測量傳播過程中拓?fù)浣Y(jié)構(gòu)的性質(zhì),本文利用分析工具產(chǎn)生隨機(jī)網(wǎng)絡(luò)與實(shí)際獲取的社交網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行對比,產(chǎn)生一個(gè)無尺度的復(fù)雜網(wǎng)絡(luò)[20],模擬用戶社交網(wǎng)絡(luò)。首先要生成一個(gè)ER隨機(jī)網(wǎng)絡(luò),這是Erdos和Renyi最開始研究的隨機(jī)復(fù)雜網(wǎng)絡(luò)模型,對一個(gè)節(jié)點(diǎn)數(shù)N>>1的復(fù)雜網(wǎng)絡(luò),任一條邊都以相同的概率p連接任意兩個(gè)節(jié)點(diǎn),這就是一個(gè)典型的N個(gè)點(diǎn),有pN(N-1)/2條邊的ER隨機(jī)圖。對于大型的稀疏網(wǎng)絡(luò),p值非常小,表達(dá)起來及其不方便。因此,在產(chǎn)生ER隨機(jī)網(wǎng)絡(luò)時(shí),利用一個(gè)更直觀的概念:節(jié)點(diǎn)的平均度d,它的值定義為:………………………………………………(3)公式(3)中p為連接概率,v為節(jié)點(diǎn)數(shù)目,M為該復(fù)雜網(wǎng)絡(luò)中最多可能存在的邊數(shù)。先前產(chǎn)生的ER網(wǎng)絡(luò)沒有考慮到許多復(fù)雜網(wǎng)絡(luò)的實(shí)際特性,其中有兩個(gè)重要的特征,復(fù)雜網(wǎng)絡(luò)具有動(dòng)態(tài)增長和優(yōu)先連接特性。動(dòng)態(tài)增長是指在實(shí)際的復(fù)雜網(wǎng)絡(luò)中網(wǎng)絡(luò)的規(guī)模是不斷變化甚至擴(kuò)大的;優(yōu)先連接是指新加入進(jìn)來的用戶,更傾向于與那些具有較大連接度的節(jié)點(diǎn)相連。基于這兩個(gè)特性,在ER網(wǎng)絡(luò)的基礎(chǔ)上構(gòu)造無尺度網(wǎng)絡(luò)。1)增加網(wǎng)絡(luò)規(guī)模:每一步向網(wǎng)絡(luò)中增加一個(gè)新的節(jié)點(diǎn),同時(shí)向網(wǎng)絡(luò)中添加k條邊。2)優(yōu)先連接:邊所連接的兩個(gè)節(jié)點(diǎn)是在所有的節(jié)點(diǎn)(包括新增加的節(jié)點(diǎn)和原網(wǎng)絡(luò)所有節(jié)點(diǎn))中以某個(gè)概率來選擇。其中,各節(jié)點(diǎn)被選擇的概率的大小Pr(v)與節(jié)點(diǎn)的度有關(guān),具體計(jì)算如公式(4)所示:其中,|E|表示原網(wǎng)絡(luò)中總的邊數(shù)(也就是原網(wǎng)絡(luò)中各節(jié)點(diǎn)的度之和),|v|為節(jié)點(diǎn)數(shù),而indeg(v)和outdeg(v)分別表示節(jié)點(diǎn)v的入度和出度,α、β和γ分別為三個(gè)常系數(shù),且α+β+γ=1。利用上述的方法產(chǎn)生了兩個(gè)分別包含50000和80000個(gè)節(jié)點(diǎn)的無尺度隨機(jī)網(wǎng)絡(luò),用于和從真實(shí)社交網(wǎng)路獲取的數(shù)據(jù)進(jìn)行對比。從36個(gè)話題中隨機(jī)抽取8個(gè)話題,這些話題包含的用戶規(guī)模都比隨機(jī)無尺度網(wǎng)絡(luò)大一些。分別測量它們的拓?fù)浣Y(jié)構(gòu),計(jì)算它們的平均路的徑長度、網(wǎng)絡(luò)直徑和網(wǎng)絡(luò)的聚類系數(shù)進(jìn)行對比。表2中是部分無尺度網(wǎng)絡(luò)與話題傳播拓?fù)浣Y(jié)構(gòu)參數(shù)對比。從表2可以看出,微博話題傳播拓?fù)浣Y(jié)構(gòu)與隨機(jī)無尺度網(wǎng)絡(luò)相比,其平均路徑長度基本相同,但是網(wǎng)絡(luò)直徑要遠(yuǎn)小于隨機(jī)無尺度網(wǎng)絡(luò),這說明實(shí)際拓?fù)浣Y(jié)構(gòu)中的節(jié)點(diǎn)間聯(lián)系更加緊密,聚集系數(shù)的測量結(jié)果也證明了這一點(diǎn),測量結(jié)果中實(shí)際網(wǎng)絡(luò)的聚集系數(shù)的最小值0.2009要遠(yuǎn)遠(yuǎn)大于隨機(jī)無尺度網(wǎng)絡(luò)聚集系數(shù)的較大值0.000071。如果一個(gè)網(wǎng)絡(luò)有較小的平均路徑長度和較高的聚類系數(shù),則可以成為小世界網(wǎng)絡(luò),從測量結(jié)果分析,話題傳播形成的轉(zhuǎn)發(fā)結(jié)構(gòu)網(wǎng)絡(luò)具有明顯的小世界特性。與新浪微博和人人網(wǎng)的拓?fù)涮卣鲄?shù)對比,他們的平均路徑長度、網(wǎng)絡(luò)直徑和聚類系數(shù)都很接近,說明話題傳播形成的拓?fù)浣Y(jié)構(gòu)與新浪微博和人人網(wǎng)的網(wǎng)絡(luò)關(guān)系拓?fù)浣Y(jié)構(gòu)具有相同的網(wǎng)絡(luò)性質(zhì)。在這個(gè)轉(zhuǎn)發(fā)網(wǎng)絡(luò)中,網(wǎng)絡(luò)的平均路徑相對很短,但是網(wǎng)絡(luò)的聚類系數(shù)很大,說明在整個(gè)傳播網(wǎng)絡(luò)中,用戶間的聯(lián)系更為緊密,這十分有利于信息的傳播,而且網(wǎng)絡(luò)的小世界特性會加速信息的傳播過程,話題信息在用戶之間進(jìn)行層層轉(zhuǎn)發(fā),多次轉(zhuǎn)發(fā),從核心的用戶逐漸向外擴(kuò)散,用戶參與數(shù)呈爆發(fā)式增長,話題傳播范圍越來越廣。因此研究話題傳播拓?fù)浣Y(jié)構(gòu)對研究如何進(jìn)行輿情監(jiān)控、網(wǎng)絡(luò)監(jiān)管以及研究用戶的影響力具有重大意義。
3結(jié)束語
輿情信息的監(jiān)管是當(dāng)前網(wǎng)絡(luò)安全監(jiān)管的重要內(nèi)容之一,微博已經(jīng)成為了輿情信息傳播的重要平臺。為了研究輿情信息在微博上的傳播模式和特點(diǎn),本文利用爬蟲程序從微博網(wǎng)絡(luò)上獲取話題數(shù)據(jù)以及相應(yīng)的用戶數(shù)據(jù),通過對用戶參與轉(zhuǎn)發(fā)的過程進(jìn)行分析,總結(jié)出了話題傳播的一般規(guī)律和特點(diǎn),并結(jié)合實(shí)際情況進(jìn)行了驗(yàn)證。然后利用話題中用戶間的轉(zhuǎn)發(fā)關(guān)系,繪制出了話題傳播的幾種主要拓?fù)浣Y(jié)構(gòu),對其中的大規(guī)模轉(zhuǎn)發(fā)拓?fù)浣Y(jié)構(gòu)進(jìn)行了深入的分析,并根據(jù)無尺度網(wǎng)絡(luò)的定義,利用社交網(wǎng)絡(luò)分析軟件Pajek生成兩個(gè)無尺度網(wǎng)絡(luò),通過真實(shí)的轉(zhuǎn)發(fā)網(wǎng)絡(luò)與利用分析工具模擬生成的隨機(jī)復(fù)雜網(wǎng)絡(luò)進(jìn)行對比,測量其平均路徑長度、網(wǎng)絡(luò)直徑以及聚類系數(shù)等參數(shù),總結(jié)出了轉(zhuǎn)發(fā)網(wǎng)絡(luò)形成的拓?fù)浣Y(jié)構(gòu)具有明顯的小世界特性。研究結(jié)果對網(wǎng)絡(luò)輿情監(jiān)控有一定的應(yīng)用價(jià)值。本文主要針對微博社交網(wǎng)絡(luò)上的話題傳播過程進(jìn)行了研究,目前的研究工作只利用話題中參與用戶的轉(zhuǎn)發(fā)關(guān)系來構(gòu)建網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu),沒有對用戶的轉(zhuǎn)發(fā)行為和用戶關(guān)系進(jìn)行進(jìn)一步的研究。用戶的個(gè)人行為對話題的傳播也具有一定的影響力,用戶的個(gè)人影響力能夠加快話題的傳播速度和擴(kuò)大話題的傳播范圍,因此下一步的研究將是在話題傳播拓?fù)浣Y(jié)構(gòu)的基礎(chǔ)上,研究用戶的行為和用戶的影響力,發(fā)現(xiàn)網(wǎng)絡(luò)中影響力大的用戶,研究這些用戶對話題傳播過程的影響作用。
參考文獻(xiàn):
[5]平亮,宗利永.基于社會網(wǎng)絡(luò)中心性分析的微博信息傳播研究——以Sina微博為例[J].圖書情報(bào)知識,2010(6):92-97.
[11]袁毅.微博客信息傳播結(jié)構(gòu)、路徑及其影響因素分析[J].圖書情報(bào)工作.2011(12):26-30.
[12]文偉平,郭榮華,孟正,等.信息安全風(fēng)險(xiǎn)評估關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[J].信息網(wǎng)絡(luò)安全,2015(2):7-14.
[13]王永娟,郝家寶.網(wǎng)絡(luò)信息安全的威脅與防范技術(shù)研究[J].中國管理信息化,2015,18(20):146.
[14]卿斯?jié)h.關(guān)鍵基礎(chǔ)設(shè)施安全防護(hù)[J].信息網(wǎng)絡(luò)安全,2015(2):1-6.
[19]張賽,徐恪,李海濤.微博類社交網(wǎng)絡(luò)中信息傳播的測量與分析[J].西安交通大學(xué)學(xué)報(bào).2013,47(2):124-130.
[20]樊鵬翼,王暉,姜志宏,李沛.微博網(wǎng)絡(luò)測量研究[J].計(jì)算機(jī)研究與發(fā)展,2012,49(4):691-699.
[21]李勇軍.在線社交網(wǎng)絡(luò)的拓?fù)涮匦苑治鯷J].復(fù)雜系統(tǒng)與復(fù)雜性科學(xué),2012,9(2):22-37.
作者:鐘杰 王海舟 王文賢 單位:四川大學(xué)計(jì)算機(jī)學(xué)院網(wǎng)絡(luò)與可信計(jì)算研究所 四川大學(xué)網(wǎng)絡(luò)空間安全研究院