基于行為分析的社交網(wǎng)絡異常賬號的檢測.pdf_第1頁
已閱讀1頁,還剩67頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、隨著互聯(lián)網(wǎng)的發(fā)展,社交網(wǎng)絡平臺(以下簡稱“社交平臺”)逐漸成為日常生活中重要的社交工具。社交平臺的類型、內(nèi)容豐富多樣,覆蓋了社會上各類階層的用戶群體,一些流行且影響力較大的社交網(wǎng)絡平臺吸引了億萬用戶注冊登錄使用。社交平臺在某些方面給予了用戶極大的便利,比如減少了用戶間溝通空間與時間的距離,但是社交平臺存儲的巨量用戶信息也成為了不法分子或者利益集團的目標,特別是針對社交平臺存在的各類的異常賬號進行惡意地發(fā)布或轉(zhuǎn)發(fā)不良信息,給社會和公眾造成

2、了極大的損害。針對此種情況,社交平臺需通過主動、定時的檢測平臺的用戶行為數(shù)據(jù),對異常賬戶判定和處理,將具有極其重要的作用與意義。
  本文在梳理了國內(nèi)外社交網(wǎng)絡用戶行為分析相關(guān)成果的基礎(chǔ)上,選擇了新浪微博數(shù)據(jù)作為數(shù)據(jù)信息來源,利用隱馬爾可夫過程對異常用戶進行建模與檢測,并對檢測數(shù)據(jù)進行統(tǒng)計分析。
  首先,通過論證與對比,選擇利用網(wǎng)絡爬蟲技術(shù)對新浪微博的用戶行為數(shù)據(jù)進行了采集、處理,基于鏈接的網(wǎng)頁分析算法,設計微博信息爬取技

3、術(shù)框架,應用Python語言及MySQL數(shù)據(jù)庫技術(shù),通過獲取微博URL地址、建立用戶列表、自動登錄微博,實現(xiàn)抓取微博信息。根據(jù)數(shù)據(jù)用戶賬號的特征,對數(shù)據(jù)進行了分析。
  然后遴選隱馬爾可夫模型作為社交網(wǎng)絡平臺用戶行為分析模型。提出并創(chuàng)建了基于隱馬爾可夫過程的對社交網(wǎng)絡異常用戶行為進行檢測的模型。通過獲取的新浪微博數(shù)據(jù)對該模型進行訓練,得到訓練模型參數(shù),利用模型進行用戶行為的檢測,對微博異常用戶進行檢測與判定,通過不同的可觀察序列對

4、隱變量狀態(tài)最大概率路徑進行計算與判定,從而從數(shù)據(jù)集分辯出正常和異常用戶。并對檢測數(shù)據(jù)進行了統(tǒng)計特性分析,實驗證實該模型可有效檢測出微博數(shù)據(jù)的異常賬號。
  根據(jù)微博用戶行為特征,選擇微博特定特征的虛假粉絲,對隱馬爾可夫模型進行訓練,并進行虛假粉絲的檢測,實驗表明該模型可有效檢測出社交網(wǎng)絡微博用戶具有特定特征的虛假粉絲賬號,證實基于隱馬爾可夫過程的具有特定特征的虛假粉絲賬號正確檢測概率要大于通常意義下異常賬號正確檢測概率。
 

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論