面向電子商務海量數據的智能挖掘技術研究.pdf_第1頁
已閱讀1頁,還剩56頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、伴隨著計算機和網絡技術的迅猛發(fā)展,Internet已經融入到人們日常生活中的各個方面,它在不知不覺間影響著現今社會人們的生活習慣。隨著Web2.0 時代的到來,使得互聯網信息的創(chuàng)建和傳播變得越來越容易。海量的網絡信息使用戶的信息需求得到了滿足。
  但是,信息量過多也絕對不是什么好事,人們也在承受著信息過載(information overload)帶來的困擾。在這個時代,無論是信息需求者還是信息供應者都面臨著巨大的挑戰(zhàn):對于信息

2、需求者,從海量的互聯網信息中找到自己感興趣的信息將是一件相當困難的事情;對于信息供應者,讓自己供應的信息脫穎而出,得到廣大網民的認可,也是一件相當困難的事情。
  眾所周知,為了解決信息過載的問題,在不同的時期人們提出了許多不同的方法??偨Y起來,分為三個主要發(fā)展階段,即導航、檢索和推薦。導航,隨著互聯網網站數量的指數級增加,導航已經逐漸退出歷史舞臺,目前我們常見的分類目錄網站就屬于這一類,如國內的Hao123、國外的Yahoo 和

3、DMOZ 等。檢索,百度、谷歌等搜索引擎皆屬于此類,人們只要在搜索框中輸入相應的關鍵詞,就可獲取自己想要的信息。但很多時候人們并不知道自己的明確需求,此時,就需要進行推薦。推薦,根據用戶的歷史行為,為用戶建立興趣模型,從而主動地為用戶提供他們想要的信息。
  隨著Internet 的發(fā)展及國家相關政策的支持,電子商務網站如雨后春筍般涌現出來。傳統(tǒng)商店受經營場所面積及貨架成本制約,不能將所有的商品展示出來。但電子商務網站不受這些因素

4、影響,能夠用比較低成本展示并出售更多的商品。如何從海量的同質商品中選出自己滿意的商品,這是用戶比較關注的問題;如何讓用戶從海量的商品中選擇自己的產品,也成為影響電子商務網站發(fā)展的重要因素。將推薦系統(tǒng)應用于電子商務網站,不僅能提高電子商務網站的業(yè)績,也能對用戶提供較好的服務,從而避免用戶流失。因此,電子商務網站的推薦系統(tǒng)成為了當前學術界及產業(yè)界的研究熱點。
  本文首先對當前常用推薦算法分類進行了介紹,并通過簡單的示例描述了各個推薦

5、算法的原理,接合亞馬遜電子商務網站說明了推薦系統(tǒng)在實際環(huán)境中的應用。
  其次,本文針對HTML文檔開發(fā)了一套信息采集抽取系統(tǒng)。系統(tǒng)利用開源的網絡爬蟲Heritrix 對電子商務網站的網頁進行爬取,然后采用開源的JSoup 進行信息抽取。為驗證系統(tǒng)的性能,我們對國內最大的B2C電子商務網站天貓商城及國內最大的B2B 子商務網站阿里巴巴的銷售記錄進行了采集抽取,并得到了良好的實驗結果。
  再次,傳統(tǒng)的基于物品的協(xié)同過濾算法和

6、基于用戶的協(xié)同過濾算法存在矩陣稀疏的問題,一旦將稀疏矩陣補全,則又會出現存儲空間過大及計算時間過長的問題。針對該情況,本文對隱語義模型LFM(Latent Factor Model)進行了研究,結合目前常見的標簽系統(tǒng),提出了基于標簽的推薦算法。根據標簽的生成方式,一般分為兩種:一種是由專業(yè)的編輯對物品打有限的標簽;另一種是讓用戶根據自己的感知給物品打上相應標簽,即UGC(UserGenerated Content,用戶生成的內容)。這樣

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論