搜索引擎技術(shù)原理_第1頁
已閱讀1頁,還剩3頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、搜索引擎技術(shù)原理.txt吃吧吃吧不是罪,再胖的人也有權(quán)利去增肥!苗條背后其實是憔悴,愛你的人不會在乎你的腰圍!嘗嘗闊別已久美食的滋味,就算撐死也是一種美!減肥最可怕的不是饑餓,而是你明明不餓但總覺得非得吃點什么才踏實。搜索引擎技術(shù)原理搜索引擎(searchengine)是指根據(jù)一定的策略、運(yùn)用特定的計算機(jī)程序搜集互聯(lián)網(wǎng)上的信息,在對信息進(jìn)行組織和處理后,為用戶提供檢索服務(wù)的系統(tǒng)。一、Web搜索引擎技術(shù)綜述(一)、引子隨著網(wǎng)絡(luò)技術(shù)的應(yīng)用與

2、發(fā)展,互連網(wǎng)已經(jīng)成為信息的重要來源地。搜索引擎以一定的策略在互聯(lián)網(wǎng)中搜集、發(fā)現(xiàn)信息,對信息進(jìn)行理解、提取、組織和處理,并為用戶提供檢索服務(wù),從而起到信息導(dǎo)航的目的,互聯(lián)網(wǎng)用戶使用網(wǎng)絡(luò)獲取信息過程中,搜索引擎也成為必不可少的工具。調(diào)查表明,當(dāng)前的所有互連網(wǎng)應(yīng)用中,網(wǎng)絡(luò)信息搜索是僅次于電子郵件的第二大應(yīng)用,而這些搜索絕大多數(shù)是專門的,高度復(fù)雜的搜索引擎實現(xiàn)的。按照信息搜集方法和服務(wù)提供方式的不同,搜索引擎系統(tǒng)可以分為三大類:①目錄式搜索引擎

3、,以人工方式或半自動方式搜集信息,由編輯員查看信息之后,人工形成信息摘要,并將信息置于事先確定的分類框架中,由于web信息的海量性和人工處理能力、經(jīng)濟(jì)代價的限制,這類搜索引擎信息的即時性和全面性難以保證,它的優(yōu)秀代表是Yahoo等。②機(jī)器人搜索引擎,由一個稱為蜘蛛(Spider)的機(jī)器人程序以某種策略自動地在互聯(lián)網(wǎng)中搜集和發(fā)現(xiàn)信息,由索引器為搜集到的信息建立索引,由檢索器根據(jù)用戶的查詢輸入檢索索引庫,并將查詢結(jié)果返回給用戶,這類搜索引擎

4、實現(xiàn)較為復(fù)雜,但能很好的實現(xiàn)信息的全面獲取和即時更新,它的優(yōu)秀代表是Google等。③元搜索引擎,這類搜索引擎沒有自己的數(shù)據(jù),而是將用戶的查詢請求同時向多個搜索引擎遞交,將返回的結(jié)果進(jìn)行重復(fù)排除、重新排序等處理后,作為自己的結(jié)果返回給用戶,這類搜索引擎兼集多個搜索引擎的信息,并且加入新的排序和信息過濾,可以很好的提高用戶滿意度。(二)、web搜索引擎的原理和實現(xiàn)web搜索引擎的原理通常為:首先是用蜘蛛(Spider)進(jìn)行全網(wǎng)搜索,自動抓

5、取網(wǎng)頁;然后將抓取的網(wǎng)頁進(jìn)行索引,同時也會記錄與檢索有關(guān)的屬性,中文搜索引擎中還需要首先對中文進(jìn)行分詞;最后,接受用戶查詢請求,檢索索引文件并按照各種參數(shù)進(jìn)行復(fù)雜的計算,產(chǎn)生結(jié)果并返回給用戶。1.利用網(wǎng)絡(luò)蜘蛛獲取網(wǎng)絡(luò)資源這是一種半自動化的資源(由于此時尚未對資源進(jìn)行分析和理解,不能成為信息而僅是技術(shù)。與此同時,Google從未停止過對其后端技術(shù)的改進(jìn),以使其技術(shù)效率更高。Google搜索技術(shù)所依托的軟件可以同時進(jìn)行一系列的運(yùn)算,且只需片

6、刻即可完成所有運(yùn)算。而傳統(tǒng)的搜索引擎在很大程度上取決于文字在網(wǎng)頁上出現(xiàn)的頻率。Google使用PageRank技術(shù)檢查整個網(wǎng)絡(luò)鏈接結(jié)構(gòu),并確定哪些網(wǎng)頁重要性最高。然后進(jìn)行超文本匹配分析,以確定哪些網(wǎng)頁與正在執(zhí)行的特定搜索相關(guān)。在綜合考慮整體重要性以及與特定查詢的相關(guān)性之后,Google可以將最相關(guān)最可靠的搜索結(jié)果放在首位。1、PageRank技術(shù):通過對由超過50000萬個變量和20億個詞匯組成的方程進(jìn)行計算,PageRank能夠?qū)W(wǎng)頁

7、的重要性做出客觀的評價。PageRank并不計算直接鏈接的數(shù)量,而是將從網(wǎng)頁A指向網(wǎng)頁B的鏈接解釋為由網(wǎng)頁A對網(wǎng)頁B所投的一票。這樣,PageRank會根據(jù)網(wǎng)頁B所收到的投票數(shù)量來評估該頁的重要性。此外,PageRank還會評估每個投票網(wǎng)頁的重要性,因為某些網(wǎng)頁的投票被認(rèn)為具有較高的價值,這樣,它所鏈接的網(wǎng)頁就能獲得較高的價值。重要網(wǎng)頁獲得的PageRank(網(wǎng)頁排名)較高,從而顯示在搜索結(jié)果的頂部。Google技術(shù)使用網(wǎng)上反饋的綜合信

8、息來確定某個網(wǎng)頁的重要性。搜索結(jié)果沒有人工干預(yù)或操縱,這也是為什么Google會成為一個廣受用戶信賴、不受付費排名影響且公正客觀的信息來源。2、超文本匹配分析:Google的搜索引擎同時也分析網(wǎng)頁內(nèi)容。然而,Google的技術(shù)并不采用單純掃描基于網(wǎng)頁的文本(網(wǎng)站發(fā)布商可以通過元標(biāo)記控制這類文本)的方式,而是分析網(wǎng)頁的全部內(nèi)容以及字體、分區(qū)及每個文字精確位置等因素。Google同時還會分析相鄰網(wǎng)頁的內(nèi)容,以確保返回與用戶查詢最相關(guān)的結(jié)果。

9、Google的創(chuàng)新并不限于臺式機(jī)。為了確保通過便攜式設(shè)備訪問網(wǎng)絡(luò)的用戶能夠快速獲得精確的搜索結(jié)果,Google還率先推出了業(yè)界第一款無線搜索技術(shù),以便將HTML即時轉(zhuǎn)換為針對WAP、Imode、JSKY和EZWeb優(yōu)化的格式。(二)Google查詢的全過程Google查詢的全過程通常不超過半秒時間,但在這短短的時間內(nèi)需要完成多個步驟,然后才能將搜索結(jié)果交付給搜索信息的用戶。1.網(wǎng)絡(luò)服務(wù)器將查詢發(fā)送到索引服務(wù)器。索引服務(wù)器所包含的內(nèi)容與書

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論