校園網(wǎng)搜索引擎的分析與設(shè)計(jì)_第1頁(yè)
已閱讀1頁(yè),還剩22頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、1類(lèi)別中小學(xué)信息技術(shù)編號(hào)校園網(wǎng)搜索引擎的分析與設(shè)計(jì)內(nèi)容摘要內(nèi)容摘要:隨著Inter的迅速發(fā)展,校園網(wǎng)也不斷發(fā)展,校園網(wǎng)中的信息量不斷增大,我們?cè)诓檎倚畔r(shí)也因其信息資源量大而不能很快找到所需的信息,所以一種基于校園網(wǎng)的搜索引擎也就應(yīng)運(yùn)而生了。而網(wǎng)絡(luò)蜘蛛技術(shù)是搜索引擎的關(guān)鍵。本文圍繞這一技術(shù)而展開(kāi)。首先從搜索引擎的種類(lèi)和原理整體分析了搜索引擎,然后研究網(wǎng)絡(luò)蜘蛛這一技術(shù),從網(wǎng)絡(luò)蜘蛛技術(shù)的原理、一般系統(tǒng)結(jié)構(gòu)、關(guān)鍵技術(shù)、技術(shù)實(shí)現(xiàn)等幾個(gè)方面來(lái)分別

2、分析、為設(shè)計(jì)校園搜索引擎作最基本的工作。選擇.為設(shè)計(jì)平臺(tái),以C#語(yǔ)言編寫(xiě)程序。關(guān)鍵詞關(guān)鍵詞:搜索引擎;蜘蛛;超鏈接;爬取;URL1.引言隨著Inter的快速發(fā)展,網(wǎng)絡(luò)正在深刻地影響著我們的生活。而在網(wǎng)上發(fā)展最為迅速的WWW(WldWideWeb)技術(shù),以其直觀(guān)、簡(jiǎn)單、高效的使用方式和豐富的表達(dá)能力,已逐漸成為Inter上最重要的信息發(fā)布和交互方式。Inter上的數(shù)十億的網(wǎng)頁(yè)數(shù)量,這給人們帶來(lái)了前所未有的豐富的信息資源。然而,Web信息的

3、急速增長(zhǎng),在給人們提供豐富信息的同時(shí),也存在信息量過(guò)大而導(dǎo)致人們不能很快找到自己所需信息的問(wèn)題。因此,隨之而來(lái)的就出現(xiàn)了搜索引擎,但搜索引擎在如此快速的Inter發(fā)展之下也面臨很多挑戰(zhàn)[2]:(1)Web上的信息種類(lèi)繁多、豐富多彩使得搜索引擎能夠檢索的范圍越來(lái)越小。(2)Web是一個(gè)動(dòng)態(tài)增長(zhǎng)的信息源,隨時(shí)會(huì)發(fā)生各種變化。(3)搜索引擎面對(duì)的用戶(hù)是形形色色的,這些用戶(hù)的信息需求、知識(shí)背景、興趣各不相同。對(duì)于目前搜索引擎存在的各種不足及面臨

4、解決的諸多難題,如:如何跟上Inter的發(fā)展速度,如何才能提供更加方便易用的搜索服務(wù),如何才能為用戶(hù)提供更加精確的查詢(xún)結(jié)果等等,都是未來(lái)很長(zhǎng)一段時(shí)間內(nèi)搜索引擎的發(fā)展方向??偟目磥?lái),其未來(lái)發(fā)展的趨勢(shì)將主要體現(xiàn)在以下幾個(gè)方面[1429]:3用進(jìn)行關(guān)鍵詞查詢(xún),僅靠分類(lèi)目錄也可找到需要的信息。它的優(yōu)點(diǎn)在于:目錄清晰、內(nèi)容較準(zhǔn)確、有效價(jià)值較高;缺點(diǎn)也比較明顯:分類(lèi)體系不規(guī)范、不統(tǒng)一,交叉類(lèi)目容易遺漏;人工分類(lèi),效率比較低,速度比較慢,更新不及時(shí)。

5、目錄搜索引擎中最具代表性的如Yahoo(雅虎)。2.1.3元搜索引擎元搜索引擎,即指在統(tǒng)一的用戶(hù)查詢(xún)界面與信息反饋的形式下,共享多個(gè)搜索引擎的資源庫(kù)為用戶(hù)提供信息服務(wù)的系統(tǒng),又稱(chēng)作搜索引擎之上的搜索引擎。元搜索引擎自身沒(méi)有建立存儲(chǔ)網(wǎng)頁(yè)信息的數(shù)據(jù)庫(kù)[7],而是將用戶(hù)的查詢(xún)請(qǐng)求同時(shí)傳送至多個(gè)包含數(shù)據(jù)庫(kù)的搜索引擎,并行地訪(fǎng)問(wèn)數(shù)個(gè)搜索引擎來(lái)查詢(xún)這個(gè)關(guān)鍵詞,然后對(duì)各搜索引擎返回的結(jié)果進(jìn)行去重、排序等整理,最終響應(yīng)給檢索用戶(hù)。嚴(yán)格意義上來(lái)講,元搜索

6、引擎只能算是一種用戶(hù)代理,而不是真正的搜索引擎。目前,沒(méi)有一個(gè)搜索引擎能涵蓋整個(gè)Inter,各搜索引擎的收錄范圍又有所差異,因此這類(lèi)元搜索受到了一定程度的關(guān)注,特別適合于對(duì)查全率要求高的查詢(xún)。但是,不同的搜索引擎之間,建立索引數(shù)據(jù)庫(kù)和執(zhí)行提交檢索的具體方法或規(guī)則并不相同,因此,大大影響了元搜索的檢索效果。2.2搜索引擎工作原理搜索引擎的工作原理基本都是一樣的[10],利用一個(gè)叫網(wǎng)絡(luò)蜘蛛的程序在網(wǎng)絡(luò)上爬行,自動(dòng)地遍歷Web來(lái)獲得的網(wǎng)絡(luò)信息

7、并保存到本地服務(wù)器中。因此,我們通常所說(shuō)的搜索引擎并不是真正的在搜索互聯(lián)網(wǎng),而是通過(guò)用戶(hù)提供的關(guān)鍵詞,搜索引擎再根據(jù)此關(guān)鍵詞進(jìn)行對(duì)其服務(wù)器的數(shù)據(jù)庫(kù)進(jìn)行搜索。為了保證用戶(hù)查找信息的精度和及時(shí),搜索引擎需要建立并維護(hù)一個(gè)龐大的索引數(shù)據(jù)庫(kù),從而能夠迅速的從中找到相關(guān)的信息。搜索引擎的工作過(guò)程一般來(lái)說(shuō)可以看作三大步:從互聯(lián)網(wǎng)上爬取網(wǎng)頁(yè)-預(yù)處理-查詢(xún)服務(wù)[23],如圖1。WWW信息采集器分析索引排序索引庫(kù)進(jìn)行檢索分析查詢(xún)結(jié)果排序用戶(hù)查詢(xún)返回信息處

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論