![](https://static.zsdocx.com/FlexPaper/FileRoot/2019-8/13/20/05cd0deb-4ac4-43dd-a68d-4627b335d64e/05cd0deb-4ac4-43dd-a68d-4627b335d64epic.jpg)
![第9章 電子政務(wù)中的數(shù)據(jù)挖掘技術(shù)_第1頁](https://static.zsdocx.com/FlexPaper/FileRoot/2019-8/13/20/05cd0deb-4ac4-43dd-a68d-4627b335d64e/05cd0deb-4ac4-43dd-a68d-4627b335d64e1.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、第九章 電子政務(wù)中的數(shù)據(jù)挖掘技術(shù),一、數(shù)據(jù)倉庫二、數(shù)據(jù)挖掘技術(shù)三、電子政務(wù)中的數(shù)據(jù)挖掘本章問題,一、數(shù)據(jù)倉庫的概念和特點(diǎn),數(shù)據(jù)倉庫概念始于本世紀(jì)80年代中期,首次出現(xiàn)是在號(hào)稱“數(shù)據(jù)倉庫之父”William H.Inmon的《建立數(shù)據(jù)倉庫》一書中。 (一)數(shù)據(jù)倉庫與傳統(tǒng)數(shù)據(jù)庫的區(qū)別 1、數(shù)據(jù)倉庫的關(guān)鍵技術(shù) 數(shù)據(jù)倉庫,是在數(shù)據(jù)庫已經(jīng)大量存在的情況下,為了進(jìn)一步挖掘數(shù)據(jù)資源、為了決策需要而產(chǎn)生的,它決不是所謂的“大型數(shù)
2、據(jù)庫”。 數(shù)據(jù)倉庫并沒有嚴(yán)格的數(shù)學(xué)理論基礎(chǔ),也沒有成熟的基本模式,且更偏向于工程,具有強(qiáng)烈的工程性。因此,在技術(shù)上人們習(xí)慣于從工作過程等方面來分析,其關(guān)鍵技術(shù)表現(xiàn)等三個(gè)基本方面。 (1)數(shù)據(jù)的抽取 數(shù)據(jù)的抽取是數(shù)據(jù)進(jìn)入倉庫的入口。由于數(shù)據(jù)倉庫是一個(gè)獨(dú)立的數(shù)據(jù)環(huán)境,它需要通過抽取過程將數(shù)據(jù)從聯(lián)機(jī)事務(wù)處理系統(tǒng)、外部數(shù)據(jù)源、脫機(jī)的數(shù)據(jù)存儲(chǔ)介質(zhì)中導(dǎo)入到數(shù)據(jù)倉庫。數(shù)據(jù)抽取在技術(shù)上主要涉及互連、復(fù)制、增量、轉(zhuǎn)換、調(diào)度和監(jiān)控等
3、方面。數(shù)據(jù)倉庫中的數(shù)據(jù)并不要求與聯(lián)機(jī)事務(wù)處理系統(tǒng)保持實(shí)時(shí)同步,因此數(shù)據(jù)抽取可以定時(shí)進(jìn)行,但多個(gè)抽取操作執(zhí)行的時(shí)間、相互的順序、成敗對數(shù)據(jù)倉庫中信息的有效性則至關(guān)重要。,返 回 下一頁,(2)存儲(chǔ)和管理儲(chǔ),數(shù)據(jù)倉庫的真正關(guān)鍵是數(shù)據(jù)的存儲(chǔ)和管理。數(shù)據(jù)倉庫的組織管理方式?jīng)Q定了它有 別于傳統(tǒng)數(shù)據(jù)庫,同時(shí)也決定了其對外部數(shù)據(jù)的表現(xiàn)形式。要決定采用什么產(chǎn)品和技術(shù)來建立數(shù)據(jù)倉庫的核心,則需要從數(shù)據(jù)倉庫的技術(shù)特點(diǎn)著手分析。 (3)數(shù)據(jù)的表現(xiàn)
4、 數(shù)據(jù)表現(xiàn)實(shí)際上相當(dāng)于數(shù)據(jù)倉庫的門面,其性能主要集中在多維分析、數(shù)理統(tǒng)計(jì)和數(shù)據(jù)挖掘方面。而多維分析又是數(shù)據(jù)倉庫的重要表現(xiàn)形式,近幾年來由于互聯(lián)網(wǎng)的發(fā)展,使得多維分析領(lǐng)域的工具和產(chǎn)品更加注重提供基于Web前端聯(lián)機(jī)分析界面,而不僅僅是在網(wǎng)上發(fā)布數(shù)據(jù)。 2、傳統(tǒng)數(shù)據(jù)庫和數(shù)據(jù)倉庫的區(qū)別主要表現(xiàn)為 (1)面向主題 傳統(tǒng)數(shù)據(jù)庫主要是為應(yīng)用程序進(jìn)行數(shù)據(jù)處理,未必按照同一主題存儲(chǔ)數(shù)據(jù);數(shù)據(jù)倉庫側(cè)重于數(shù)據(jù)分析工作,是按照主
5、題存儲(chǔ)的。這一點(diǎn),類似于傳統(tǒng)農(nóng)貿(mào)市場與超市的區(qū)別—市場里面,白菜、蘿卜、香菜會(huì)在一個(gè)攤位上,如果它們是一個(gè)小販賣的;而超市里,白菜、蘿卜、香菜則各自一塊。也就是說,市場里的菜(數(shù)據(jù))是按照小販(應(yīng)用程序)歸堆(存儲(chǔ))的,超市里面則是按照菜的類型(同主題)歸堆的。,上一頁 下一頁,(2)與時(shí)間相關(guān),數(shù)據(jù)庫保存信息的時(shí)候,并不強(qiáng)調(diào)一定有時(shí)間信息。數(shù)據(jù)倉庫則不同,出于決策的需要,數(shù)據(jù)倉庫中的數(shù)據(jù)都要標(biāo)明時(shí)間屬性。決策中,時(shí)間屬性很重要。同
6、樣都是累計(jì)購買過九車產(chǎn)品的顧客,一位是最近三個(gè)月購買九車,一位是最近一年從未買過,這對于決策者意義是不同的。 (3)不可修改 數(shù)據(jù)倉庫中的數(shù)據(jù)并不是最新的,而是來源于其它數(shù)據(jù)源。數(shù)據(jù)倉庫反映的是歷史信息,并不是很多數(shù)據(jù)庫處理的那種日常事務(wù)數(shù)據(jù)(有的數(shù)據(jù)庫例如電信計(jì)費(fèi)數(shù)據(jù)庫甚至處理實(shí)時(shí)信息)。因此,數(shù)據(jù)倉庫中的數(shù)據(jù)是極少或根本不修改的;當(dāng)然,向數(shù)據(jù)倉庫添加數(shù)據(jù)是允許的。 數(shù)據(jù)倉庫的出現(xiàn),并不是要取代數(shù)據(jù)庫。目前,大部
7、分?jǐn)?shù)據(jù)倉庫還是用關(guān)系數(shù)據(jù)庫管理系統(tǒng)來管理的??梢哉f,數(shù)據(jù)庫、數(shù)據(jù)倉庫相輔相成、各有千秋。(二)數(shù)據(jù)倉庫的定義和特點(diǎn) 1、定義 數(shù)據(jù)倉庫(Data Warehouse)是一個(gè)面向主題的(Subject Oriented)、集成的(Integrate)、相對穩(wěn)定的(Non-Volatile)、反映歷史變化(Time Variant)的數(shù)據(jù)集合,用于支持管理決策。,上一頁 下一頁,2、特點(diǎn),根據(jù)數(shù)據(jù)倉庫概念的含義,數(shù)據(jù)倉庫
8、擁有以下四個(gè)特點(diǎn): (1)面向主題。操作型數(shù)據(jù)庫的數(shù)據(jù)組織面向事務(wù)處理任務(wù),而數(shù)據(jù)倉庫中的數(shù)據(jù)是按照一定的主題域進(jìn)行組織。主題是指用戶使用數(shù)據(jù)倉庫進(jìn)行決策時(shí)所關(guān)心的重點(diǎn)方面,一個(gè)主題通常與多個(gè)操作型信息系統(tǒng)相關(guān)。 (2)集成的。面向事務(wù)處理的操作型數(shù)據(jù)庫之間相互獨(dú)立,并且往往是異構(gòu)的。而數(shù)據(jù)倉庫中的數(shù)據(jù)是在對原有分散的數(shù)據(jù)庫數(shù)據(jù)抽取、清理的基礎(chǔ)上經(jīng)過系統(tǒng)加工、匯總和整理得到的,必須消除源數(shù)據(jù)中的不一致性,以保證數(shù)據(jù)倉庫內(nèi)的信
9、息是關(guān)于整個(gè)企業(yè)的一致的全局信息。 (3)相對穩(wěn)定的。操作型數(shù)據(jù)庫中的數(shù)據(jù)通常實(shí)時(shí)更新。數(shù)據(jù)倉庫的數(shù)據(jù)主要供企業(yè)決策分析之用,所涉及的數(shù)據(jù)操作主要是數(shù)據(jù)查詢,一旦某個(gè)數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫以后,一般情況下將被長期保留,一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的加載、刷新。 (4)反映歷史變化。操作型數(shù)據(jù)庫主要關(guān)心當(dāng)前某一個(gè)時(shí)間段內(nèi)的數(shù)據(jù)。而數(shù)據(jù)倉庫中的數(shù)據(jù)通常包含歷史信息,系統(tǒng)記錄了從過去某一時(shí)點(diǎn)(如開始應(yīng)用數(shù)據(jù)
10、倉庫的時(shí)點(diǎn))到目前的各個(gè)階段的信息,通過這些信息,可以對發(fā)展歷程和未來趨勢做出定量分析和預(yù)測。,上一頁 下一頁,(三)數(shù)據(jù)倉庫的結(jié)構(gòu),1、數(shù)據(jù)倉庫的基本體系結(jié)構(gòu) 數(shù)據(jù)倉庫的體系結(jié)構(gòu)分為數(shù)據(jù)獲取層、數(shù)據(jù)存儲(chǔ)層、數(shù)據(jù)挖掘?qū)拥榷鄠€(gè)部分。 (1)數(shù)據(jù)獲取層 數(shù)據(jù)獲取層把決策主題所需要的數(shù)據(jù)(當(dāng)前的、歷史的),從各種相關(guān)的業(yè)務(wù)數(shù)據(jù)庫或數(shù)據(jù)文件等外部數(shù)據(jù)源中抽取出來,進(jìn)行各種必要的清洗、整合和轉(zhuǎn)換處理,再將這些數(shù)據(jù)集成存儲(chǔ)到
11、倉庫中。數(shù)據(jù)獲取層在數(shù)據(jù)倉庫的整體系統(tǒng)應(yīng)用中占有非常重要的地位。 (2)數(shù)據(jù)存儲(chǔ)層 數(shù)據(jù)存儲(chǔ)層以一定的組織結(jié)構(gòu)存儲(chǔ)各種主題數(shù)據(jù)。數(shù)據(jù)倉庫包括多個(gè)主題,一個(gè)主題的數(shù)據(jù)通常存儲(chǔ)在一個(gè)數(shù)據(jù)庫中,包括該主題的一些綜合性表,如主題中選擇的事實(shí)表、維表,還有為數(shù)據(jù)挖掘生成的中間表等。 (3)數(shù)據(jù)挖掘?qū)?數(shù)據(jù)挖掘?qū)蛹筛鞣N數(shù)據(jù)挖掘的算法,包含具有很強(qiáng)功能的數(shù)據(jù)挖掘工具,可以提供靈活有效的任務(wù)模型、組織形式,以支持各項(xiàng)決策
12、的數(shù)據(jù)挖掘任務(wù)。數(shù)據(jù)挖掘是數(shù)據(jù)倉庫應(yīng)用的關(guān)鍵。,上一頁 下一頁,2、數(shù)據(jù)倉庫的基本體系結(jié)構(gòu)中的幾個(gè)基本組成部分,(1)數(shù)據(jù)源:指為數(shù)據(jù)倉庫提供最底層數(shù)據(jù)的運(yùn)作數(shù)據(jù)庫系統(tǒng)及外部數(shù)據(jù)。 (2)監(jiān)視器:負(fù)責(zé)感知數(shù)據(jù)源發(fā)生的變化,并按數(shù)據(jù)倉庫的需求提取數(shù)據(jù)。 (3)集成器:將從運(yùn)作數(shù)據(jù)庫中提取的數(shù)據(jù)經(jīng)過轉(zhuǎn)換、計(jì)算、綜合等操作,集成到數(shù)據(jù)倉庫中。 (4)數(shù)據(jù)倉庫:存貯已經(jīng)按企業(yè)級(jí)視圖轉(zhuǎn)換的數(shù)據(jù),供分析處理用。 根據(jù)不同的
13、分析要求,數(shù)據(jù)按不同的綜合程度存儲(chǔ)。數(shù)據(jù)倉庫中還應(yīng)存儲(chǔ)元數(shù)據(jù),其中記錄了數(shù)據(jù)的結(jié)構(gòu)和數(shù)據(jù)倉庫的任何變化,以支持?jǐn)?shù)據(jù)倉庫的開發(fā)和使用。 (5)客戶應(yīng)用:供用戶對數(shù)據(jù)倉庫中的數(shù)據(jù)進(jìn)行訪問查詢,并以直觀的方表示分析結(jié)果的工具。 在實(shí)施智能化決策時(shí),一般分兩個(gè)步驟:第一步實(shí)現(xiàn)數(shù)據(jù)倉庫和多維分析,構(gòu)造智能決策的基礎(chǔ),實(shí)現(xiàn)分析應(yīng)用;第二步實(shí)現(xiàn)數(shù)據(jù)挖掘,再發(fā)揮智能化決策的特色。數(shù)據(jù)挖掘是數(shù)據(jù)利用價(jià)值的再發(fā)現(xiàn),它突破了傳統(tǒng)意義上的數(shù)據(jù)查詢
14、,是在更大的尺度上、更深的層次中對數(shù)據(jù)提高利用的價(jià)值,是數(shù)據(jù)倉庫應(yīng)用的關(guān)鍵。,上一頁 下一頁,數(shù)據(jù)倉庫的基本體系結(jié)構(gòu),,上一頁 下一頁,(四)數(shù)據(jù)倉庫的功能,1、數(shù)據(jù)獲取 2、數(shù)據(jù)儲(chǔ)存和管理 3、信息訪問 (五)數(shù)據(jù)倉庫建設(shè)的重點(diǎn) 數(shù)據(jù)倉庫性能指標(biāo)評(píng)估包括以下幾個(gè)方面: (1)管理大數(shù)據(jù)量數(shù)據(jù)的能力; (2)進(jìn)行靈活數(shù)據(jù)存取的能力; (3)根據(jù)數(shù)據(jù)模型重組數(shù)據(jù)的能力; (
15、4)數(shù)據(jù)發(fā)送和接收能力; (5)周期性成批裝載數(shù)據(jù)的能力; (6)可設(shè)定完成時(shí)間的作業(yè)管理能力。等等。 這些內(nèi)容,很多都與數(shù)據(jù)清理、預(yù)加工等處理流程有密切關(guān)系,因?yàn)檫@些流程是數(shù)據(jù)倉庫“原料”問題的保障。只有進(jìn)入倉庫的原料質(zhì)量有所保障,倉庫才能更好地發(fā)揮作用。因此,成功建設(shè)數(shù)據(jù)倉庫,一定要特別重視數(shù)據(jù)抽取、數(shù)據(jù)沖突以及數(shù)據(jù)集成等方面的工作。,上一頁 下一頁,1、重視集成、轉(zhuǎn)換程序開發(fā),數(shù)據(jù)倉庫是一個(gè)獨(dú)立的數(shù)據(jù)環(huán)境
16、,它需要通過抽取過程將數(shù)據(jù)導(dǎo)入。的過程,包括:數(shù)據(jù)清理、預(yù)加工工作,包括刪除對決策應(yīng)用沒有意義的數(shù)據(jù)段、轉(zhuǎn)換到統(tǒng)一的數(shù)據(jù)名稱、計(jì)算統(tǒng)計(jì)和衍生數(shù)據(jù)、給缺值數(shù)據(jù)賦缺省值以及把不同的數(shù)據(jù)定義方式統(tǒng)一等內(nèi)容。 數(shù)據(jù)清理、預(yù)加工所需的集成、轉(zhuǎn)換程序用于從操作性信息系統(tǒng)、數(shù)據(jù)庫中移植數(shù)據(jù)給數(shù)據(jù)倉庫,還包括數(shù)據(jù)倉庫運(yùn)行起來之后的定時(shí)數(shù)據(jù)補(bǔ)充。 2、解決數(shù)據(jù)沖突 要確定可能存在的各種語法和語義上的沖突,在導(dǎo)入數(shù)據(jù)的時(shí)候,要對突
17、數(shù)據(jù)進(jìn)行轉(zhuǎn)換。這些沖突可能包括: 格式?jīng)_突:同一種數(shù)據(jù)類型可能有不同的表示方法和語義差異,這時(shí)需要定義兩種模型之間的變換函數(shù)。 命名沖突:即數(shù)據(jù)源中數(shù)據(jù)的某些標(biāo)識(shí)符可能是目的模型中的保留字,這時(shí)就需要重新命名。 結(jié)構(gòu)沖突:如果兩種數(shù)據(jù)庫系統(tǒng)之間的數(shù)據(jù)定義模型不同,那么需要重新定義實(shí)體屬性和聯(lián)系,以防止屬性或聯(lián)系信息的丟失。,上一頁 下一頁,3、引入新的訪問控制機(jī)制,在進(jìn)行數(shù)據(jù)轉(zhuǎn)換后,一方面數(shù)據(jù)源中所有需要載
18、入的信息都轉(zhuǎn)換到數(shù)據(jù)倉庫中,另一方面這種轉(zhuǎn)換又不能包含冗余的關(guān)聯(lián)信息。需要進(jìn)一步研究的問題是:如果數(shù)據(jù)轉(zhuǎn)換的同時(shí)進(jìn)行數(shù)據(jù)定義模式轉(zhuǎn)換,就可能引起同一數(shù)據(jù)集合在異構(gòu)數(shù)據(jù)庫系統(tǒng)中存在多個(gè)副本。因此需要引入新的訪問控制機(jī)制,對于數(shù)據(jù)倉庫提供全局的訪問控制、并發(fā)機(jī)制和安全控制。 4、確定數(shù)據(jù)抽取周期以及數(shù)據(jù)總量 數(shù)據(jù)倉庫中的數(shù)據(jù),一般不要求與聯(lián)機(jī)事務(wù)處理系統(tǒng)保持實(shí)時(shí)同步,因此數(shù)據(jù)抽取可以定時(shí)進(jìn)行。但多個(gè)抽取操作執(zhí)行的時(shí)間、相互的
19、順序、成敗對數(shù)據(jù)倉庫中信息的有效性至關(guān)重要。在規(guī)劃數(shù)據(jù)倉庫項(xiàng)目明確企業(yè)需求的時(shí)候,就要特別注意與業(yè)務(wù)人員協(xié)商好間隔多久抽取一次新數(shù)據(jù)以及保留多久的歷史數(shù)據(jù)。不同類型的數(shù)據(jù),抽取周期也不同。 例如證券登記公司按照法律規(guī)定,要保存20年的過戶歷史數(shù)據(jù);西方大型零售業(yè)企業(yè)的數(shù)據(jù)倉庫里一般保存最新2~3年來自集團(tuán)各個(gè)商店的原始銷售數(shù)據(jù)和庫存數(shù)據(jù);世界上從事航空運(yùn)輸業(yè)歷史最悠久的公司之一澳大利亞QANTAS航空公司建成數(shù)據(jù)倉庫時(shí)原始數(shù)據(jù)量
20、不到100GB,不到五年的時(shí)間即擴(kuò)展到1500GB。因此,企業(yè)應(yīng)該在自身系統(tǒng)性能、可擴(kuò)張性許可的范疇內(nèi)抽取數(shù)據(jù),切忌“貪大。,上一頁 下一頁,(六)數(shù)據(jù)倉庫的應(yīng)用,1、證券 證券公司利用客戶行為分析系統(tǒng)將所有客戶的操作記錄進(jìn)行歸類和整理,并結(jié)合行情走勢、上市公司資料、宏觀微觀經(jīng)濟(jì)數(shù)據(jù)等。在掌握大量數(shù)據(jù)的情況下,對客戶的行為和市場各因素的關(guān)聯(lián)、客戶的操作習(xí)慣、盈虧情況、公司的利潤分布等進(jìn)行統(tǒng)計(jì)和分析,從而在獲得以往一直想獲得但
21、卻無法獲取的關(guān)于客戶在本公司的行為、盈虧、習(xí)慣等關(guān)鍵信息后,就有能力為客戶提供針對其個(gè)人習(xí)慣、投資組合的投資建議,從而真正作到對客戶的貼心服務(wù)。 2、銀行 如何防范銀行的經(jīng)營風(fēng)險(xiǎn)、實(shí)現(xiàn)科學(xué)管理以及進(jìn)行決策,成為當(dāng)今金融研究的一個(gè)重要課題。利用數(shù)據(jù)倉庫的強(qiáng)大功能,銀行可以建立企業(yè)客戶群、個(gè)人客戶群的數(shù)據(jù)庫,并對企業(yè)的結(jié)構(gòu)、經(jīng)營、財(cái)務(wù)、市場競爭等多個(gè)數(shù)據(jù)源進(jìn)行統(tǒng)一的組織,形成一個(gè)一體化的存儲(chǔ)結(jié)構(gòu),為決策分析奠定基礎(chǔ)。通過先
22、進(jìn)的信息加工、分析、處理軟件,加上銀行的經(jīng)營決策、信貸營銷人員的個(gè)人經(jīng)驗(yàn),對每一個(gè)投資方向、每一筆貸款作出科學(xué)的判斷,可以有效控制投資、信貸風(fēng)險(xiǎn)。,上一頁 下一頁,3、稅務(wù),通過應(yīng)用數(shù)據(jù)倉庫技術(shù),對稅收部門的內(nèi)部和外部數(shù)據(jù)進(jìn)行綜合分析處理,可以解決三個(gè)方面的問題:一是查出應(yīng)稅未報(bào)者和瞞稅漏稅者,并對其進(jìn)行跟蹤;二是對不同行業(yè)、產(chǎn)品和市場中納稅人的行為特性進(jìn)行描述,找出普遍規(guī)律,謀求因勢利導(dǎo)的稅務(wù)策略;三是對不同行業(yè)、產(chǎn)品和市場應(yīng)收稅款
23、進(jìn)行預(yù)測,制定最有效的征收計(jì)劃。 數(shù)據(jù)倉庫技術(shù)之所以能夠查出漏稅者,其基本思想是通過對大量數(shù)據(jù)資料的分析來掌握各行各業(yè)、各種產(chǎn)品和各類市場的從業(yè)人員以及企業(yè)的納稅能力,并與其實(shí)際納稅金額進(jìn)行對比,從而查出可能的偷漏稅者。澳大利亞政府稅務(wù)部門將數(shù)據(jù)倉庫技術(shù)用于支持稅收業(yè)務(wù),系統(tǒng)經(jīng)過3年的運(yùn)行,投入回報(bào)率達(dá)到1∶15。 4、保險(xiǎn) 隨著商業(yè)保險(xiǎn)公司業(yè)務(wù)系統(tǒng)日趨完善,數(shù)據(jù)交換和處理中心的建立,如何滿足保險(xiǎn)行業(yè)日益增長的
24、各種查詢、統(tǒng)計(jì)、報(bào)表以及分析的需求,如何提高防范和化解經(jīng)營風(fēng)險(xiǎn)的能力,如何有效利用這些數(shù)據(jù)來實(shí)現(xiàn)經(jīng)營目標(biāo),預(yù)測保險(xiǎn)業(yè)的發(fā)展趨勢,甚至如何利用這些數(shù)據(jù)來設(shè)計(jì)保險(xiǎn)企業(yè)的發(fā)展宏圖以在激烈的競爭中贏得先機(jī),是保險(xiǎn)決策支持系統(tǒng)需要解決的問題,也是目前保險(xiǎn)企業(yè)在信息應(yīng)用案例上的首要難題。,上一頁 返 回,二、數(shù)據(jù)挖掘技術(shù),(一)數(shù)據(jù)挖掘技術(shù)的定義及其含義 1、數(shù)據(jù)挖掘(Data Mining) 就是從大量的、不完全的、有噪聲的
25、、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過程。與數(shù)據(jù)挖掘相近的同義詞有數(shù)據(jù)融合、數(shù)據(jù)分析和決策支持等。 2、數(shù)據(jù)挖掘的內(nèi)容 數(shù)據(jù)挖掘定義包括好幾層含義:數(shù)據(jù)源必須是真實(shí)的、大量的、含噪聲的;發(fā)現(xiàn)的是用戶感興趣的知識(shí);發(fā)現(xiàn)的知識(shí)要可接受、可理解、可運(yùn)用;并不要求發(fā)現(xiàn)放之四海皆準(zhǔn)的知識(shí),僅支持特定的發(fā)現(xiàn)問題。 從廣義上理解,數(shù)據(jù)、信息也是知識(shí)的表現(xiàn)形式,但是人們
26、更把概念、規(guī)則、模式、規(guī)律和約束等看作知識(shí)。數(shù)據(jù)看作是形成知識(shí)的源泉,好像從礦石中采礦或淘金一樣。原始數(shù)據(jù)可以是結(jié)構(gòu)化的,如關(guān)系數(shù)據(jù)庫中的數(shù)據(jù);也可以是半結(jié)構(gòu)化的,如文本、圖形和圖像數(shù)據(jù);甚至是分布在網(wǎng)絡(luò)上的異構(gòu)型數(shù)據(jù)。 發(fā)現(xiàn)知識(shí)的方法可以是數(shù)學(xué)的,也可以是非數(shù)學(xué)的;可以是演繹的,也可以是歸納的。因此,數(shù)據(jù)挖掘是一門交叉學(xué)科,它把人們對數(shù)據(jù)的應(yīng)用從低層次的簡單查詢,提升到從數(shù)據(jù)中挖掘知識(shí),提供決策支持。,返 回 下一頁,3、
27、數(shù)據(jù)挖掘從本質(zhì)上看是一種新的信息處理技術(shù),數(shù)據(jù)挖掘的主要特點(diǎn)是對數(shù)據(jù)庫中的大量業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其他模型化處理,從中提取輔助決策的關(guān)鍵性數(shù)據(jù),其實(shí)是一類深層次的數(shù)據(jù)分析處理方法。 因此,數(shù)據(jù)挖掘可以描述為:按既定業(yè)務(wù)目標(biāo),對大量的企業(yè)數(shù)據(jù)進(jìn)行探索和分析,揭示隱藏的、未知的或驗(yàn)證已知的規(guī)律性,并進(jìn)一步將其模型化的先進(jìn)有效的方法。(二)數(shù)據(jù)挖掘與傳統(tǒng)分析方法的區(qū)別 數(shù)據(jù)挖掘與傳統(tǒng)的數(shù)據(jù)分析(如查詢、報(bào)表、聯(lián)機(jī)應(yīng)
28、用分析)的本質(zhì)區(qū)別是: 數(shù)據(jù)挖掘是在沒有明確假設(shè)的前提下去挖掘信息、發(fā)現(xiàn)知識(shí)。數(shù)據(jù)挖掘所得到的信息應(yīng)具有先未知,有效和可實(shí)用三個(gè)特征。 先前未知的信息是指該信息是預(yù)先未曾預(yù)料到的,既數(shù)據(jù)挖掘是要發(fā)現(xiàn)那些不能靠直覺發(fā)現(xiàn)的信息或知識(shí),甚至是違背直覺的信息或知識(shí),挖掘出的信息越是出乎意料,就可能越有價(jià)值。 例如:一家連鎖店通過數(shù)據(jù)挖掘發(fā)現(xiàn)了小孩尿布和啤酒之間有著驚人的聯(lián)系。,上一頁 下一頁,(三)數(shù)據(jù)挖掘和數(shù)據(jù)倉庫,
29、大部分情況下,數(shù)據(jù)挖掘都要先把數(shù)據(jù)從數(shù)據(jù)倉庫中拿到數(shù)據(jù)挖掘庫或數(shù)據(jù)集市中 。數(shù)據(jù)挖掘庫可能是數(shù)據(jù)倉庫的一個(gè)邏輯上的子集,而不一定非得是物理上單獨(dú)的數(shù)據(jù)庫。 因此,為了數(shù)據(jù)挖掘不必非得建立一個(gè)數(shù)據(jù)倉庫,數(shù)據(jù)倉庫不是必需的。建立一個(gè)巨大的數(shù)據(jù)倉庫,把各個(gè)不同源的數(shù)據(jù)統(tǒng)一在一起,解決所有的數(shù)據(jù)沖突問題,然后把所有的數(shù)據(jù)導(dǎo)到一個(gè)數(shù)據(jù)倉庫內(nèi),是一項(xiàng)巨大的工程,可能要用幾年的時(shí)間花上百萬的錢才能完成。 所以,如果數(shù)據(jù)倉庫的
30、計(jì)算資源已經(jīng)很緊張,那最好還是建立一個(gè)單獨(dú)的數(shù)據(jù)挖掘庫。如果只是為了數(shù)據(jù)挖掘,可以把一個(gè)或幾個(gè)事務(wù)數(shù)據(jù)庫導(dǎo)入到一個(gè)只讀的數(shù)據(jù)庫中,就把它當(dāng)作數(shù)據(jù)集市,然后在其上面進(jìn)行數(shù)據(jù)挖掘。,上一頁 下一頁,數(shù)據(jù)挖掘庫從數(shù)據(jù)倉庫中得出,,數(shù)據(jù)挖掘庫從事務(wù)數(shù)據(jù)庫中得出,上一頁 下一頁,(四)數(shù)據(jù)挖掘流程,,關(guān)于網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù),目前眾說紛紜,但基本上可以將網(wǎng)絡(luò)數(shù)據(jù)挖掘分為四個(gè)步驟: 1、確定業(yè)務(wù)對象:雖然網(wǎng)絡(luò)數(shù)據(jù)挖掘的最后結(jié)果是不可
31、預(yù)測的,但對要探索的問題應(yīng)有所預(yù)見,不能盲目地為了數(shù)據(jù)挖掘而數(shù)據(jù)挖掘。清晰地定義出業(yè)務(wù)問題,認(rèn)清數(shù)據(jù)挖掘的目的是網(wǎng)絡(luò)數(shù)據(jù)挖掘的重要一步。 2、數(shù)據(jù)準(zhǔn)備:網(wǎng)絡(luò)數(shù)據(jù)挖掘的數(shù)據(jù)來自兩個(gè)方面:一方面是客戶的背景信息,主要來源于客戶登記表;而另外一部分?jǐn)?shù)據(jù)主要來自瀏覽者的點(diǎn)擊流(Click-stream),主要用這部分?jǐn)?shù)據(jù)考察客戶的行為表現(xiàn)。由于客戶的背景信息涉及個(gè)人隱私,因此客戶不愿意把個(gè)人信息如實(shí)填寫在登記表上,這給數(shù)據(jù)分析和挖
32、掘帶來困難。在這種情況下,不得不從瀏覽者的表現(xiàn)數(shù)據(jù)中推測客戶的背景信息,進(jìn)而再加以利用。數(shù)據(jù)準(zhǔn)備首先檢索所需的網(wǎng)絡(luò)文檔,發(fā)現(xiàn)資源;然后進(jìn)行數(shù)據(jù)預(yù)處理,從發(fā)現(xiàn)的網(wǎng)絡(luò)資源中自動(dòng)挑選和預(yù)處理得到專門的信息。 3、網(wǎng)絡(luò)數(shù)據(jù)挖掘:從單個(gè)的Web站點(diǎn)以及多個(gè)站點(diǎn)之間的網(wǎng)絡(luò)資源中發(fā)現(xiàn)普遍的模式。 4、結(jié)果分析 :對挖掘出的結(jié)果,即普遍模式進(jìn)行確認(rèn)或者解釋。,上一頁 下一頁,數(shù)據(jù)挖掘過程,,上一頁 下一頁,(五)數(shù)據(jù)挖掘技
33、術(shù)的功能,數(shù)據(jù)挖掘通過預(yù)測未來趨勢及行為,做出前攝的、基于知識(shí)的決策。數(shù)據(jù)挖掘的目標(biāo)是從數(shù)據(jù)庫中發(fā)現(xiàn)隱含的、有意義的知識(shí),主要有以下五類功能。 1、自動(dòng)預(yù)測趨勢和行為 數(shù)據(jù)挖掘自動(dòng)在大型數(shù)據(jù)庫中尋找預(yù)測性信息,以往需要進(jìn)行大量手工分析的問題如今可以迅速直接由數(shù)據(jù)本身得出結(jié)論。一個(gè)典型的例子是市場預(yù)測問題,數(shù)據(jù)挖掘使用過去有關(guān)促銷的數(shù)據(jù)來尋找未來投資中回報(bào)最大的用戶,其它可預(yù)測的問題包括預(yù)報(bào)破產(chǎn)以及認(rèn)定對指定
34、事件最可能作出反應(yīng)的群體。 2、 關(guān)聯(lián)分析 數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫中存在的一類重要的可被發(fā)現(xiàn)的知識(shí)。若兩個(gè)或多個(gè)變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。關(guān)聯(lián)可分為簡單關(guān)聯(lián)、時(shí)序關(guān)聯(lián)、因果關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng)。有時(shí)并不知道數(shù)據(jù)庫中數(shù)據(jù)的關(guān)聯(lián)函數(shù),即使知道也是不確定的,因此關(guān)聯(lián)分析生成的規(guī)則帶有可信度。,上一頁 下一頁,3、 聚類,數(shù)據(jù)庫中的記錄可被化分為一系列有意義的子集,即聚類。聚類
35、增強(qiáng)了人們對客觀現(xiàn)實(shí)的認(rèn)識(shí),是概念描述和偏差分析的先決條件。聚類技術(shù)主要包括傳統(tǒng)的模式識(shí)別方法和數(shù)學(xué)分類學(xué)。80年代初,Mchalski提出了概念聚類技術(shù)牞其要點(diǎn)是,在劃分對象時(shí)不僅考慮對象之間的距離,還要求劃分出的類具有某種內(nèi)涵描述,從而避免了傳統(tǒng)技術(shù)的某些片面性。 4、概念描述 概念描述就是對某類對象的內(nèi)涵進(jìn)行描述,并概括這類對象的有關(guān)特征。概念描述分為特征性描述和區(qū)別性描述,前者描述某類對象的共同特
36、征,后者描述不同類對象之間的區(qū)別。生成一個(gè)類的特征性描述只涉及該類對象中所有對象的共性。生成區(qū)別性描述的方法很多,如決策樹方法、遺傳算法等。 5、偏差檢測 數(shù)據(jù)庫中的數(shù)據(jù)常有一些異常記錄,從數(shù)據(jù)庫中檢測這些偏差很有意義。偏差包括很多潛在的知識(shí),如分類中的反常實(shí)例、不滿足規(guī)則的特例、觀測結(jié)果與模型預(yù)測值的偏差、量值隨時(shí)間的變化等。偏差檢測的基本方法是,尋找觀測結(jié)果與參照值之間有意義的差別。,上一頁 下一頁,(
37、六)數(shù)據(jù)挖掘技術(shù)的價(jià)值,數(shù)據(jù)挖掘技術(shù)存在廣泛的使用價(jià)值。 1、客戶分析 隨著“以客戶為中心”的經(jīng)營理念的不斷深入人心,分析客戶、了解客戶并引導(dǎo)客戶的需求已成為政府和企業(yè)經(jīng)營的重要課題。通過對積累的交易數(shù)據(jù)進(jìn)行分析,可以按各種客戶指針(如自然屬性、收入貢獻(xiàn)、交易額、價(jià)值度等)對客戶分類,然后確定不同類型客戶的行為模式,以便采取相應(yīng)的行銷措施,促政府獲得人民的支持、企業(yè)盈利。 2、優(yōu)化
38、配置資源 節(jié)約成本是政府和企業(yè)共同關(guān)心的問題。通過分析歷史數(shù)據(jù),可以發(fā)現(xiàn)資源消耗的關(guān)鍵點(diǎn)和主要活動(dòng)的投入產(chǎn)出比例,從而為資源優(yōu)化配置提供決策依據(jù)。。 3、異常事件的確定 在許多領(lǐng)域中,異常事件具有顯著的價(jià)值,如客戶流失、銀行的信用卡欺詐、電信中移動(dòng)話費(fèi)拖欠以及醫(yī)學(xué)中特殊病情的征兆等。通過數(shù)據(jù)挖掘分析,可以迅速準(zhǔn)確地甄別這些異常事件。 4、企業(yè)分析模型的管理 在使用
39、數(shù)據(jù)挖掘系統(tǒng)時(shí),可以對模型進(jìn)行調(diào)優(yōu)和定制。,上一頁 下一頁,(七)數(shù)據(jù)挖掘技術(shù),常用的數(shù)據(jù)挖掘技術(shù)主要有以下幾種: 1、OLAP (聯(lián)機(jī)分析處理) OLAP是最普遍的數(shù)據(jù)挖掘工具與技術(shù)。與數(shù)據(jù)倉庫查詢相比,OLAP以多維方式匯總數(shù)據(jù),使我們可以迅速獲得用于進(jìn)一步分析的重要信息。OLAP能夠?qū)?shù)據(jù)倉庫轉(zhuǎn)化為更有用的信息。OLAP的一大主要特征是對數(shù)據(jù)看法的多維性,這源自對數(shù)據(jù)進(jìn)行多維度分析的商業(yè)需求。例如
40、,根據(jù)產(chǎn)品,區(qū)域,渠道和時(shí)間軸來分析銷售數(shù)據(jù),OLAP工具能夠利用一個(gè)數(shù)據(jù)倉庫的子集進(jìn)行向下挖掘,分段,切割和提煉數(shù)據(jù)。 OLAP 應(yīng)用軟件會(huì)跨越組織內(nèi)多個(gè)功能單位。銷售部門利用OLAP工具進(jìn)行銷售分析與預(yù)測,財(cái)政部門利用OLAP實(shí)現(xiàn)諸如預(yù)算,財(cái)政績效分析與金融建模等功能。營銷部門利用OLAP進(jìn)行客戶分析,市場調(diào)查分析,銷售預(yù)測和市場/客戶分段。許多制造業(yè)OLAP應(yīng)用軟件還具有包括產(chǎn)品規(guī)劃和缺陷分析等功能。
41、 2、描述性分析 這取決于觀察事件為什么會(huì)發(fā)生,然后找出一個(gè)模式或者相似性并以此得出一種趨勢。描述性分析可以多種方式進(jìn)行。,上一頁 下一頁,3、聚類,這中方法涉及到對記錄中某些重要的特征進(jìn)行識(shí)別,然后將它們歸入一個(gè)個(gè)簇。每個(gè)簇都是一個(gè)子段,子段與子段之間有著不同的關(guān)鍵特性。信用卡公司常常使用這種技術(shù)為他們的產(chǎn)品進(jìn)行潛在客戶定位,依據(jù)是如潛在客戶消費(fèi)值等主要特性。 類似的,還有很多其他的技術(shù),比如順序
42、聯(lián)想分析法(它以時(shí)間的發(fā)生次序?yàn)楸臼录峁┠J剑┗蛘呤墙灰谆@子分析法(這種方法認(rèn)為同一時(shí)間被購買的產(chǎn)品具有相關(guān)性)。 4、預(yù)測模型 透視客戶的行為、需求和渴望,從而建立一個(gè)模式是任何部門之需。運(yùn)用預(yù)測模型,就可以對各種營銷活動(dòng)產(chǎn)生的反響進(jìn)行預(yù)測。 例如,基于對歷史客戶數(shù)據(jù)的復(fù)雜計(jì)算,度量其客戶的信用價(jià)值。 預(yù)測模型能夠確定識(shí)別到的因素中哪些具有高度相關(guān)性,然后度量各要
43、素之間的相關(guān)度。預(yù)測模型得出的成果是一個(gè)分?jǐn)?shù),能夠用來預(yù)測客戶某些行為發(fā)生的可能性大小。 對于預(yù)測模型來說,有許多工具可供選擇,如神經(jīng)網(wǎng)絡(luò)圖和決策樹。,上一頁 下一頁,5、遺傳算法,基于進(jìn)化理論,并采用遺傳結(jié)合、遺傳變異、以及自然選擇等設(shè)計(jì)方法的優(yōu)化技術(shù)。 6、近鄰算法 將數(shù)據(jù)集合中每一個(gè)記錄進(jìn)行分類的方法。 7、規(guī)則推導(dǎo) 從統(tǒng)計(jì)意義上對數(shù)據(jù)中的“
44、如果,那么”規(guī)則進(jìn)行尋找和推導(dǎo)。 上述的所有工具與技術(shù)都能通過更好地了解客戶的需求,并獲得有用的客戶行為透視,使管理和服務(wù)極大地增值。這些技術(shù)并不完善,但是當(dāng)它們成為一個(gè)大型決策支持流程的一部分時(shí),就能通過提供有用的透視增加決策的價(jià)值。 目前,這些技術(shù)已經(jīng)被直接集成到許多大型的標(biāo)準(zhǔn)的數(shù)據(jù)倉庫和聯(lián)機(jī)分析系統(tǒng)中去了。世界上比較有影響的典型數(shù)據(jù)挖掘系統(tǒng)有: SAS公司的Enterprise
45、Miner;IBM公司的Intelligent Miner;SGI公司的SetMiner;SPSS公司的Clementine;Sybase公司的Warehouse Studio;RuleQuest Research公司的See5;以及CoverStory、EXPLORA、Knowledge Discovery Workbench、DBMiner、Quest等。,上一頁 返 回,三、電子政務(wù)中的數(shù)據(jù)挖掘,(一)電子政務(wù)需要數(shù)據(jù)挖掘
46、 而電子政務(wù)中的數(shù)據(jù)挖掘技術(shù)是基于網(wǎng)絡(luò)的,即所謂的網(wǎng)絡(luò)數(shù)據(jù)挖掘,它除了處理傳統(tǒng)數(shù)據(jù)庫中的數(shù)值型的結(jié)構(gòu)化數(shù)據(jù)外,處理更多的是文本、圖形、圖像、WWW信息資源等半結(jié)構(gòu)、非結(jié)構(gòu)的數(shù)據(jù)。 1、實(shí)時(shí)有效信息的需求 政府部門要充分發(fā)揮政府的職能,進(jìn)行有效地監(jiān)控和管理,同時(shí)為了增強(qiáng)民眾和政府之間溝通的時(shí)效性,及時(shí)掌握有效的信息。 2、降低成本、減少財(cái)政支出的需求
47、 電子政務(wù)系統(tǒng)的建設(shè)帶來的直接的經(jīng)濟(jì)效益,就是打破了各級(jí)政府之間文件傳遞的繁瑣性,用最快捷的電子方式在政府上下級(jí)之間傳遞信息,這不僅降低了政府辦公用品及相關(guān)開銷,而且無形中也減少了大量的額外開支。 3、分析和決策的需求 現(xiàn)有的數(shù)據(jù)庫系統(tǒng)雖然可以高效地實(shí)現(xiàn)數(shù)據(jù)的錄入、查詢和部分統(tǒng)計(jì)等功能,但是無法發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系和規(guī)則,無法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測未來的發(fā)展趨勢。因此,政務(wù)系統(tǒng)迫切需要擁有一個(gè)智能化的
48、輔助決策支持系統(tǒng)。,返 回 下一頁,(二)網(wǎng)絡(luò)數(shù)據(jù)挖掘離不開專業(yè)人員,由于網(wǎng)絡(luò)數(shù)據(jù)挖掘的若干工作需要人工完成,并且數(shù)據(jù)挖掘過程是分步實(shí)現(xiàn)的,因此不同步驟的工作需要具有不同專長的人員,大體可以將他們分為三類: 1、業(yè)務(wù)分析人員 精通業(yè)務(wù),能夠解釋業(yè)務(wù)對象,并根據(jù)各業(yè)務(wù)對象確定出用于數(shù)據(jù)定義和挖掘算法的業(yè)務(wù)需求。 2、數(shù)據(jù)分析人員 精通數(shù)據(jù)分析技術(shù),并較熟練地
49、掌握統(tǒng)計(jì)學(xué)方法,能夠把業(yè)務(wù)需求轉(zhuǎn)化為數(shù)據(jù)挖掘的各步操作,并為每步操作選擇合適的技術(shù)。 3、數(shù)據(jù)管理人員 精通數(shù)據(jù)管理技術(shù),能從數(shù)據(jù)庫、數(shù)據(jù)倉庫和各種網(wǎng)絡(luò)資源中檢索、收集適于挖掘的數(shù)據(jù)。 由此可見,數(shù)據(jù)挖掘是一個(gè)多種專家合作的過程,也是一個(gè)在資金上和技術(shù)上高投入,同時(shí)獲得高回報(bào)的過程。,上一頁 下一頁,(三)網(wǎng)絡(luò)數(shù)據(jù)挖掘形式,根據(jù)不同的網(wǎng)絡(luò)數(shù)據(jù)挖掘?qū)ο?,人們將網(wǎng)絡(luò)數(shù)據(jù)挖掘分為網(wǎng)絡(luò)內(nèi)容
50、挖掘(Web content mining)、網(wǎng)絡(luò)結(jié)構(gòu)挖掘(Web structure mining)以及網(wǎng)絡(luò)用法挖掘(Web usage mining)。 1、網(wǎng)絡(luò)內(nèi)容挖掘 網(wǎng)絡(luò)內(nèi)容挖掘就是一個(gè)從網(wǎng)絡(luò)信息內(nèi)容中發(fā)現(xiàn)有用信息的過程。由于網(wǎng)絡(luò)信息內(nèi)容有很多是多媒體數(shù)據(jù),因此網(wǎng)絡(luò)內(nèi)容挖掘也將是一種多媒體數(shù)據(jù)挖掘形式。 2、網(wǎng)絡(luò)結(jié)構(gòu)挖掘 網(wǎng)絡(luò)結(jié)構(gòu)挖掘就是挖掘Web潛在的鏈
51、接結(jié)構(gòu)模式。這種模式可以用于網(wǎng)頁歸類,并且由此可以獲得有關(guān)不同網(wǎng)頁間相似度及關(guān)聯(lián)度的信息。網(wǎng)絡(luò)結(jié)構(gòu)挖掘有助于用戶找到相關(guān)主題的權(quán)威站點(diǎn)。 3、網(wǎng)絡(luò)用法挖掘 網(wǎng)絡(luò)內(nèi)容挖掘和網(wǎng)絡(luò)結(jié)構(gòu)挖掘的挖掘?qū)ο笫蔷W(wǎng)上的原始數(shù)據(jù),而網(wǎng)絡(luò)用法挖掘面對的則是在用戶和網(wǎng)絡(luò)交互的過程中抽取出來的第二手?jǐn)?shù)據(jù),包括網(wǎng)絡(luò)服務(wù)器訪問記錄、代理服務(wù)器日志記錄、瀏覽器日志記錄、用戶簡介、注冊信息、用戶對話或交易信息、用戶提問方式等。通過網(wǎng)絡(luò)用法
52、挖掘,可以了解用戶的網(wǎng)絡(luò)行為數(shù)據(jù)所具有的意義。,上一頁 下一頁,(四)在電子政務(wù)中應(yīng)用網(wǎng)絡(luò)數(shù)據(jù)挖掘,電子政務(wù)位于世界各國積極倡導(dǎo)的“信息高速公路”五個(gè)領(lǐng)域(電子政務(wù)、電子商務(wù)、遠(yuǎn)程教育、遠(yuǎn)程醫(yī)療、電子娛樂)之首,說明政府信息化是社會(huì)信息化的基礎(chǔ)。電子政務(wù)包括政府的信息服務(wù)、電子貿(mào)易、電子化政府、政府部門重構(gòu)、群眾參與政府五個(gè)方面的內(nèi)容。將網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)引入電子政務(wù)中,可以大大提高政府信息化水平,促進(jìn)整個(gè)社會(huì)的信息化。具體體現(xiàn)在以下幾
53、個(gè)方面: 1、 政府的電子貿(mào)易 在服務(wù)器以及瀏覽器端日志記錄的數(shù)據(jù)中隱藏著模式信息,運(yùn)用網(wǎng)絡(luò)用法挖掘技術(shù)可以自動(dòng)發(fā)現(xiàn)系統(tǒng)的訪問模式和用戶的行為模式,從而進(jìn)行預(yù)測分析。例如,通過評(píng)價(jià)用戶對某一信息資源瀏覽所花費(fèi)的時(shí)間,可以判斷出用戶對何種資源感興趣;應(yīng)用聚類分析來識(shí)別用戶的訪問動(dòng)機(jī)和趨勢等。這項(xiàng)技術(shù)已經(jīng)有效地運(yùn)用在政府電子貿(mào)易中。 2、網(wǎng)站設(shè)計(jì) 通過對網(wǎng)站內(nèi)容的挖掘,主要是對文本內(nèi)容的挖掘,可以有效地
54、組織網(wǎng)站信息,如采用自動(dòng)歸類技術(shù)實(shí)現(xiàn)網(wǎng)站信息的層次性組織;同時(shí)可以結(jié)合對用戶訪問日志記錄信息的挖掘,把握用戶的興趣,從而有助于開展網(wǎng)站信息推送服務(wù)以及個(gè)人信息的定制服務(wù),吸引更多的用戶。,上一頁 下一頁,3、搜索引擎,網(wǎng)絡(luò)數(shù)據(jù)挖掘是目前網(wǎng)絡(luò)信息檢索發(fā)展的一個(gè)關(guān)鍵。如通過對網(wǎng)頁內(nèi)容挖掘,可以實(shí)現(xiàn)對網(wǎng)頁的聚類、分類,實(shí)現(xiàn)網(wǎng)絡(luò)信息的分類瀏覽與檢索;通過對用戶所使用的提問式的歷史記錄的分析,可以有效地進(jìn)行提問擴(kuò)展,提高用戶的檢索效果;另外,運(yùn)
55、用網(wǎng)絡(luò)內(nèi)容挖掘技術(shù)改進(jìn)關(guān)鍵詞加權(quán)算法,提高網(wǎng)絡(luò)信息的標(biāo)引準(zhǔn)確度,從而改善檢索效果。 4、決策支持 為政府重大政策出臺(tái)提供決策支持。如,通過對網(wǎng)絡(luò)各種經(jīng)濟(jì)資源的挖掘,確定未來經(jīng)濟(jì)的走勢,從而制定出相應(yīng)的宏觀經(jīng)濟(jì)調(diào)控政策。 從世界范圍來看,電子政務(wù)并未真正得以實(shí)現(xiàn)。英國雖然在這一方面全球領(lǐng)先,但也僅有60%的政府機(jī)構(gòu)的互連網(wǎng)服務(wù)網(wǎng)站已開通或正在建設(shè)。隨著電子政務(wù)和網(wǎng)絡(luò)用戶對高品質(zhì)、個(gè)性化的信息需求的不斷擴(kuò)大
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 《電子政務(wù)》-第06章_電子政務(wù)實(shí)現(xiàn)的技術(shù)支持
- 電子政務(wù)第4章
- ODS數(shù)據(jù)挖掘技術(shù)在電子政務(wù)中的研究與應(yīng)用.pdf
- 數(shù)據(jù)挖掘在電子政務(wù)辦公系統(tǒng)中的應(yīng)用.pdf
- 面向電子政務(wù)的多維數(shù)據(jù)挖掘研究.pdf
- 電子政務(wù)數(shù)據(jù)倉庫和數(shù)據(jù)挖掘應(yīng)用研究
- J2EE技術(shù)與數(shù)據(jù)挖掘在電子政務(wù)系統(tǒng)中的應(yīng)用.pdf
- 面向網(wǎng)絡(luò)的數(shù)據(jù)挖掘在電子政務(wù)中的應(yīng)用研究.pdf
- 數(shù)據(jù)備份恢復(fù)技術(shù)在電子政務(wù)系統(tǒng)中的應(yīng)用.pdf
- 電子政務(wù)技術(shù)路線
- 電子政務(wù)中安全技術(shù)的研究.pdf
- 第07章—電子政務(wù)公共服務(wù)體系20110901
- pki技術(shù)在電子政務(wù)中的應(yīng)用
- 電子政務(wù)畢業(yè)論文--論電子政務(wù)中的信息安全
- 電子政務(wù)中異構(gòu)數(shù)據(jù)資源集成技術(shù)的應(yīng)用研究.pdf
- 電子政務(wù)中異構(gòu)數(shù)據(jù)源集成技術(shù)研究.pdf
- 基于XML技術(shù)的電子政務(wù)數(shù)據(jù)安全設(shè)計(jì).pdf
- 淺析電子政務(wù)技術(shù)在高校中的應(yīng)用
- 02章—電子政務(wù)與政府創(chuàng)新
- 基于XML的文本挖掘技術(shù)研究與在電子政務(wù)中的應(yīng)用.pdf
評(píng)論
0/150
提交評(píng)論