數(shù)據(jù)挖掘技術(shù)在檔案信息管理中的應(yīng)用研究.pdf_第1頁
已閱讀1頁,還剩60頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、數(shù)據(jù)挖掘是指從大量數(shù)據(jù)中通過算法搜索隱藏于其中知識的過程,作為一種知識發(fā)現(xiàn)技術(shù)它已經(jīng)在很多數(shù)據(jù)密集型行業(yè)得到廣泛應(yīng)用。檔案是指人們在各項社會活動中直接形成的各種形式的具有保存價值的原始記錄,在我國檔案界多年的計算機管理中形成了大量的電子數(shù)據(jù),但這些數(shù)據(jù)的利用還比較初級,只是基于數(shù)據(jù)庫層面的查詢、統(tǒng)計、分析等。
  針對這種局面,本文嘗試將數(shù)據(jù)倉庫和數(shù)據(jù)挖掘技術(shù)應(yīng)用于檔案信息管理工作,通過分析檔案利用數(shù)據(jù)庫和檔案歸檔數(shù)據(jù)庫,揭示檔案

2、與利用者之間、檔案與各歸檔單位之間以及檔案之間的關(guān)系,從而在更深層次上發(fā)揮檔案數(shù)據(jù)在新時代的信息價值。
  文章主要從檔案數(shù)據(jù)倉庫設(shè)計、數(shù)據(jù)ETL、多維數(shù)據(jù)模型的建立、數(shù)據(jù)挖掘算法選擇、數(shù)據(jù)挖掘模型應(yīng)用等方面論述了將數(shù)據(jù)挖掘技術(shù)與檔案工作相結(jié)合的具體實踐,實現(xiàn)了檔案數(shù)據(jù)挖掘的基本過程。首先對構(gòu)建數(shù)據(jù)倉庫進行詳細的需求分析,確定主題和用戶,根據(jù)已有的檔案業(yè)務(wù)數(shù)據(jù)庫確定數(shù)據(jù)倉庫的維度表和事實表,并最終采用星型模式創(chuàng)建檔案數(shù)據(jù)倉庫;然后

3、通過數(shù)據(jù)ETL將檔案原始數(shù)據(jù)源經(jīng)過抽取、轉(zhuǎn)換,加載進入數(shù)據(jù)倉庫,這個過程主要是對檔案數(shù)據(jù)進行預(yù)處理和清理工作;接著再利用OLAP工具對檔案多維數(shù)據(jù)集進行多角度和多視圖的查詢,以更好的理解檔案數(shù)據(jù);最后在檔案數(shù)據(jù)倉庫的基礎(chǔ)上,根據(jù)數(shù)據(jù)挖掘的需求分析,利用SQL Server Analysis Services工具并選取合適的數(shù)據(jù)挖掘算法對檔案數(shù)據(jù)進行分析處理,并對結(jié)果進行分析。
  全文的核心為研究數(shù)據(jù)挖掘技術(shù)在檔案信息管理中的應(yīng)用

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論