面向大規(guī)模日志文件的數(shù)據(jù)處理方法研究及應用.pdf_第1頁
已閱讀1頁,還剩69頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、時至今日,大數(shù)據(jù)時代到來的風暴革新了我們的生活、工作和思維,滲透在各個工業(yè)、商業(yè)和科研領域當中。在科學研究(天文學、生物學、高能物理等)、互聯(lián)網(wǎng)、電子商務、計算機仿真等應用中數(shù)據(jù)呈現(xiàn)快速增長的趨勢,特別是在科學研究中每年新數(shù)據(jù)的增量為15PB左右;大數(shù)據(jù)時代帶來兩大趨勢:數(shù)據(jù)不斷膨脹和數(shù)據(jù)深度分析。因此近年來對數(shù)據(jù)的分析和挖掘已經(jīng)成為計算機研究領域中一個炙手可熱的話題。大數(shù)據(jù)諸如突出的各種特性,已經(jīng)使得傳統(tǒng)的數(shù)據(jù)ETL、數(shù)據(jù)挖掘的方式都

2、不再適用。面對密集型、復雜混合型的數(shù)據(jù)需要有更高效的監(jiān)控方案。數(shù)據(jù)ETL主要是將分散的、異構源中的數(shù)據(jù)如關系型數(shù)據(jù)、稠密性數(shù)據(jù)進行提取、清洗和加載,最后成為聯(lián)機分析處理、數(shù)據(jù)挖掘的的基礎。
  目前對海量日志處理的方案和開源軟件相繼出現(xiàn),基于Hadoop的應用已經(jīng)遍地開花,尤其是在互聯(lián)網(wǎng)領域。分布式文件系統(tǒng)HDFS和并行計算模型MapReduce作為Hadoop的核心組件,從存儲模型和計算模型都具有更高的容錯性、更強的擴展性,為海

3、量日志的處理提供了很好的運行平臺保障。在數(shù)據(jù)存儲中采用諸如HBase的非關系型數(shù)據(jù)庫,以此為基礎深入研究適應大規(guī)模網(wǎng)絡日志文件的數(shù)據(jù)處理技術,主要圍繞數(shù)據(jù)監(jiān)控、數(shù)據(jù)清洗、數(shù)據(jù)抽取、數(shù)據(jù)裝載、挖掘應用開展研究論述。僅僅對海量日志進行預處理是不足以完全達到海量數(shù)據(jù)處理的能力,還需要結合相關的數(shù)據(jù)挖掘算法研究,基于上述原因,本文將Hadoop平臺技術運用到數(shù)據(jù)挖掘中,對于能夠實現(xiàn)并行化的算法,結合了MapReduce并行計算模型,將其移植到H

4、adoop平臺上,提高了海量數(shù)據(jù)處理的性能。
  本文的研究重點總結如下:
  一、Hadoop生態(tài)系統(tǒng)中的開源子項目-Zookeeper,本文在研究中利用其分布式協(xié)調服務、分布式鎖機制和實時反饋等相關技術,提出了實時計算框架-通用數(shù)據(jù)采集模型。該數(shù)據(jù)模型采用三層設計架構,作為單點可靠服務,在不影響單機主體正常服務的情況下,提供“無感知”的服務部署,為日志的實時采集提供了高效的策略。
  二、依托Hadoop平臺的數(shù)據(jù)

5、組織、讀寫原理,針對海量數(shù)據(jù)的特點,設計并實現(xiàn)了基于Chukwa的大規(guī)模日志智能監(jiān)測方法。極大的彌補了MapReduce只能處理大文件數(shù)據(jù)的缺陷,也進一步提高了日志處理的靈活性和擴展性。
  三、研究MapReduce并行計算模型,提出一種基于M-R計算模型的遺傳聚類并行算法(Clustering Genetic parallel Algorithm based on M-R model, M-R CGPA)。通過使用遺傳算法來彌

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論