電子政務物聯(lián)網信息處理技術_第1頁
已閱讀1頁,還剩32頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、<p>  電子政務物聯(lián)網信息處理技術</p><p><b>  摘要:</b></p><p>  物聯(lián)網應用在國內外已廣泛興起。近年來,美國、歐盟、日韓和我國政府先后在多個領域啟動大量物聯(lián)網應用工程。本文在對國內外電子政務物聯(lián)網應用信息特點分析的基礎上,從不確定信息處理、海量信息處理和數(shù)據(jù)融合三個方面介紹了電子政務物聯(lián)網信息處理技術的國內外發(fā)展現(xiàn)狀和研

2、究成果,并展望了未來發(fā)展趨勢。</p><p><b>  關鍵詞:</b></p><p>  電子政務物聯(lián)網、不確定信息處理、海量信息處理、數(shù)據(jù)融合</p><p>  Abstract: the E-government Internet of things (IOT) has been widely arised in the wor

3、ld. In recent years, the United States of America, European Union, Japan ,South Korea and Chinese governments have started a lot of IOT application engineerings in many areas. Based on the analysis of the characteristics

4、 of the information in E-government IOT,this paper first introduces E-government IOT information processing technology development status and research results at home and abroad from three as</p><p>  Key

5、words: E-government IOT, uncertain information processing, massive information processing, data fusion</p><p><b>  1引言</b></p><p>  電子政務物聯(lián)網,主要指政府部門主導建設的服務于政府管理、社會民生、經濟發(fā)展的物聯(lián)網。</p&g

6、t;<p>  1.1 國內外電子政務物聯(lián)網應用現(xiàn)狀</p><p>  國內外電子政務物聯(lián)網應用正如火如荼開展。</p><p>  2009年,美國總統(tǒng)奧巴馬簽署生效《2009年美國恢復和再投資法案》(即美國的經濟刺激計劃),在智能電網和衛(wèi)生醫(yī)療信息技術應用領域投資300億美元,大力推進物聯(lián)網在這些領域的應用。</p><p>  歐盟許多國家在電

7、力、交通以及物流領域已經形成了一定規(guī)模的物聯(lián)網應用,進行安全監(jiān)測、能源管理、公共交通管理等等。例如,德國電信公司推出了面向全球的M2M市場平臺,該平臺提供了9個業(yè)務分類,包括能源、醫(yī)療、交通物流、汽車、消費電子、零售、工業(yè)自動化、公共事業(yè)和安全等;英國通過普及智能儀表,為英國家庭提供個性化的能源效率咨詢服務;丹麥自2010年7月起推出個人數(shù)字簽名一體化系統(tǒng)NemID,用戶憑借NemID便可登陸網上銀行、稅局系統(tǒng)及公私機構的網站,登錄后可

8、進行個人稅務年報查詢、信息更新、補交稅款、簽證申請、發(fā)送探親訪友邀請、醫(yī)療咨詢等操作。NemID不僅提高了社會管理效率,也進一步節(jié)省了人力和物力資源;瑞典國家運輸部將RFID技術運用到北環(huán)線(Norra Länken)隧道內的空氣質量監(jiān)控,還可以對人員進行追蹤。</p><p>  2009年7月,日本IT戰(zhàn)略本部頒布了日本新一代的信息化戰(zhàn)略——“i-Japan”戰(zhàn)略,首先將政策目標聚焦在三大公共事業(yè):

9、電子化政府治理、醫(yī)療健康信息服務、教育與人才培育,達到“新的行政改革”,使行政流程簡化、效率化、標準化、透明化,同時推動電子病歷、遠程醫(yī)療、遠程教育等應用的發(fā)展。物聯(lián)網在日本已滲透到人們的衣食住行中。</p><p>  2004年,韓國信息通信部提出“U-Korea”戰(zhàn)略?!癠-Korea”戰(zhàn)略是一種以無線傳感網絡為基礎,把韓國的所有資源數(shù)字化、網絡化、可視化、智能化,以此促進韓國經濟發(fā)展和社會變革的國家戰(zhàn)略。

10、2009年,韓國通過了U-City綜合計劃,在道路、橋梁、學校、醫(yī)院等城市基礎設施之中搭建融合信息通信技術的泛在網平臺,實現(xiàn)可隨時隨地提供交通、環(huán)境、福利等各種泛在網服務的城市。</p><p>  2009年,溫家寶總理提出“感知中國”的戰(zhàn)略構想,隨后,我國政府通過一系列政策、規(guī)劃和專項重點推動物聯(lián)網在交通、公共安全、農業(yè)、林業(yè)、環(huán)保、家居、醫(yī)療、工業(yè)生產、電力、物流等領域的應用。例如,在交通領域,開展了“基于

11、物聯(lián)網的城市智能交通應用示范”和“長三角航道網及京杭運河水系智能航運信息服務物聯(lián)網應用示范”工程。“基于物聯(lián)網的城市智能交通應用”著重構建城市智能交通要素身份認證、信息精準獲取、交通綜合信息處理三大體系,在城市智能交通領域和橋隧監(jiān)控服務領域研發(fā)和改造相關感知設備,實現(xiàn)交通物理單元的全面感知和主動管理?!伴L三角航道網及京杭運河水系智能航運信息服務物聯(lián)網應用”推進長三角航道網內河航運管理及信息服務的協(xié)同化和規(guī)范化,加速我國航運物流一體化進程

12、,提高航運物流的安全和效率。在公共安全領域,開展城市社會公共安全物聯(lián)網應用示范,主要應用包括四個方面——智能安防、智能消防和智能交通。其中智能安防是以智能化的監(jiān)控系統(tǒng)為核心,實現(xiàn)重點區(qū)域的全天候監(jiān)控,對于危險物品的管控等。智能消防主要內容包括火災、預警感知,火災遠程監(jiān)控,消防員生命特征的監(jiān)控。智能交通是車輛行蹤動態(tài)感知,對車輛進行管控。在環(huán)保</p><p>  1.2電子政務物聯(lián)網信息特點</p>

13、<p>  縱觀各類電子政務物聯(lián)網,其采集、處理和利用信息,具有如下幾個重要特點:</p><p>  (1)多態(tài)性與異構性</p><p>  電子政務物聯(lián)網應用中涉及各種各樣的傳感器,所采集的數(shù)據(jù)格式各不相同,有文本數(shù)據(jù),也有圖像、音頻、視頻等多媒體數(shù)據(jù)。既有靜態(tài)數(shù)據(jù),也有動態(tài)數(shù)據(jù)。信息多態(tài)性和異構性程度隨著應用場景復雜度的增加而加大。</p><p&g

14、t;<b> ?。?)不確定性</b></p><p>  信息的不確定性主要表現(xiàn)在 [3]:</p><p> ?、俨灰恢滦?。由于時空映射失真造成的信息時空關系不一致;</p><p> ?、诓粶蚀_性。由于傳感器采樣和量化方式不同造成的信息精度差異;由于安全和隱私保護需要,對信息進行變換加工,導致的信息不準確;</p><

15、p> ?、鄄贿B續(xù)性。由于網絡傳輸不穩(wěn)定造成的信息斷續(xù);</p><p> ?、懿蝗嫘浴S捎趥鞲衅鞲兄虻木窒扌詫е芦@取的信息不全面。</p><p> ?、莶煌暾浴S捎诰W絡和環(huán)境的動態(tài)變化造成的信息缺失。</p><p><b> ?。?)時效性</b></p><p>  在狀態(tài)監(jiān)測、事件檢測等應用中,被感知

16、的事物的狀態(tài)可能是瞬息萬變的,只有新數(shù)據(jù)才能反映系統(tǒng)所感知的事物的現(xiàn)有狀態(tài)。</p><p><b>  (4)海量性</b></p><p>  主要由于兩個方面原因引起:</p><p> ?、僭谝恍弥校婕皵?shù)量龐大的感知設備,這些設備產生了海量的數(shù)據(jù)集合。</p><p> ?、谠谝恍┫到y(tǒng)中,例如視頻監(jiān)控,

17、數(shù)據(jù)以流的形式實時、高速、源源不斷地產生,隨著時間的推移,積累了龐大的數(shù)據(jù)量。</p><p>  物聯(lián)網系統(tǒng)通常包含著海量的傳感器結點。其中,大部分傳感器(如溫度傳感器、GPS傳感器、壓力傳感器等)的采樣數(shù)據(jù)是數(shù)值型的,但也有許多傳感器的采樣值是多媒體數(shù)據(jù)(如交通攝像頭視頻數(shù)據(jù)、音頻傳感器采樣數(shù)據(jù)、遙感成像數(shù)據(jù)等)。每一個傳感器均頻繁地產生新的采樣數(shù)據(jù),系統(tǒng)不僅需要存儲這些采樣數(shù)據(jù)的最新版本,而且在多數(shù)情況下,

18、還需要存儲某個時間段(如1個月)內所有的歷史采樣值,以滿足溯源處理和復雜數(shù)據(jù)分析的需要[18]。 </p><p> ?。?)時空相關性[18]</p><p>  物聯(lián)網中的傳感器結點普遍存在著空間和時間屬性———每個傳感器結點都有地理位置,每個數(shù)據(jù)采樣值都有時間屬性,而且許多傳感器結點的地理位置隨著時間的變化而連續(xù)移動。如智能交通系統(tǒng)中,每個車輛安裝了高精度的GPS或RFID標簽,在交

19、通網絡中動態(tài)地移動。與物聯(lián)網數(shù)據(jù)的時空相關性相對應,物聯(lián)網應用中對傳感器數(shù)據(jù)的查詢也并不僅僅局限于關鍵字查詢,很多時候,我們需要基于復雜的邏輯約束條件進行查詢,如查詢某個指定地理區(qū)域中所有地質類傳感器在規(guī)定時間段內所采集的數(shù)據(jù),并對它們進行統(tǒng)計分析[18]。</p><p>  (6)序列性與動態(tài)流式性[18]</p><p>  在電子政務物聯(lián)網系統(tǒng)中,要查詢某個監(jiān)控對象在某一時刻的物理

20、狀態(tài)往往不能簡單地通過對時間點的關鍵字匹配來完成的,這是因為采樣過程是間斷進行的,查詢時間與某個采樣時間正好匹配的概率極低。采樣數(shù)據(jù)序列反映了監(jiān)控對象的狀態(tài)隨時間變化的完整過程,因此包含比單個采樣值豐富得多的信息。此外,采樣數(shù)據(jù)序列表現(xiàn)出明顯的動態(tài)流式特性—隨著新采樣值的不斷到來和過時采樣值的不斷淘汰,采樣數(shù)據(jù)序列是不斷動態(tài)變化的[18]。</p><p>  1.3本文內容與安排</p><

21、p>  電子政務物聯(lián)網的信息特點,決定了其信息處理的技術要求和技術方法。</p><p>  目前,電子政務物聯(lián)網信息處理技術研究,可歸納為三大方向:不確定數(shù)據(jù)處理、海量信息處理和感知信息融合。</p><p>  本文圍繞上述三大方向,首先介紹國際研究現(xiàn)狀,然后介紹國內研究進展,最后對該領域的發(fā)展趨勢進行了展望。</p><p><b>  2國際

22、研究現(xiàn)狀</b></p><p>  2.1不確定數(shù)據(jù)處理</p><p>  電子政務物聯(lián)網信息具有典型的不確定性。</p><p>  不確定性數(shù)據(jù)由于其特點,在各種應用情景下,傳統(tǒng)的確定性數(shù)據(jù)處理技術已不能有效適用。不確定信息處理技術主要包括不確定數(shù)據(jù)模型定義、存儲與索引,以及查詢分析和挖掘等[3]。近年來,概率統(tǒng)計的方法被逐步應用于不確定性數(shù)據(jù)的

23、處理中。目前國際上的研究熱點主要集中在不確定數(shù)據(jù)模型、不確定數(shù)據(jù)查詢和不確定數(shù)據(jù)挖掘。</p><p>  (1) 不確定數(shù)據(jù)模型[3] [15]</p><p>  “可能世界模型”是最典型的和最常用的不確定數(shù)據(jù)模型建模思想[3] [15][66-67]??赡苁澜缈臻g由一系列可能世界實例組成,可能世界實例對應一個確定性數(shù)據(jù)庫,其中,那些非確定性屬性是滿足約束條件的確定值[16]。目前研究

24、的主流不確定性數(shù)據(jù)庫為概率數(shù)據(jù)庫,它建立在可能世界模型的基礎上,可能世界語義是不確定性查詢處理技術的出發(fā)點和基礎。</p><p>  不確定性數(shù)據(jù)的種類較多,例如關系型數(shù)據(jù)、半結構化數(shù)據(jù)、流數(shù)據(jù)、移動對象數(shù)據(jù)等,盡管存在許多與數(shù)據(jù)類型緊密相關的數(shù)據(jù)模型,但是這些模型最終都可以轉化為“可能世界模型”[3]。</p><p>  在大多數(shù)應用中,不確定性可細分為存在級不確定性(Existen

25、tial Uncertainty)和屬性級不確定性(Attribute Level Uncertainty)。存在級不確定性描述元組的存在與否,較為通用。屬性級不確定性并不涉及整個元組的不確定性,而是以概率密度函數(shù)或統(tǒng)計參數(shù)(例如方差等)來描述特定屬性的不確定性。作為不確定性數(shù)據(jù)庫建模的最核心思想,可能世界模型被廣泛采納于各種應用之中,并衍生出多種應用相關的模型,特別是針對關系型數(shù)據(jù)、半結構化數(shù)據(jù)、流數(shù)據(jù)和多維數(shù)據(jù)的模型[3]。<

26、/p><p>  最為常見的是針對關系模型的擴展,包括Probabilistic-table、Probabilistic or-set table、Probabilistic or-set- table、Probabilistic c-table等[3] [68-70] 。Probabilistic -table以一個獨立的概率字段表示元組的概率,且各元組之間獨立。一個特定的數(shù)據(jù)庫實例(也即可能世界實例)的概率等于其

27、所包含的元組的概率乘積和其所不包含的元組的不發(fā)生概率的乘積。而Probabilistic or-set table則傾向于描述屬性級不確定性。在Probabilistic or-set table中,元組的屬性值被描述為多個候選值之間的“或”關系,可視為離散概率密度函數(shù)。也有的研究人員將probabilistic or-set- table命名為x-relation,它包含若干x-tuple(無存在級不確定性)或者maybe x-tu

28、ple(有存在級不確定性)[3] [68-70] 。</p><p>  半結構化數(shù)據(jù)模型(semistructed data model)能有效描述缺乏嚴格模式結構的數(shù)據(jù)[3] [71]。半結構化數(shù)據(jù)通??梢杂梦臋n樹來描述。文獻[72]提出了一種管理概率半結構化數(shù)據(jù)(probabilistic semistructed data)的方法,該方法以關系數(shù)據(jù)庫技術為基礎,支持豐富的代數(shù)查詢。目前,以文檔樹形式描述不

29、確定性半結構化數(shù)據(jù),例如p-文檔模型(p-document model)[72]、概率樹模型(Probabilistic Tree Model)[73-74]、PXDB模型[75]等獲得廣泛關注[3]。p-文檔模型[72]將概率值附加于文檔樹的邊上,各節(jié)點的概率依賴于其祖先的概率,節(jié)點之間可以是互斥關系(mux)或相互獨立(ind)。概率樹模型是一個事件驅動的模型[3] [73-74]。它并不在各節(jié)點/邊上附加概率值來描述不確定性,而是

30、在各節(jié)點附加一系列事件變量,由外部事件的發(fā)生與否決定節(jié)點的存在性。PXDB模型[74]擴展了p-文檔模型,增加外部約束條件。其他模型還包括PXML模型[77-78]、概率樹模型[79] 、PrXML模型[80]等[3]</p><p>  在數(shù)據(jù)流模型中,數(shù)據(jù)到達的速度極快、數(shù)據(jù)規(guī)模極大,僅能夠開發(fā)一次掃描算法,使用有限內存在線計算查詢結果。在不確定性數(shù)據(jù)流(Uncertain Data Stream, 或Pro

31、babilistic Data Stream)中,各元組具有不確定性。根據(jù)窗口定義不同,數(shù)據(jù)流模型可細分為界標模型、滑動窗口模型。界標模型的范圍從某固定時間點至當前時間為止,滑動窗口模型僅考慮最新 的W個元組[81] [3]。在各模型中,新元組的到達與舊元組的消逝均引發(fā)可能世界實例的大變遷[3]。</p><p>  在確定性多維數(shù)據(jù)模型中,各個事實(fact)必定屬于某一個立方體中。但對于處理不精確數(shù)據(jù)的應用而

32、言,各事實可能無法被準確地定位到立方體中[3]。文獻[82-83]提出了基于可能世界的多維數(shù)據(jù)模型,以處理這類不確定數(shù)據(jù)。在這種模型中,上述記錄能夠被存儲于不確定性數(shù)據(jù)庫中,可以基于可能世界語義做執(zhí)行OLAP操作(例如切塊、上卷等)[3]。</p><p>  目前研究的主流不確定性數(shù)據(jù)庫為概率數(shù)據(jù)庫[15]。它建立在可能世界模型的基礎上,可能世界實例對應一個確定性數(shù)據(jù)庫。其中,那些非確定性屬性是滿足約束條件的確

33、定值??赡苁澜缯Z義是不確定性查詢處理技術的出發(fā)點和基礎[15]。一個不確定性數(shù)據(jù)庫可以分別或同時含有屬性級和記錄級不確定性;而對于不確定性屬性,其值可以離散或連續(xù);對于以一定概率存在的記錄之間,可以沒有生成規(guī)則也可以有生成規(guī)則,含有生成規(guī)則時,生成規(guī)則可以是互斥、共存或其他規(guī)則 [15] [84]。不確定數(shù)據(jù)庫其組成如圖1。</p><p>  圖1 不確定數(shù)據(jù)庫組成[15]</p><p&g

34、t; ?。?) 不確定數(shù)據(jù)查詢</p><p>  不確定數(shù)據(jù)查詢已成為近年研究熱點。圍繞查詢算法、查詢優(yōu)化等技術國內外取得了大量研究成與確定數(shù)據(jù)查詢相比,不確定數(shù)據(jù)查詢主要有三個特點[4]:</p><p> ?、俨樵冾愋蛷碗s多樣。由于查詢任務種類較多,查詢目標多樣,使得查詢類型更加復雜多樣;</p><p> ?、跀?shù)據(jù)類型多樣。目前不確定查詢面向的數(shù)據(jù)主要是多維

35、數(shù)據(jù)集、半結構化數(shù)據(jù)、流數(shù)據(jù)、空間數(shù)據(jù)、模糊數(shù)據(jù)、世系數(shù)據(jù)和圖數(shù)據(jù)等,各種數(shù)據(jù)類型又可以進一步細分,專門針對各種不確定數(shù)據(jù)類型的查詢技術研究在國內外已廣泛開展;</p><p> ?、鄹怕示S度的特殊性。引入概率維度后,查詢類型需要重新定義,查詢返回結果也具有概率信息,概率特征增加了查詢的復雜性。</p><p>  (3) 目前,國際上不確定數(shù)據(jù)查詢的研究主要集中在不確定Skyline查詢

36、、不確定Top -k 查詢、不確定NN查詢和不確定聚集查詢等方面。研究人員在這些方面開展了大量研究。</p><p> ?。?) 不確定Skyline查詢:主要分為針對不確定數(shù)據(jù)集和不確定數(shù)據(jù)流的Skyline查詢。</p><p> ?。?) 不確定數(shù)據(jù)集Skyline查詢目前主要分為集中式和分布式兩種[4]。</p><p> ?。?) 對集中式不確定數(shù)據(jù)集Sk

37、yline查詢,文獻[86]針對元組級不確定數(shù)據(jù)上的概率Skyline查詢,定義了計算q-Skyline的自底向上和自頂向下算法。自底向上算法用來計算選定的不確定數(shù)據(jù)對象實例的Skyline概率,使用這些實例剪枝其他實例和對象[85] [86][4]。自頂向下算法則遞歸地將不確定數(shù)據(jù)集合分割為子數(shù)據(jù)集,并對子集和對象漸進剪枝。在概率Skyline模型中,不確定數(shù)據(jù)對象以某一概率加入Skyline中,而概率閥值q-Skyline查詢則要求

38、對象參與到Skyline的概率至少為q[4] [5]。然而某些場合設定閥值是不合適的,在此情形下需要計算全部數(shù)據(jù)的Skyline,Atallah M J.等研究了不確定數(shù)據(jù)集的全Skyline查詢,提出了一種有效結合加權支配計算方法和網格劃分算法。為提高剪枝效率,對象參數(shù)空間利用高斯樹索引,并通過限界-剪枝-精華方法計算出結果集合[4] [7]。</p><p>  對分布式不確定數(shù)據(jù)集上概率Skyline查詢問

39、題,Ding等提出了基于元組級不確定數(shù)據(jù)一種4階段迭代處理算法DSUD及其擴張算法e-DSUD,算法首先計算各個節(jié)點局部Skyline集合,然后選取部分元組進行計算并利用一定反饋機制進一步剪枝各個子節(jié)點中不可能成為全局Skyline的元組[4] [8]。</p><p>  某些電子政務物聯(lián)網數(shù)據(jù)流的連續(xù)、無限、實時和只允許單遍掃描等特點,以及復雜的概率特性和計算表示,給不確定數(shù)據(jù)流上Skyline查詢提出了很多

40、挑戰(zhàn)。文獻[88]針對概率數(shù)據(jù)流上的Skyline計算問題,研究了基于滑動窗口模型的建模和查詢定義,并提出SOPDS算法,算法應用概率定界,逐步求精、提前淘汰與選擇補償?shù)葐l(fā)式規(guī)則對算法從時間和空間加以優(yōu)化,取得較好的整體性能[4] [9]。Zhang等基于滑動窗口模型建立了概率Skyline算子,首先基于可能世界語義定義了Skyline概率和概率Skyline,然后定義候選集合,并證明候選集上計算概率Skyline等價于在整個滑動窗口

41、上計算[4] [10]。</p><p>  1) 不確定Top -k 查詢</p><p>  Top –k查詢的目標是返回k個排序函數(shù)值最大的元組。</p><p>  在大規(guī)模的電子政務物聯(lián)網分布式環(huán)境中,Top-K查詢一直有著廣泛的應用[16] [89]。分布式環(huán)境中,不確定性Top-K查詢處理面臨的核心問題是如何在降低計算開銷的同時最小化交互開銷[16]。

42、在傳感器數(shù)據(jù)流上,由于記錄到達的快速性、無序性以及數(shù)量的無限制性,要求查詢處理算法必須具有一遍掃描、時間開銷和空間開銷都比較低等特點[16]。不確定數(shù)據(jù)流上的Top-K查詢,目前主要有基于無限制數(shù)據(jù)流以及基于限定時間維數(shù)據(jù)流的研究[16]。</p><p>  無限制的不確定性數(shù)據(jù)流環(huán)境中,不考慮記錄的消逝。隨著記錄不停到達,所有記錄參與Top-K查詢處理[16]。文獻[93]中討論了如何在無限制的不確定性數(shù)據(jù)流

43、中進行Expected Rank并根據(jù)Expected Rank值獲取前k記錄的ER-TopK查詢。根據(jù)每個記錄各不確定屬性值概率分布特點,文獻[94]定義了記錄之間的支配關系。數(shù)據(jù)流對時間維的限定方式主要有兩種:一種是隨時間衰減的處理方式,一種是滑動窗口的處理方式[16]。文獻[95]中分析了不確定數(shù)據(jù)流上連續(xù)滑動窗口Top-K查詢的特點,定義了滑動窗口W內一定包含Top-K記錄的最小子集——窗口的緊致集C(W).無限制不確定數(shù)據(jù)流上

44、Top-K查詢由于考慮所有記錄,因此更具有時間全局性;而考慮時間限制的不確定數(shù)據(jù)流上的Top-K查詢更具有現(xiàn)時性[16]。</p><p>  文獻[96]研究了概率數(shù)據(jù)庫中Top –k查詢問題,闡述了通過SQL語句查詢概率數(shù)據(jù)庫中概率值最大的Top –k元組,其元組的排序即為排序函數(shù)值。文獻[97]提出了解決查詢的不確定數(shù)據(jù)模型以及U-Topk查詢和U-kRanks查詢的定義,將查詢問題轉化為狀態(tài)空間搜索問題,

45、并提出具有最優(yōu)性保證的查詢算法[4] [13]。針對文獻[13]等給出的概率Top-k查詢定義,文獻[11]采用x-relation不確定模型提出了更高效的U-Topk和U-kRanks多項式查詢算法[14]。</p><p>  2) 不確定NN查詢[4]</p><p>  最近鄰(NN)查詢通常定義為:給定查詢點和查詢對象集合,以及方向和范圍約束集合,檢索距離查詢對象的k個最近的對象

46、[4]。概率最近鄰查詢(PNNQ)的概念在2003年ACM SIGMOD會議上提出[98],PNNQ定義為查詢返回對于某個查詢點q在某一時刻的(Oi,Pi)形式的元組集合,其中pi為對象Oi在該時刻成為查詢q的最近鄰的概率[98]。概率k-NN查詢(k-PNNQ)則要求返回一組列表{(S,p(S))},其中S為數(shù)據(jù)集D的基數(shù)為k的子集,p(S)則為對于集合S中含有至查詢點q的k個最近鄰居的非零概率[14]。</p><

47、;p>  根據(jù)計算過程的側重點不同,不確定NN查詢方法目前分為基于概率計算的方法和基于概率過濾的方法2類?;诟怕视嬎愕姆椒◤娬{通過概率形式特別是概率密度函數(shù)積分等形式的計算獲取對象與查詢點的k近鄰的概率值;基于概率過濾的方法強調利用閾值或容忍值、上下界等各種約束條件來驗證相應的對象是否在查詢的結果中[14]。</p><p>  Ljosa等人[99]將概率NN查詢問題簡化為傳統(tǒng)的NN查詢,提出利用APL

48、A-tree索引結構,并使用不確定性對象數(shù)據(jù)的概率密度函數(shù)期望的距離作為排序標準,但其k-NN查詢基于期望距離,查詢結果中并不包含概率信息。1-PNNQ僅返回對于給定查詢點q最近的單個對象,是PNNQ研究的基礎。文獻[100]提出了基于R-tree索引的查詢方法,根據(jù)移動對象不同的運動軌跡,提出了相應的概率計算方法,其主要思想在于將每個對象的不確定性轉換成即距離查詢點的pdf (概率密度函數(shù))和cdf(累積密度函數(shù)),并通過對此函數(shù)相關

49、的表達式的積分獲得條件概率。由于對概率pdf或cdf等的頻繁積分使得不確定NN查詢的計算代價過高,查詢反應時間過長。針對此問題,文獻[101]提出了一種蒙特卡羅采樣的高效計算PNNQ的方法,該方法中涉及的查詢和數(shù)據(jù)對象均可以是不確定的,方法的實用性較強[4]。</p><p>  為了改進1-PNNQ中概率計算所涉及的密集型積分計算開銷,文獻[102]提出了約束概率最近鄰查詢(C-PNNQ)的概念。C-PNNQ利

50、用基于R樹的方法過濾不可能成為最近鄰的對象,并根據(jù)cdf函數(shù)粗粒度地求取概率邊界以避免復雜的嵌套積分過程。由于剪枝、驗證過程的引入,極大地縮小了對象搜索的空間,從而減小了概率計算的開銷[4] [102]。針對屬性級不確定數(shù)據(jù)上的k-PNNQ問題,文獻[103]提 出了概率閾 值k-NN查詢 (T-k-PNNQ)的概念和定義,并研究了3種有效的查詢剪枝算法,而其中的閾值則由用戶設定,用于控制結果的數(shù)目。首先,采用k-bound過濾算法刪除

51、不可能成為查詢結果的對象;其次,采用概率候選選擇算法高效地檢測k-子集,以快速剔除不滿足條件概率的對象集合.最后,通過概率上界和下界驗證方法過濾返回結果以進一步篩選查詢結果。目前多數(shù)不確定NN查詢研究不能同時支持元組級和屬性級不確定數(shù)據(jù)源。為解決此問題,文獻[23]中采用一種通用的不確定性模型,綜合平衡查詢中I/O操作和CPU操作(復雜的概率積分計算)等各種代價要素,并提出了Topk-PNN查詢定義。然而其排序標準僅基于每</p&

52、gt;<p>  4)不確定數(shù)據(jù)集聚集查詢</p><p>  文獻[107]針對概率數(shù)據(jù)庫上的聚集查詢問題,提出了一種基于分桶策略的概率聚集操作。通過將關系的可能世界分組成多個桶,每個桶對應相同的聚集值,并對每個桶求線性規(guī)劃問題以獲得概率邊界,算法具有一般指數(shù)級的復雜性。早期傳統(tǒng)的聚集查詢算法主要關注于獲得精確的聚集統(tǒng)計值。然而在很多的現(xiàn)實應用場景中,用戶只需獲得近似的聚集結果而非精確查詢結果。針

53、對不確定數(shù)據(jù)集的近似概率聚集查詢問題,文獻[108-109]中提出了基于草圖(sketch)的分布式數(shù)據(jù)集上的近似聚集查詢算法。其研究主要關注于傳感器網絡中的能量消耗,采用復制敏感的草圖方法以近似求取COUNT和SUM。與早期精確查詢算法不同,這些算法傳輸?shù)氖菈嚎s的數(shù)據(jù)而非原始數(shù)據(jù),減少了通信的開銷;然而,由于算法中所有的傳感器數(shù)據(jù)均參與聚集查詢的計算過程,使得計算開銷較大。為了克服誤差界限固定的障礙,文獻[110]提出了一種基于抽樣的

54、(ε,δ)近似聚集算法以滿足不同程度精度要求的概率聚集查詢應用。算法根據(jù)(ε,δ)值適應性地確定抽樣的大小,對分布式的傳感器數(shù)據(jù)均勻抽樣,并采用數(shù)學方法估計各種聚集值。文獻[111]給出了針對不確定數(shù)據(jù)的分布式不確定最大值</p><p><b>  2.2海量信息處理</b></p><p>  大規(guī)模的電子政務物聯(lián)網應用,涉及大量的不同類型的感知設備。這些感知設備

55、源源不斷地產生大量的數(shù)據(jù)。在很多應用領域,短時間內就能產生PB量的數(shù)據(jù)。如何存儲、管理和訪問海量的物聯(lián)網數(shù)據(jù),是目前國際上最熱門的研究領域之一。國內外研究機構和研究人員,以及許多IT商業(yè)機構取得了許多重要的研究成果。</p><p>  電子政務物聯(lián)網領域的海量信息處理技術,主要包括數(shù)據(jù)存儲、管理和分析等。</p><p>  (1)分布式存儲技術</p><p>

56、  目前,廣泛采用分布式策略存儲海量數(shù)據(jù)?;静呗匀缦拢核袛?shù)據(jù)被放置在多個存儲設備之中;存儲設備通過高速網絡相互連接;為各數(shù)據(jù)準備多個副本,分別放置在不同存儲設備之中;僅當數(shù)據(jù)塊的所有副本均無法被訪問時,該數(shù)據(jù)塊才無法被讀??;建立分布式索引,當系統(tǒng)接收到數(shù)據(jù)訪問請求時,能夠快速決定從哪些存儲設備中讀取數(shù)據(jù)[17].谷歌公司的GFS和Hadoop的HDFS是兩個最知名的分布式文件系統(tǒng)。</p><p> ?。?)

57、 noSQL技術</p><p>  嚴格的關系數(shù)據(jù)模型不容易組織和管理復雜多樣的物聯(lián)網數(shù)據(jù)。noSQL技術解決了類型多樣的物聯(lián)網海量數(shù)據(jù)的管理、處理和分析問題。目前,noSQL技術可分為操作型noSQL技術和分析型noSQL技術[19]。</p><p>  1)操作型noSQL技術</p><p>  依據(jù)存儲模型,操作型noSQL技術可劃分成基于Key Val

58、ue存儲模型、基于Column Family(列分組)存儲模型、基于文檔模型和基于圖模型4類[19]。</p><p>  ①基于Key Value存儲技術</p><p>  主要系統(tǒng)包括Tokyo Cabinet/Tyrant,Redis,Voldemort,OracleBerkeley DB,Amazon Dynamo/SimpleDB等[19] [112-116]。它們的共同特點是

59、,利用哈希表維護Key值到具體數(shù)據(jù)(value)的映射,通過Key值可以很方便地對數(shù)據(jù)進行查找。由于Key Value存儲模型和查詢的簡單性,有利于把數(shù)據(jù)進行橫向分割,分布到大規(guī)模集群上進行存儲和處理,從而獲得很高的操作性能(特別是寫入的性能) [19]。</p><p> ?、诨贑olumn Family存儲技術</p><p>  基于Column Family存儲的技術的主要 no

60、SQL系統(tǒng)包括 Cassandra,Big Table,HBase等[19][117-119]。Google的Big Table系統(tǒng)的存儲結構是典型的Column Family存儲。在Column Family存儲中,同樣通過Key Value基礎模型對數(shù)據(jù)進行建模,但是Value具有了更精巧的結構,即一個Value包含多個列,這些列還可以分組(column family),呈現(xiàn)出多層嵌套映射(map)的數(shù)據(jù)結構特點[19]。 由于每列

61、數(shù)據(jù)是帶有時間戳(timestamp)的,可以在Column Family里維護多個Key Value 映射的版本。在需要對歷史數(shù)據(jù)的變動情況進行分析的場合,這樣的建模方法正好能夠提供有力的支持[19] 。 </p><p>  ③Document(文檔)存儲技術</p><p>  Document(文檔)存儲技術由來已久。這里介紹的基于Document存儲的noSQL技術是基于傳統(tǒng)文檔

62、存儲技術的新發(fā)展.Document存儲技術仍然以Key Value存儲模型作為基礎模型.這個模型可以對文檔的歷史版本進行追蹤,每個文檔又是一個Key Value的列表,形成循環(huán)嵌套的結構,文檔格式一般采用JSON(Javascript object notation)或者類似于JSON的格式.對于特定的查詢來說,Document存儲的效率更高.目前Document(文檔)存儲主要的技術和產品包括CouchDB,MongoDB和Riak等

63、[19][121-123]. </p><p> ?、芑贕raph存儲技術</p><p>  基于Graph存儲的noSQL技術系統(tǒng)包括Neo4J,InfoGrid,Infinite Graph,Hyper Graph DB等[19][124-127]。有些圖數(shù)據(jù)庫基于面向對象數(shù)據(jù)庫創(chuàng)建,比如Infinite Graph,在節(jié)點的遍歷等圖數(shù)據(jù)的操作中,表現(xiàn)出優(yōu)異的性能。在新的圖數(shù)據(jù)庫的

64、設計中,擴展性作為重要的目標被考慮,目的是對大規(guī)模的圖數(shù)據(jù)進行有效的管理和分析。圖數(shù)據(jù)庫和上述3類noSQL技術在存儲模型、物理設計、數(shù)據(jù)分布、數(shù)據(jù)遍歷、查詢處理、事務的語義等方面都具有明顯的差異[19]。</p><p>  行存儲(row store)和列存儲(column store)是兩種典型的數(shù)據(jù)庫物理存儲策略.由于數(shù)據(jù)分析任務往往僅使用較少字段,因此列存儲方式的效率更高[17]. 文獻[126]提出了

65、行列混合式數(shù)據(jù)存儲結構(RCFile)以解決海量數(shù)據(jù)快速加載、縮短查詢響應時間、磁盤空間高效利用等問題。</p><p><b>  ⑤RCFile技術</b></p><p>  RCFile融合了行存儲和列存儲的優(yōu)點,通過行組劃分降低數(shù)據(jù)加載開銷,通過列數(shù)據(jù)壓縮提高存儲空間利用率[19]。國際上應用最廣泛的兩大分布式數(shù)據(jù)分析系統(tǒng)Hive和Pig均集成了RCFile

66、技術。RCFile已經成為分布式離線數(shù)據(jù)分析系統(tǒng)中數(shù)據(jù)存儲結構的事實標準[15]。RC File技術是由Ohio州立大學、中國科學院、Facebook公司合作研發(fā)的面向Hadoop平臺的行列存儲模型。RCFile基于HDFS的塊結構,維持 Hadoop系統(tǒng)的擴展性和容錯性不變,但是賦予HDFS的數(shù)據(jù)塊更加精細的結構[19]。這個工作借鑒了RDBMS的PAX存儲技術,首先對大表進行橫向劃分,以便放入HDFS約定大小的數(shù)據(jù)塊;然后在數(shù)據(jù)塊里

67、實現(xiàn)列存儲,由于使用列存儲,非常有利于對數(shù)據(jù)進行壓縮,節(jié)省存儲空間。該技術已經在Facebook得到了實際應用[19]。Wisconsin Madison大學提出了基于MapReduce平臺的純列存儲模型,獲得了比RCFile更高的性能.Hadoop++則通過嵌入索引尋址機制加快數(shù)據(jù)訪問,從而提高數(shù)據(jù)處理的性能。在連接算法方面,著名數(shù)據(jù)庫技術專家Ullman研究了面向 </p><p>  2)分析型noSQL技

68、術[19]</p><p>  面向分析型應用的noSQL技術主要包括MapReduce和Dryad(由于MapReduce技術的大流行,微軟已經徹底關閉 Dryad項目,轉而全面支持 MapReduce技術(http://www.zdnet.com/blog/microsoft/microsoft-drops-dryad-puts-its-big-data-bets-on-hadoop/11226)).MapR

69、educe技術是由 Google公司提出來的,旨在解決大規(guī)模非結構化數(shù)據(jù)快速批量處理的并行技術框架.MapReduce在設計之初,致力于通過大規(guī)模廉價服務器集群實現(xiàn)大數(shù)據(jù)的并行處理 .MapReduce技術框架包含 3個方面的內容 :(1)高度容錯的分布式文件系統(tǒng) ;(2) 并行編程模型 ; (3)并行執(zhí)行引擎.MapReduce并行編程模型,其計算過程分解為兩個主要階段,即 Map階段和Reduce階段。自從2004年Google首次

70、發(fā)布該技術以來,MapReduce技術表現(xiàn)出了強大的穿透力。隨著MapReduce技術的影響力不斷擴大,傳統(tǒng)數(shù)據(jù)庫廠家,包括強烈反對noSQL/MapReduce技術的一些廠家</p><p>  近幾年,MapReduce技術獲得了廣泛的關注,,研究人員圍繞MapReduce應用領域擴展、性能的提升、易用性的改進等進行了大量研究[19]。</p><p>  在MapReduce應用領域

71、擴展方面,IBM公司的研究人員致力于對R和 Hadoop的集成.R是開源的統(tǒng)計分析軟件,通過R和 Hadoop的深度集成,把計算推向數(shù)據(jù)并且并行處理,使Hadoop獲得了強大的深度分析能力。Purdue大學的RHIPE項目(http://ml.stat.purdue.edu/rhipe/index.html)也致力于R和 Hadoop的集成,為大數(shù)據(jù)分析提供開發(fā)環(huán)境的支持[19]。</p><p>  在性能提升

72、方面,主要圍繞如下幾個方面:</p><p> ?、俣嗪擞布cGPU上的性能改進[19]</p><p>  MIT和Manchester大學的研究人員研究了多核硬件上的MapReduce性能改進。文獻[135-136]討論了Cell Broadband Engine上的MapReduce性能優(yōu)化技術,其中,Wisconsin大學的研究人員利用Cell Sort算法,充分發(fā)揮硬件能力,極大

73、地提高了排序的性能。Texas大學Austin分校等科研機構的研究人員,就如何利用GPU提高MapReduce的執(zhí)行性能展開了研究[138,140],并且擴展了MapReduce的應用領域.清華大學和IBM實驗室的研究人員提出了Map CG[141],在源代碼級提供CPU編程和GPU編程的可移植性,大大提高了MapReduce程序編寫的容易程度[19]。</p><p> ?、谒饕夹g與連接技術的優(yōu)化[19]&l

74、t;/p><p>  文獻[112]研究了非侵入式的MapReduce性能提升技術,包括特洛伊索引(Trojan index)和分區(qū)數(shù)據(jù)并置(co-partition,即把需要連接的數(shù)據(jù)分區(qū)保存到同一個節(jié)點或者在網絡拓撲上接近的節(jié)點,以加快數(shù)據(jù)分區(qū)之間的Join操作)技術等.文獻[113]則提出事實表上的虛擬視圖(virtual view over fact table)、事實表和維表連接的優(yōu)化、基于列存儲的壓縮(c

75、olumnar compression)等技術,提高了MapReduce環(huán)境下星型模型上的OLAP類應用的執(zhí)行性能.文獻[114]通過對MapReduce執(zhí)行函數(shù)的分析,對MapReduce查詢進行改寫,充分利用SQL數(shù)據(jù)庫的索引、聚集函數(shù)等功能,提高MapReduce函數(shù)的執(zhí)行效率。 </p><p> ?、壅{度技術優(yōu)化[19]</p><p>  文獻[118]試圖利用基于優(yōu)先級的調度

76、策略提高MapReduce的運行效率.文獻[119]提出了基于MPI的MapReduce優(yōu)化實現(xiàn),利用MPI-3的新特性,比如MPI Reduce Local等,在127個節(jié)點的集群上獲得25%的性能提升.Toronto大學和Boston大學的研究人員[120]嘗試在多個MapReduce Job之間進行查詢處理工作的共享,以此提高系統(tǒng)的總體吞吐能力。Barcelona超級計算中心和IBM Watson實驗室的研究人員研究了任務聯(lián)合調度

77、[19]。</p><p> ?。?)高速數(shù)據(jù)流的大規(guī)模處理[19]</p><p>  針對高速數(shù)據(jù)流的大規(guī)模處理,文獻[136] 提出一種支持高速數(shù)據(jù)流下大規(guī)模數(shù)據(jù)實時處理的方法RTMR(Real Time MapReduce)。RTMR的處理過程為預處理歷史數(shù)據(jù)并將中間結果分布緩存到各個節(jié)點上,在節(jié)點上基于SEDA構造從Map階段到Reduce階段的本地階段化流水線,充分利用本地計算

78、和存儲資源實現(xiàn)數(shù)據(jù)流同歷史數(shù)據(jù)的實時計算。RTMR方法還包括了一種基于系統(tǒng)參數(shù)的本地階段化處理優(yōu)化方法和支持高并發(fā)讀寫的本地存儲方法[19][136]。</p><p>  圖3 RTMR方法[19][136]</p><p><b>  2.3數(shù)據(jù)融合</b></p><p>  物聯(lián)網數(shù)據(jù)融合(Data Fusion)是對感知數(shù)據(jù)進行綜合處

79、理獲取確定性信息的過程。</p><p>  在物聯(lián)網中,目前國際上開展的數(shù)據(jù)融合研究主要分為兩方面:(1)基于去冗去噪目的的感知數(shù)據(jù)融合;(2)以多傳感器信息的關聯(lián)和綜合為基礎,以估計和預測實體狀態(tài)[163]。</p><p> ?。?) 基于去冗去噪目的的感知數(shù)據(jù)融合</p><p>  在物聯(lián)網感知網絡中,對感知數(shù)據(jù)進行融合處理,只將少量有意義的信息傳輸?shù)絽R聚

80、節(jié)點,可有效減少數(shù)據(jù)傳輸量。</p><p>  目前,主要采用傳統(tǒng)的數(shù)據(jù)融合方法,例如概率統(tǒng)計方法、回歸分析和卡爾曼濾波等,消除冗余信息,去除噪聲和異常值。文獻[142]提出的分布式融合方法,采用極大似然估計實現(xiàn)了局部感知數(shù)據(jù)的估計,消除了數(shù)據(jù)異常,并解決了不同步數(shù)據(jù)的融合問題。Bayes方法也是數(shù)據(jù)融合常用的方法[20]。</p><p>  文獻[143]在研究基于簇結構的數(shù)據(jù)融合時

81、,為了解決數(shù)據(jù)收集中簇頭節(jié)點的數(shù)據(jù)沖突問題,采用Bayes 方法估計發(fā)送數(shù)據(jù)的節(jié)點數(shù)量。為了提高Bayes數(shù)據(jù)融合的計算效率,文獻[144]實現(xiàn)了后驗概率的分布式計算?;谠紨?shù)據(jù)的回歸分析,可以通過少量數(shù)據(jù)獲得感知數(shù)據(jù)全局或局部的估計.例如,文獻[145-146]建立了感知數(shù)據(jù)的回歸模型,通過模型的回歸計算大幅減少了數(shù)據(jù)傳輸量。將傳統(tǒng)信號處理的各種濾波方法應用于感知數(shù)據(jù)的融合,可以有效去除噪聲、消除數(shù)據(jù)冗余。常見的方法有漂移均值濾波、

82、卡爾曼濾波和粒子濾波等。文獻[147]將漂移均值濾波用于觀測值的數(shù)據(jù)處理以及事件和事件邊界的估計。卡爾曼濾波在觀測值預測[148] 、上下文信息預測[149],甚至MAC層數(shù)據(jù)幀大小預測[150]等方面均有應用。但卡爾曼濾波不能很好地處理非高斯噪聲和低采樣率的數(shù)據(jù),因此粒子濾波方法被引入無線傳感器網絡的數(shù)據(jù)分析和處理中,特別是節(jié)點定位和跟蹤方面.例如,文獻[151]采用粒子濾波方法實現(xiàn)了基于網絡幾何屬性的目標跟蹤[20]。</p&

83、gt;<p>  物聯(lián)網數(shù)據(jù)融合還要考慮網絡的結構和路由,因為網絡結構和路由直接影響數(shù)據(jù)融合的實現(xiàn)。目前在無線感知網絡中經常采用樹或分簇網絡結構及路由策略。基于樹的數(shù)據(jù)融合一般是對近源匯集樹、最短路徑樹、貪婪增量樹等經典算法的改進。例如,文獻[159]提出的動態(tài)生成樹構造算法,通過目標附近的節(jié)點構建動態(tài)生成樹,節(jié)點將觀測數(shù)據(jù)沿生成樹向根節(jié)點傳輸,并在傳輸過程中對其子生成樹節(jié)點的數(shù)據(jù)進行融合。經典的分簇協(xié)議LEACH[160

84、]支持簇頭節(jié)點的數(shù)據(jù)融合,但LEACH并未給出具體的融合方法。PEGASIS協(xié)議對LEACH的數(shù)據(jù)融合進行了改進,采用了鏈式結構獲得了更好的融合性能。但PEGASIS協(xié)議鏈的長度與節(jié)點數(shù)量有關,對于規(guī)模較大的網絡會產生較大的延遲.PEDAP協(xié)議進一步發(fā)展了PEGASIS協(xié)議,通過構造最小匯集樹,將子節(jié)點的數(shù)據(jù)包融合為單個數(shù)據(jù)包,減少了網絡傳輸量。數(shù)據(jù)融合能有效減少數(shù)據(jù)傳輸量,降低數(shù)據(jù)傳輸沖突,減輕網絡擁塞,提高通信效率[20]。<

85、/p><p> ?。?)關聯(lián)和綜合多傳感器信息,估計和預測實體狀態(tài)</p><p>  多傳感器數(shù)據(jù)融合國際上已開展多年的研究,最初主要應用于軍事領域,目前,在民用領域也得到廣泛應用。</p><p>  多傳感器的信息之間關系為: 獨立、競爭、互補和合作關系, 通過融合手段將有著各種關系的多源信息去偽、去粗和升華, 便可得到更加準確、完備的信息, 并且這種融合還可以在

86、不同的信息層次上出現(xiàn)[164]。</p><p>  1) 多傳感器數(shù)據(jù)融合特性[166]</p><p>  目前,多傳感器數(shù)據(jù)融合成為一項非常具有挑戰(zhàn)性的任務,呈現(xiàn)出不確定、多模態(tài)、高沖突、強相關、等諸多特性。 </p><p> ?、俨淮_定:傳感器的觀測總會受到噪聲影響,使得其不準確或者產生虛警等;同時,雜波、多目標的</p><p>

87、  存在使得量測來源具有不確定性。信息融合算法需要利用冗余有效降低不確定性[166]; </p><p> ?、诙嗄B(tài):在多傳感器系統(tǒng)中,針對同一待觀測現(xiàn)象,可能存在著聲音、視頻、文字等多模態(tài)量測,</p><p>  系統(tǒng)須具備融合這些量測的能力,給出一致理解和高品質態(tài)勢[166]; </p><p>  ③高沖突:當多個專家對同一現(xiàn)象給出不同意見時,信息就產生了

88、沖突.在基于證據(jù)置信推理和Dempster組合規(guī)則的融合算法中,融合帶有沖突的數(shù)據(jù)易產生與直覺不一致的結果.因此,融合算法需要小心處理高沖突數(shù)據(jù)[166]; </p><p> ?、軓娤嚓P:該問題在分布式融合中尤為重要和普遍,例如,在無線傳感器網絡中,一些傳感器節(jié)點很可能受相同噪聲的影響,產生有偏量測.另外,在估計過程中使用近似濾波器也會造成局部節(jié)點估計之間相關.如果不考慮數(shù)據(jù)相關性,會產生有偏估計[166];

89、</p><p> ?、莘蔷€性:目標運動建模與量測建模坐標系的非線性關系引起運動建模的非線性,分布式觀測的信息在空間變換配準中引起非線性等.對非線性的處理不當會損失有用信息[166]. </p><p>  2)多傳感器數(shù)據(jù)融合系統(tǒng)和融合模型</p><p>  多傳感器信息融合系統(tǒng)包含四個主要元素: 一是信息源元素, 它向系統(tǒng)提供原始的信息; 二是信息轉換、傳遞、

90、交換元素, 它完成信息的預處理; 三是信息互補、綜合處理元素,它完成信息的再生、升華; 四是信息融合處理報告元素, 即輸出融合處理結果[164-165]。 </p><p>  多傳感器信息融合模型是建立系統(tǒng)模型是設計信息融合系統(tǒng)的第一步, 模型的優(yōu)劣直接決定了整個系統(tǒng)功能的好壞。目前,提出了很多的信息融合模型,可分為功能模型、結構模型和數(shù)學模型。功能模型從融合過程出發(fā)描述信息融合, 包括主要功能、數(shù)據(jù)庫, 以

91、及信息融合系統(tǒng)各組成部分之間的相互作用過程; 結構模型從信息融合的組成出發(fā),說明信息融合系統(tǒng)的軟硬件組成、相關數(shù)據(jù)流、系統(tǒng)與外部環(huán)境的人機界面。數(shù)學模型是在一定結構模型下信息融合算法的數(shù)學表達和綜合邏輯[163]。</p><p>  功能模型根據(jù)融合的功能層次, 文獻[163]在JDL/DFS分級模型基礎上,按照信息抽象的不同層次,把信息融合分為五級,包括了從檢測到威脅估計的完整過程[163]。 第一級為檢測級

92、融合; 第二級為位置融合; 第三個級為目標識別信息融合; 第四和第五分別為態(tài)勢估計和威脅估計。 在這種功能模型描述中, 前三個層次的信息融合適用于任意的多傳感器信息融合系統(tǒng), 而后兩個層次主要適用于軍事C4 ISR中的信息融合[163]。</p><p>  從分布檢測的角度看, 檢測級融合結構主要有5 種, 即分散式結構、并行結構、串行結構、樹狀結構和帶反饋并行結構[163]。從多傳感器系統(tǒng)的信息流通形式和綜合

93、處理層次上看, 位置級融合結構主要有4 種, 即集中式、分布式、混合式和多級式[163]。 屬性級數(shù)據(jù)融合結構主要有3 種: 決策層屬性融合, 特征層屬性融合和數(shù)據(jù)層屬性融合[163] . </p><p>  3)多傳感器數(shù)據(jù)融合算法</p><p>  多傳感器信息融合技術發(fā)展到現(xiàn)在, 已產生了很多融合算法, 但是這些融合算法大都是根據(jù)具體的問題而提出的, 對特定領域的問題能獲得最優(yōu)效

94、果。 因此, 現(xiàn)有的融合算法都有其一定的適用范圍。根據(jù)不同的準則, 常用的多傳感器信息融合有不同的分類方法. 一種分類法將常用的融合算法概括為兩大類: 經典方法和現(xiàn)代方法. 經典的融合算法是基于經典數(shù)學方法的一類融合算法. 該類算法主要有: 貝葉斯估計( Bay esian Inference)、加權平均法( Weig hted A ver ag e Method) 、極大似然估計( Max imun Likelihoo d) 、D-

95、S 證據(jù)理論( Dempster- Shafer Inference)、卡爾曼濾波( Kalman Filter)等. 現(xiàn)代融合算法是根據(jù)人工智能理論、現(xiàn)代信息論等的發(fā)展而發(fā)展起來的一類融合算法. 該類算法常用的主要有: 聚類分析( Cluster A nalysis) 、模糊邏輯( Fuzzy Lo gic) 、神經網絡( Neur al Netw orks) 、小波理論( Wavelet Theory) 、粗糙集理論(</p&

96、gt;<p>  表1.. 融合算法[164]</p><p>  ①不確定信息融合[166]</p><p>  線性高斯條件下的估計融合理論已經成熟,在這里主要介紹非線性非高斯條件下的濾波估計進展以及隨機集理論[166].</p><p>  針對非線性非高斯條件下的濾波問題,近年來人們提出了大量次優(yōu)的近似方法.這些次優(yōu)濾波器可以分為4大類[166

97、] [174]:解析近似、數(shù)值逼近、高斯和濾波以及采樣近似.解析近似方法包括擴展卡爾曼濾波器(EKF)、高階EKF、迭代EKF等,其主要特征是通過線性化逼近狀態(tài)和量測方程.數(shù)值方法也稱為基于網格的逼近方法,通過沿離散變量求和代替積分.為了得到連續(xù)狀態(tài)空間比較好的逼近,網格必須足夠密集.隨著狀態(tài)空間維數(shù)的增加,計算量也急劇增加.高斯和逼近(Gaussian sum approximation)通過選擇適當?shù)母咚够旌蟼€數(shù),得到要求的逼近精度

98、,當后驗分布是多峰值時,這種逼近是很合理的,然而很難在線計算各個高斯分布權重,并且混合個數(shù)可能隨時間呈指數(shù)增加.由于近似非線性函數(shù)的概率密度分布比近似非線性函數(shù)更容易,使用采樣方法近似非線性分布來解決非線性問題的途徑在得到廣泛關注. UKF[166] [175]、高斯厄米特濾波器(GHF) [174]、中心差分濾波器(CDF) [176]、分離差分濾波器(DDF[176-177])、粒子濾波器(particle filter, PF)及

99、其各種變形等就</p><p>  由于PF在理論上能夠近似任意的概率密度,適用于強非線性非高斯問題,在采樣型非線性濾波器</p><p>  中最受關注. PF利用狀態(tài)空間的一組帶權隨機樣本(粒子)逼近狀態(tài)變量的后驗概率分布,每個樣本代表</p><p>  系統(tǒng)的一個可能狀態(tài),是基于蒙特卡羅(Monte Carlo, MC)仿真的方法.在實現(xiàn)過程中, PF一般包

100、括序貫</p><p>  重要性采樣和重采樣兩個步驟.由于存在退化問題,在研究和發(fā)展過程中, PF算法得到許多改進,這些</p><p>  改進主要圍繞增加粒子的多樣性和重要性分布函數(shù)的選擇,包括馬爾可夫鏈蒙特卡洛(MCMC)改進策</p><p>  略、Unscented粒子濾波器、輔助粒子濾波器(APF)、 Rao-Blackwellised粒子濾波器(R

101、BPF)、正則化粒子濾波器(RPF)等[166] [177]。高維狀態(tài)空間時計算量過大是PF在應用過程中面臨的一個難題.針對該問題, MCMC算法是一種可選擇的替代方法,其基本思想是通過構造馬爾可夫鏈產生來自目標分布的樣本.當?shù)螖?shù)充分大時,馬爾可夫鏈趨于一個平穩(wěn)密度. MCMC有許多方法,常用的有Metropolis-Hastings算法 [178]和Gibbs采樣器 [179]. Metropolis-Hastings算法對樣本的

102、初始化和切換分布較為敏感,如果選擇不適,則收斂過程緩慢.而Gibbs采樣器可以作為Metropolis-Hastings的一個特例.另外一個方法是Rao-Blackwellised化[180]也稱為邊緣化PF(marginalized particle filters),其思想(,) 是對某些狀態(tài)空間模型,狀態(tài)向量的一部分在其余部分條件下的后驗分布可以用解析方法求得,例如某些狀態(tài)是條件線性高斯模型,可用卡爾曼濾波器得到條件后驗分布,對另

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論