![](https://static.zsdocx.com/FlexPaper/FileRoot/2019-3/6/23/47abc2f6-d08f-44e4-95b3-f5c0b2569dfc/47abc2f6-d08f-44e4-95b3-f5c0b2569dfcpic.jpg)
![基于視覺塊識別的網頁元數據提取方法.pdf_第1頁](https://static.zsdocx.com/FlexPaper/FileRoot/2019-3/6/23/47abc2f6-d08f-44e4-95b3-f5c0b2569dfc/47abc2f6-d08f-44e4-95b3-f5c0b2569dfc1.gif)
已閱讀1頁,還剩73頁未讀, 繼續(xù)免費閱讀
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、隨著互聯(lián)網知識數據的爆炸式增長以及內容呈現(xiàn)形式的多樣化,特別是智能內容識別、提取和分析等數據處理方面的要求使得網頁元數據采集和處理變得異常復雜。傳統(tǒng)的信息采集服務需要人工分析頁面的DOM樹結構,并不能直接抽取到具有特定要求的網頁元數據,無法滿足人們對特定數據的需求。因此,如何自動識別并準確定位需要采集網頁元數據的位置變得尤為重要。
本文針對視頻網頁信息采集提出一種基于視覺塊識別的網頁元數據提取方法,以解決自動識別定位并提取網頁
2、元數據的問題。論文的主要工作如下:
(1)對網頁信息提取技術及視覺特征進行分析。通過研究基于DOM樹、視覺特征、文本特征三種網頁信息提取技術,對比總結這三種技術的優(yōu)缺點,結合本課題需要提取的視頻網頁信息的特點以及網絡爬蟲技術,總結用戶的視覺規(guī)律設計了一種基于視覺特征的網頁元數據提取方法。
(2)頁面視覺塊劃分。由于當前主流的網頁設計均采用DIV+CSS布局代替?zhèn)鹘y(tǒng)以
評論
0/150
提交評論