圖像文本分析技術及其應用研究.pdf_第1頁
已閱讀1頁,還剩90頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、文本是計算機視覺的許多應用中的一項重要特征。文本分析是數字圖像處理和模式識別中的一個子領域,其主要目的是將文本圖像轉化為符號形式,從而利于修改、存儲、檢索、再利用以及傳輸。文本分析,包括字符識別在內,在模式識別領域的發(fā)展早期就已經成為研究的熱點;經過近幾十年的發(fā)展,這個領域已經取得了巨大的發(fā)展,并在很多實際領域中得到廣泛的應用[18,31]。但是,之前的研究主要側重于簡單文本圖像的分析和處理,對于字符識別也是側重于規(guī)則文本和手寫體字符的

2、識別。而隨著數字圖像采集、處理和傳輸技術,特別是由于Internet技術突飛猛進的發(fā)展,彩色圖像文本被越來越多的應用于各種場合,也就出現了大量復雜的圖像文本,這給文本分析技術提出了新的要求。一般的文本圖像中,或者只有文本構成,或者包含圖片但是文本和圖片是分離的。而圖像文本中,文本是構成圖像內容的一部分,與圖像是不可簡單分離的;而同時為了能傳達更豐富的信息,其表現形式也更為變化多樣。這些特點使通常的文本圖像處理方法難以勝任。因而為了能有效

3、的提取出這些圖像文本中包含的內容,新的圖像處理和分析方法一圖像文本分析技術,就成為文本分析中的新的研究方向。 圖像文本分析技術和通常的文本圖像分析技術并不是完全獨立的,它們之間有著緊密的聯系。圖像文本分析技術的最大特點就是,其所要處理的對象是具有復雜背景的一般圖像,不僅包含灰度圖像,也包含彩色圖像;而其中的文本是作為圖像的一個組成部分而嵌入在圖像里面的。因此,作為圖像文本分析的第一步,就是要進行圖像中文本的自動檢測或定位,其目的

4、就是在圖像或視頻幀中提取出那些只包含文字的區(qū)域?,F有的圖像文本提取的方法可以分為三類:基于紋理分析技術的、基于空域連通分量分析技術的,以及基于頻域分析技術的。本文提出了一種基于連通分量分析和圖理論彩色聚類的彩色圖像中文本自動提取的方法。首先,應用色彩的統計模型,對彩色空間進行有效的壓縮,達到大大減小圖像的彩色空間的目的;其次,使用基于圖理論進行彩色聚類,將圖像分解成對應各類的多幅二值圖;然后,在這些二值圖的基礎上進行連通分量分析,提取可

5、能的文本區(qū)域,并對這些區(qū)域進行鑒別;最后,綜合各二值圖的提取結果,得到原始彩色圖像中的文本區(qū)域。和一般的基于紋理分析技術和頻域分析技術的方法相比,基于連通分量分析技術的方法對圖像中文本的大小和字體的變化具有更強的穩(wěn)健性。提取出的文本區(qū)域經過進一步的二值化或文本—背景分離處理,就可以輸入字符識別(OCR)系統中進行識別。 在實際的應用中,需要處理的對象除規(guī)則的文本外,還包含由不規(guī)則的藝術字字符構成的文本。尤其是現在的各種商業(yè)圖像/

6、圖形處理軟件的廣泛應用,以及藝術體字符較規(guī)則字符能承載更多的信息,藝術體文本越來越多的出現在各種應用場合,特別是現在的Internet上的各種網絡文本。對于規(guī)則文本的識別,到目前為止已經有大量的研究工作以及相關的文獻。而專門以藝術字體字符作為對象的研究工作和文獻則比較缺少。這主要是因為:1)當前的字符識別的研究主要集中于手寫體字符的識別;2)藝術體字符形式的多樣性而帶來的識別的困難。所以,對藝術體字符的有效識別具有很大的實際應用意義。同

7、時,現有的規(guī)則字符的識別技術已經非常成熟,在線的和離線的手寫體字符的識別研究也已經有很多的研究成果。為了能有效的利用這些現有的方法,對藝術體字符識別考慮的重點將主要放在藝術字體的規(guī)則化問題上,也就是去除構成字符的藝術化部分,得到近似規(guī)則的字符。本文提出了一種基于連通分量鄰接圖(CAG)的藝術體字符規(guī)則化方法。該方法和現有方法的最大區(qū)別之處就是,嘗試直接描述藝術體字符中作為修飾部分的結構分量的特性?;趯@些特性的分析,判斷并去除字符中的

8、藝術修飾部分,從而達到藝術體字符的規(guī)則化目的。因此,該方法和現有的方法一樣,也是作為字符識別的前期處理,目的是提高現有OCR系統對藝術體字符的識別率。 最后,綜合這些圖像處理方法的圖像文本分析技術被應用于開發(fā)一個WEB圖像文本分析和處理軟件。該軟件能定位和提取出用戶瀏覽的WEB頁面中包含在圖像里的文本,并對它們進行在線的識別和翻譯,從而更加方便用戶對信息的獲取和理解。 在本論文中: ◆提出了基于圖像文本的圖像檢索

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論