日本高级黄区免费,91精品国产一区二区三区免费,99爱国产精品免费视频,一区二区三区国产日韩欧美

Web雙語平行語料自動獲取及其在統(tǒng)計機器翻譯中的應用.pdf

上傳人：奔*** IP屬地：河北更新時間：2024-03-08 格式：pdf 頁數：69 大小：3.16MB 人氣指數：12 舉報 版權申訴

Web雙語平行語料自動獲取及其在統(tǒng)計機器翻譯中的應用.pdf_第1頁

已閱讀1頁，還剩68頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

1、雙語平行語料庫在自然語言處理領域有很多重要應用，它為統(tǒng)計機器翻譯模型提供不可或缺的訓練數據，同時也是詞典編纂和跨語言信息檢索等應用的重要基礎資源。但是大規(guī)模雙語平行語料庫的獲取并不容易，現有的平行語料庫在規(guī)模、時效性和領域的平衡性等方面還不能滿足處理真實文本的實際需要。隨著互聯(lián)網的普及和飛速發(fā)展，越來越多的雙語網站被創(chuàng)建，越來越多的信息以多語言的形式發(fā)布，這就為雙語和多語語料庫的建設提供了很大的來源。一些研究者提出了基于Web的雙語或多

2、語平行語料庫自動挖掘方法，為雙語或多語平行語料庫的自動構建提出了有效的解決途徑。本文致力于構建一個基于Web的大規(guī)模雙語平行語料庫自動獲取系統(tǒng)。取得主要成果有以下幾方面：
　　 1.研究了雙語混合網頁的自動發(fā)現和獲取
　　互聯(lián)網上的雙語平行資源主要分為兩類：一類是雙語資源分布于兩個網頁間，兩個網頁用不同語言描述內容上是互譯的，我們稱之為雙語平行網頁；另一類是雙語資源位于同一網頁內，我們稱之為雙語混合網頁。以往的系統(tǒng)主要

3、是基于雙語平行網頁的，但是通過觀察，我們發(fā)現Web上存在大量的雙語混合網頁，而且雙語混合網頁上的雙語資源對照更為工整，翻譯質量較高，是非常寶貴的雙語資源來源。
　　雙語平行網頁存在地址或結構上的相似性，處理方法已經很成熟，但這些方法并不適用于雙語混合網頁。候選雙語混合網頁分布通常不確定，缺乏一些常見的啟發(fā)信息，獲取更為困難。本文提出了一種基于嘗試下載策略的自動發(fā)現雙語混合網頁的方法，運用該方法獲取候選混合網站具有較高的正確率。

4、
　　 2.研究了從雙語混合網頁中抽取平行句對的方法
　　從雙語混合網頁中抽取平行句對的主要任務可以分成三部分：網頁噪聲過濾、雙語混合網頁確認和句子對齊。本文研究并實現了兩種網頁去噪聲方法：專用的基于模板的方法和通用的基于Html標簽樹的方法。對于雙語混合網頁的確認本文分兩步實驗，分別是基于雙語字符數的粗判別和基于詞典的細判別。最后，本文采用基于混合信息的句子對齊方法將篇章級的雙語平行文本轉化成雙語平行句對。本文解決了

眾賞文庫> 全部分類> 畢業(yè)設計

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 眾賞文庫僅提供信息存儲空間，僅對用戶上傳內容的表現方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論

 聯(lián)系客服

本站為文檔C2C交易模式，即用戶上傳的文檔直接被用戶下載，本站只是中間服務平臺，本站所有文檔下載所得的收益歸上傳人(含作者)所有。眾賞文庫僅提供信息存儲空間，僅對用戶上傳內容的表現方式做保護處理，對上載內容本身不做任何修改或編輯。若文檔所含內容侵犯了您的版權或隱私，請立即通知眾賞文庫，我們立即給予刪除！

備案號: 經營許可證編號:浙ICP備20018660號
Copyright ? 2013-2023 眾賞文庫版權所有違法與不良信息舉報電話：15067167862

/ 69

  0
 分享

復制分享文檔地址

http://shengwuziyuan.com/shtml/view-1482141.html

復制

下載本文檔

<form id="f16h7"><dfn id="f16h7"></dfn></form>