![](https://static.zsdocx.com/FlexPaper/FileRoot/2019-3/11/11/fd3be8bf-928d-4e18-9dc2-34308059560f/fd3be8bf-928d-4e18-9dc2-34308059560fpic.jpg)
![語篇分析中基于關(guān)鍵詞分析的數(shù)據(jù)驅(qū)動(dòng)方法.pdf_第1頁](https://static.zsdocx.com/FlexPaper/FileRoot/2019-3/11/11/fd3be8bf-928d-4e18-9dc2-34308059560f/fd3be8bf-928d-4e18-9dc2-34308059560f1.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、目前語料庫語言學(xué)用于語言學(xué)研究的方法主要是基于語料庫的(corpus-based)方法和語料庫驅(qū)動(dòng)的(corpus-driven)方法?;谡Z料庫的方法使用語料主要是為了解釋、檢測(cè)或例示傳統(tǒng)語言理論(的正確性)。語料庫驅(qū)動(dòng)的方法則認(rèn)為傳統(tǒng)語言理論與語言事實(shí)之間存在差異,基于語料庫的方法不著眼挑戰(zhàn)已有語言描敘或語言理論,沒有充分利用語料的潛能,從而不能對(duì)豐富的語言事實(shí)做出理想的解釋。語料庫驅(qū)動(dòng)的方法主張:語言理論不應(yīng)先于語言事實(shí),而只能由
2、之直接產(chǎn)生,同時(shí)還要要完整地反映所觀測(cè)到的語言事實(shí)(Tognini-Bonelli2001)。 Rayson(2002)則另外提出了一種用于語言學(xué)研究的數(shù)據(jù)驅(qū)動(dòng)(data-driven)的方法。通過對(duì)以往研究的調(diào)查,他認(rèn)為在確定待研究的語言特征方面前兩種方法均存在不足之處,那就是研究問題通常先于語言研究,差別只在于證實(shí)與質(zhì)疑,從而有可能遮蔽其他更普遍的語言特征的發(fā)現(xiàn)。Rayson的方法是運(yùn)用頻率凸現(xiàn)(frequencyprofi
3、ling)和檢索(concordance)這兩個(gè)語料庫研究手段對(duì)經(jīng)過語義標(biāo)注的語料先進(jìn)行宏觀分析,然后微觀分析,從而發(fā)現(xiàn)凸現(xiàn)的候選研究問題。他把這個(gè)語言發(fā)現(xiàn)過程概括為“建庫—標(biāo)注—抽取—問題—闡釋(build-annotate-retrieve-question-interpret)”。這種數(shù)據(jù)驅(qū)動(dòng)方法產(chǎn)生的問題然后通過前兩種方法進(jìn)行分析。 本文和Rayson同樣認(rèn)為基于語料和語料驅(qū)動(dòng)的方法各有適用的領(lǐng)域,無優(yōu)劣之別,但在確定語
4、言研究問題時(shí)需要先宏觀,后微觀,從而能夠發(fā)現(xiàn)以前被忽略的語言現(xiàn)象。和Rayson不同的是,本文提出的基于關(guān)鍵詞的數(shù)據(jù)驅(qū)動(dòng)方法的宏觀發(fā)現(xiàn)過程不是基于語義的對(duì)比,而是基于詞匯的對(duì)比。提出這種方法的一個(gè)原因是語義標(biāo)注在國內(nèi)還不成熟,另一個(gè)原因是已有語料庫研究初步顯示基于詞匯和基于語義的語料庫研究都能對(duì)同一語料作出相似發(fā)現(xiàn)(ArcherandRayson2004;BakerandMcEnery2004;DeeganandShort2004)。
5、 基于關(guān)鍵詞的數(shù)據(jù)驅(qū)動(dòng)方法的語言發(fā)現(xiàn)過程是“建庫—抽取—問題—闡釋”,亦即是,首先建立目標(biāo)語料庫作為要進(jìn)行語言特征發(fā)現(xiàn)的對(duì)象,然后通過語料庫語言學(xué)的統(tǒng)計(jì)方法對(duì)目標(biāo)語料庫進(jìn)行分析,在這個(gè)步驟中發(fā)現(xiàn)潛在的可供進(jìn)一步分析的語言特征,最后提出相關(guān)問題并進(jìn)行闡釋,闡釋的語言理論既可以是從分析中歸納得來的,也可以是傳統(tǒng)語言理論。其中“抽取”過程由三個(gè)子步驟構(gòu)成:第一步,提取關(guān)鍵詞;第二步(可選項(xiàng)),對(duì)關(guān)鍵詞進(jìn)行搭配詞分析;第三步,對(duì)關(guān)鍵詞或其
6、搭配詞進(jìn)行檢索。 本文的主要理論假設(shè)是:1)關(guān)鍵詞代表了目標(biāo)語料庫中顯著的語言現(xiàn)象(CollinsandScott1997),2)詞的意義主要由其上下文決定(Tognini-Bonelli2001)。 為了檢測(cè)基于關(guān)鍵詞的數(shù)據(jù)驅(qū)動(dòng)方法的可行性,本文對(duì)西方經(jīng)濟(jì)學(xué)者所報(bào)道的中國經(jīng)濟(jì)進(jìn)行了上述方法的一次個(gè)案分析。分析初步表明,在輔助語言特征發(fā)現(xiàn)方面,該方法是可行的。發(fā)現(xiàn)的主要問題是語言特征分類問題和語言特征的選擇問題。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 文本關(guān)鍵詞的語篇功能研究.pdf
- 關(guān)鍵詞分析的模式關(guān)鍵詞選擇,關(guān)鍵詞搜索頻度,關(guān)鍵詞調(diào)配5-v.org
- 瑞拓關(guān)鍵詞整體分析
- 基于詞跨度的網(wǎng)頁關(guān)鍵詞提取方法研究.pdf
- 語義Web數(shù)據(jù)的關(guān)鍵詞查詢方法.pdf
- 基于聚類分析的中文新聞網(wǎng)頁關(guān)鍵詞提取方法研究.pdf
- 基于樹模板的RDF數(shù)據(jù)關(guān)鍵詞查詢方法研究.pdf
- [教育]壓縮語段——提取關(guān)鍵詞
- 基于語料庫的憤怒的葡萄關(guān)鍵詞分析
- 關(guān)鍵詞詞庫統(tǒng)計(jì)方法
- 基于主題的關(guān)鍵詞提取方法對(duì)比研究
- 關(guān)鍵詞詞庫統(tǒng)計(jì)方法
- 基于關(guān)鍵詞匹配的打印數(shù)據(jù)獲取系統(tǒng).pdf
- 加密數(shù)據(jù)庫關(guān)鍵詞快速檢索的方法研究.pdf
- 數(shù)據(jù)庫中關(guān)鍵詞的查詢擴(kuò)展研究.pdf
- 關(guān)鍵詞 長(zhǎng)尾關(guān)鍵詞 拓展技巧
- 基于形式概念分析與關(guān)鍵詞加權(quán)的用戶查詢?cè)~擴(kuò)展研究.pdf
- 多關(guān)鍵詞提取在憑證摘要分析中的應(yīng)用
- 關(guān)鍵數(shù)據(jù)庫的關(guān)鍵詞查詢研究.pdf
- 基于關(guān)鍵詞的關(guān)系數(shù)據(jù)庫時(shí)態(tài)信息檢索方法研究.pdf
評(píng)論
0/150
提交評(píng)論