感知器算法_第1頁(yè)
已閱讀1頁(yè),還剩53頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、再探深度學(xué)習(xí)詞向量表示,Advanced word vector representations,主講人:李澤魁,,目錄,Lecture 1 知識(shí)點(diǎn)回顧神經(jīng)概率語(yǔ)言模型(Bengio 2003)Word2vec (Mikolov 2013)(CBOW & Skip-gram) * (HS & NEG)詞向量的評(píng)價(jià)方法Softmax分類(lèi)模型(原PPT亂入)詞向量的應(yīng)用場(chǎng)景,,,目錄對(duì)比,cs224d Lectu

2、re 3 目錄,Lecture 1 知識(shí)點(diǎn)回顧 (Refresher)詞向量梯度下降&隨機(jī)梯度下降 (GD & SGD)如何評(píng)測(cè)詞向量 (evaluate)Softmax分類(lèi) (softmax classification)若干習(xí)題集 (problem set),Lecture 1 知識(shí)點(diǎn)回顧神經(jīng)概率語(yǔ)言模型(Bengio 2003)Word2vec (Mikolov 2013)(CBOW & Sk

3、ip-gram) * (HS & NEG)詞向量的評(píng)價(jià)方法Softmax分類(lèi)模型(原PPT亂入)詞向量的應(yīng)用場(chǎng)景,本次目錄,,,知識(shí)點(diǎn)回顧:詞向量,詞向量表示One-hot Representation“黑板”表示為 [0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 ...]Distributional Representation“黑板”表示為 [0.792, ?0.177, ?0.107, 0.

4、109, ?0.542, ...]詞向量降維SVD,LSA,LDABased on lexical co-occurrenceLearning representationsPredict surrounding words of every wordEg. word2vec,,,知識(shí)點(diǎn)回顧: input & output vector,所以每個(gè)詞w都有兩個(gè)向量表示input vecter:窗口內(nèi)的中心向量(ce

5、nter vector) voutput vector:非中心詞向量(external vectors) v’例如window size = 1,句子 I like learninglike為v_likeI、learning為v’_I v’_learning,,,知識(shí)點(diǎn)回顧: Simple word2vec,Predict surrounding words in a window of length c of ever

6、y word.,,,知識(shí)點(diǎn)回顧: Word2Vec & GloVe,Word2VecEfficient Estimation of Word Representations in Vector Space. Mikolov et al. (2013)GloVeGlove: Global Vectors for Word Representation. Pennington et al. (2014)aggregate

7、d global word-word co-occurrence statistics from a corpus,,,深度學(xué)習(xí)詞向量的語(yǔ)言模型(引言),語(yǔ)言模型:判定一句話是否為自然語(yǔ)言傳統(tǒng)的NLP語(yǔ)言模型(以N-gram為例)如何計(jì)算一個(gè)句子的概率?機(jī)器翻譯:P(high winds tonite) > P(large winds tonite)拼寫(xiě)糾錯(cuò):P(about fifteen minutes from) &

8、gt; P(about fifteen minuets from)語(yǔ)音識(shí)別:P(I saw a van) >> P(eyes awe of an)音字轉(zhuǎn)換:P(你現(xiàn)在干什么|nixianzaiganshenme) > P(你西安在干什么|nixianzaiganshenme)自動(dòng)文摘、問(wèn)答系統(tǒng)、... ...,,,深度學(xué)習(xí)詞向量的語(yǔ)言模型(引言),傳統(tǒng)的NLP語(yǔ)言模型(以N-gram為例)如何計(jì)算一個(gè)句子的概率

9、?問(wèn)題形式化定義p(S)=p(w1,w2,w3,w4,w5,…,wn) =p(w1)p(w2|w1)p(w3|w1,w2)...p(wn|w1,w2,...,wn-1) =p(w1)p(w2|w1)p(w3|w2)...p(wn|wn-1)其他語(yǔ)言模型指數(shù)語(yǔ)言模型最大熵模型MaxEnt、最大熵馬爾科夫模型MEMM、條件隨機(jī)域模型CRF(平滑?語(yǔ)法、語(yǔ)義的加入)神經(jīng)概率語(yǔ)言模型Bengio2003、M

10、ikolov2013等,,,深度學(xué)習(xí)語(yǔ)言模型都有哪些?(粗略),2000年,徐偉,神經(jīng)網(wǎng)絡(luò)訓(xùn)練語(yǔ)言模型《Can Artificial Neural Networks Learn Language Models?》用神經(jīng)網(wǎng)絡(luò)構(gòu)建二元語(yǔ)言模型(即 P(wt|wt?1))的方法,,,深度學(xué)習(xí)語(yǔ)言模型都有哪些?(粗略),2003年,Bengio,三層的神經(jīng)網(wǎng)絡(luò)構(gòu)建語(yǔ)言模型《A Neural Probabilistic Language M

11、odel》,,,深度學(xué)習(xí)語(yǔ)言模型都有哪些?(粗略),2008,Ronan Collobert 和 Jason WestonC&W model 《Natural Language Processing (Almost) from Scratch》2008,Andriy Mnih 和 Geoffrey Hinton《A scalable hierarchical distributed language model》201

12、0,MikolovRNNLM《Recurrent neural network based language model》2012,Huang《Improving Word Representations via Global Context and Multiple Word Prototypes》,,,Bengio2003,,,,Bengio2003,,該結(jié)構(gòu)中的學(xué)習(xí)參數(shù)輸入的詞向量v(w), w屬于Dictionary

13、各層的參數(shù)WUpq各層的規(guī)模投影層:(n-1)*m,n為上下文詞數(shù),不超過(guò)5;m為詞向量維度,10~10^3隱藏層:n_hidden,用戶(hù)指定,一般為10^2量級(jí)輸出層:N,詞表大小,語(yǔ)料相關(guān),10^4~10^5量級(jí)most computation here (也是 word2vec 的主要優(yōu)化點(diǎn))隱藏層to輸出層的tanh輸出層的softmax,,,Bengio2003,計(jì)算公式推導(dǎo)映射層首尾拼接(n-1)*m ,記

14、作x隱藏層(未畫(huà)出)假設(shè)有h個(gè)節(jié)點(diǎn)tanh(H*x + d)隱藏層與輸出層權(quán)值矩陣為 U (|V|*h)輸出層|V|個(gè)節(jié)點(diǎn),softmax為歸一化概率 y公式為W矩陣輸入層與輸出層(跨了兩層)的直連邊矩陣,線性變換Bengio 發(fā)現(xiàn)直連邊雖然不能提升模型效果,但是可以少一半的迭代次數(shù)同時(shí)他也猜想如果沒(méi)有直連邊,可能可以生成更好的詞向量,,,ffnnlm相對(duì)于 ngram模型的優(yōu)點(diǎn),,詞語(yǔ)之間的相似性可以通過(guò)詞向

15、量計(jì)算下面例子中 cat 和 mouse 在ffnnlm中詞向量相近,而在ngram中cat的概率要大很多A cat is walking on the street * 10000A mouse is walking on the street * 1計(jì)算過(guò)程自帶平滑效果計(jì)算的是p(w|context),,,ffnnlm中詞向量的角色,,輸入與訓(xùn)練的參數(shù)語(yǔ)言模型訓(xùn)練結(jié)束 后的副產(chǎn)品,,,詞向量的歷史,詞向量表示

16、最先于1986年Hinton提出2003年Bengio發(fā)揚(yáng)光大ffnnlmFeed-forward Neural Net Language ModelSENNA、HLBL、Word2vec 、SSWE、 GloVe,,,Word2Vec所做改進(jìn)(Mikolov 2013),映射層不再是將輸入單詞的向量表示按順序排列,而是將他們相加,減少計(jì)算量去掉了tanh隱層,減少計(jì)算量,同時(shí)效果并不差目的是尋找單詞的向量表示

17、,而不是語(yǔ)言模型利用了上下文而不是上文了使用層次softmax使用negative sampling,,,Word2Vec所使用模型,CBOW & Skip-gram,,,(CBOW & Skip-gram) *2,兩個(gè)模型(可選其一)CBOW (Continuous Bag-Of-Words Model)Skip-gram (Continuous Skip-gram Model)兩套框架(可選其一)Hi

18、erarchical Softmax Negative Sampling,,,CBOW+HS (structure),輸入層上下文2C個(gè)詞向量(m維)隱層輸入詞向量的累加和輸出層Huffman Tree (Why?)權(quán)值:詞頻非葉節(jié)點(diǎn)(|D|-1 個(gè)) 代表某一類(lèi)別的詞葉節(jié)點(diǎn)(|D|個(gè)) 代表某一個(gè)詞,,,CBOW+HS (huffman code),Huffman tree葉節(jié)點(diǎn)是單詞,對(duì)應(yīng)一個(gè)hu

19、ffman code,例如“00101”每個(gè)葉節(jié)點(diǎn)對(duì)應(yīng)一個(gè)路徑,記左子樹(shù)為1,右子樹(shù)為0投影層每維節(jié)點(diǎn)與每個(gè)非葉節(jié)點(diǎn)有連線,可以看做非葉節(jié)點(diǎn)具有不同權(quán)值theta每個(gè)節(jié)點(diǎn)分裂概率使用 邏輯回歸正例概率(左分支 1)負(fù)例概率(右分支 0),,,CBOW+HS (a train sample),Train sample (Context(“足球”), 足球)Train huffman path 1001四次分裂

20、Loss function ( 是0/1)i.e.,,,CBOW+HS (Gradient Ascent Method),GD (Gradient Descent Method)要在整個(gè)訓(xùn)練集上最小化代價(jià)函數(shù)J(θ)需要計(jì)算所有窗口里的參數(shù)梯度SGD (Stochastic Gradient Descent Method)窗口太多,迭代一輪太慢隨機(jī)梯度下降(SGD):在每一個(gè)窗口計(jì)算完畢后更新所有的參數(shù),,,CB

21、OW+HS (Gradient Ascent Method),SGD (Stochastic Gradient Descent Method)隨機(jī)梯度下降(SGD):在每一個(gè)窗口計(jì)算完畢后更新所有的參數(shù)但是在每一個(gè)窗口里,我們僅有2c-1個(gè)詞,這樣的話要更新的參數(shù)非常稀疏,解決方法保留詞向量的哈希值*更新詞嵌入矩陣L和L′的固定列如果你有上百萬(wàn)個(gè)詞向量并且在做分布式訓(xùn)練的話就不需要發(fā)送大量的更新信息了,,,CBOW+HS (

22、Gradient Ascent Method),theta update (theta gradient)word_vector update (word_vector gradient),,,CBOW+HS (hierarchical),No hierarchical structure輸出層每一個(gè)詞都算一遍,時(shí)間復(fù)雜度是O(|V|)Binary treeO(log2(|V|)),,,CBOW+HS (softma

23、x),softmaxsoftmax函數(shù)是logistic(sigmoid)函數(shù)的推廣sigmoid函數(shù)只能分兩類(lèi),而softmax能分多類(lèi)如果某一個(gè)z_j大過(guò)其他z,那么softmax的分量就逼近于1,其他就逼近于0,,,Skip-gram + HS,輸入層=投影層輸出層仍為二叉樹(shù)優(yōu)化目標(biāo)轉(zhuǎn)化每個(gè)詞概率相乘求導(dǎo)過(guò)程類(lèi)似CBOW+HS,,,Negative Sampling,Negative Sampling

24、(簡(jiǎn)稱(chēng)NEG)理論支撐Noise Contrastive Estimation(NCE)用于提高訓(xùn)練速度、改善詞向量質(zhì)量Hierarchical softmax的替代版本采用隨機(jī)負(fù)采樣替代tree structure,,,Negative Sampling,Negative Sampling 中的 Negative Sample?以CBOW為例已知Context(w) 和 詞w正樣本為 詞w負(fù)樣本為 除去詞w之外的所有詞

25、Negative Sampling的依據(jù)負(fù)樣本太多了高頻詞更易被采樣帶權(quán)采樣問(wèn)題*,,,CBOW + Negative Sampling,約定:上下文Context(w) 和 詞w,優(yōu)化目標(biāo)其中i.e.增大正樣本概率(前半部分)減少負(fù)樣本概率(后半部分)求導(dǎo)、更新參數(shù)略,,,Skip-gram + Negative Sampling,優(yōu)化目標(biāo)其中i.e.同樣,增大正樣本概率(前半部分)減少負(fù)

26、樣本概率(后半部分)求導(dǎo)、更新參數(shù)略,,,詞向量評(píng)價(jià)(翻譯版),Intrinsic在一個(gè)特定的子任務(wù)(后幾頁(yè))中進(jìn)行評(píng)測(cè)計(jì)算迅速有助于理解相關(guān)的系統(tǒng)不太清楚是否有助于真實(shí)任務(wù)除非和實(shí)際的NLP任務(wù)的相關(guān)性已經(jīng)建立起來(lái)Extrinsic 在一個(gè)真實(shí)任務(wù)中進(jìn)行評(píng)測(cè)需要花很長(zhǎng)的實(shí)際來(lái)計(jì)算精度不太清楚是否是這個(gè)子系統(tǒng)或者其他子系統(tǒng)引起的問(wèn)題如果用這個(gè)子系統(tǒng)替換原有的系統(tǒng)后獲得精度提升–>有效(Winning!),,,詞

27、向量評(píng)價(jià) (Intrinsic - Word Vector Analogies),通過(guò)一些語(yǔ)義或語(yǔ)法類(lèi)比問(wèn)題上的余弦相似度距離的表現(xiàn)來(lái)評(píng)測(cè)詞向量問(wèn)題:如果信息符合但不是線性的怎么辦?,,,詞向量評(píng)價(jià) (Intrinsic -Semantic),句法理論評(píng)價(jià),,,詞向量評(píng)價(jià) (Intrinsic - Syntactic),,,,詞向量評(píng)價(jià) (Intrinsic - Sem. & Syn.),,,,詞向量評(píng)價(jià) (Sem. &am

28、p; Syn. using GloVe),,非對(duì)稱(chēng)上下文(僅有左側(cè)的單詞)并不是很好最佳的向量維度:300左右,之后變化比較輕微對(duì)于GloVe向量來(lái)說(shuō)最佳的窗口長(zhǎng)度是8,,,詞向量評(píng)價(jià) (Sem. & Syn. using GloVe),,訓(xùn)練的時(shí)間對(duì)于GloVe來(lái)說(shuō)有幫助Word2vec不一定,,,詞向量評(píng)價(jià) (Sem. & Syn. using GloVe),,訓(xùn)練數(shù)據(jù)Wiki比新聞?wù)Z料更相關(guān),,,如何應(yīng)對(duì)

29、歧義問(wèn)題 (好像有點(diǎn)跑題),,我們希望一個(gè)詞向量能捕獲所有的語(yǔ)義信息(例如run即是noun也是verb),但是這樣的話詞向量會(huì)被拉向兩個(gè)方向?qū)υ~窗口進(jìn)行聚類(lèi),并對(duì)每個(gè)單詞詞保留聚類(lèi)標(biāo)簽,例如bank1, bank2等,,,如何應(yīng)對(duì)歧義問(wèn)題 (好像有點(diǎn)跑題),,,,,詞向量評(píng)價(jià) (Intrinsic - correlation),,,,詞向量評(píng)價(jià) (Extrinsic),,任何詞向量可以輔助的NLP任務(wù)越來(lái)越多的領(lǐng)域

30、,,,簡(jiǎn)單的單詞的分類(lèi)問(wèn)題 (原PPT亂入),,從深度學(xué)習(xí)的詞向量中最大的獲益是什么?*有能力對(duì)單詞進(jìn)行精確的分類(lèi)國(guó)家類(lèi)的單詞可以聚和到一起因此可以通過(guò)詞向量將地名類(lèi)的單詞區(qū)分出來(lái)可以在其他的任務(wù)中將單詞的任意信息融合進(jìn)來(lái)可以將情感分析問(wèn)題映射到單詞分類(lèi)中在語(yǔ)料庫(kù)中尋找最具代表性的正/負(fù)例單詞,,,分類(lèi)問(wèn)題 引出的 softmax 分類(lèi)(1),,softmax分類(lèi)在給定詞向量x的情況下獲得y類(lèi)的概率,,,分類(lèi)問(wèn)題 引出的

31、softmax 分類(lèi)(2),,損失函數(shù) (Loss function) 代價(jià)函數(shù) (Cost function)目標(biāo)函數(shù) (Objective function)Softmax的損失(Loss): 交叉熵(Cross Entropy)假設(shè)分布是:p = [0,…,0,1,0,…0], 對(duì)應(yīng)計(jì)算的概率分布是q交叉熵,可以寫(xiě)成熵和兩個(gè)分布的KL散度之和,,,簡(jiǎn)單的單詞的分類(lèi)問(wèn)題,,例子:情感分析兩個(gè)選擇:方案1:僅僅訓(xùn)練so

32、ftmax權(quán)重W方案2:同時(shí)訓(xùn)練詞向量問(wèn)題:訓(xùn)練詞向量的優(yōu)點(diǎn)和缺點(diǎn)是什么Pro: 更好的適應(yīng)訓(xùn)練數(shù)據(jù)Con: 更差的泛化能力,,,簡(jiǎn)單的單詞的分類(lèi)問(wèn)題 -訓(xùn)練的詞向量的情感分享可視化,,,FunEnjoyableWorthRightBlarblar Blarblardullboring,,,最后:詞向量的應(yīng)用匯總,,NLP任務(wù)挖掘詞之間的關(guān)系,word anal

33、ogy,譬如同義詞、上位詞將詞向量作為特征應(yīng)用到其他機(jī)器學(xué)習(xí)任務(wù)中,例如作為文本分類(lèi)的feature,NER、CHK等任務(wù)機(jī)器翻譯Relational extractionConnecting images and sentences,image understanding非NLP任務(wù)將qq群作為doc,用戶(hù)作為word,訓(xùn)練user distributed representation,挖掘相似user將query se

34、ssion作為doc,query作為word,訓(xùn)練query distributed representation,挖掘相似query將不同用戶(hù)點(diǎn)擊行為作為doc,單個(gè)點(diǎn)擊作為word,訓(xùn)練product distributed representation,挖掘相似product,,,參考文獻(xiàn)(按照PPT頁(yè)面順序),Socher,CS224d Slides fandywang,斯坦福大學(xué)自然語(yǔ)言處理 Language Modeli

35、nglicstar,Deep Learning in NLP (一)詞向量和語(yǔ)言模型falao_beiliu,深度學(xué)習(xí)word2vec筆記hisen,word2vec傻瓜剖析Mikolov,word2vec source codeshujun_deng,Deep Learning實(shí)戰(zhàn)之word2vec @網(wǎng)易有道皮果提,word2vec 中的數(shù)學(xué)原理詳解楊超,Google 開(kāi)源項(xiàng)目 word2vec 的分析?@知乎火光搖

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論