※ 本文為 MindOcean 轉寄自 ptt.cc 更新時間: 2019-02-02 20:33:03
看板 Gossiping
作者 標題 [新聞] 突破長篇上下文理解挑戰,Google發布全新
時間 Sat Feb 2 17:53:08 2019
1.媒體來源:
iThome
2.完整新聞標題:
突破長篇上下文理解挑戰,Google發布全新自然語言理解架構Transformer-XL
3.完整新聞內文:
Transformer-XL利用片段式遞迴機制搭配相對位置編碼設計,突破過去NLU模型對長篇文
章理解的問題
文/何維涓 | 2019-02-02發表
https://i.imgur.com/65Pd3DA.png
Google近日針對超越固定長度的上下文資料,發布全新的NLU架構Transformer-XL,並將
Transformer-XL於GitHub上開源釋出,包含研究論文中用到的預先訓練的模型、超參數和
程式碼。現今的自然語言理解模型有一定的限制,由於上下文之間的依賴性,導致既有的
自然語言理解模型,在面對篇幅較長的上下文理解時,效果有限。
Transformer-XL於GitHub上開源釋出,包含研究論文中用到的預先訓練的模型、超參數和
程式碼。現今的自然語言理解模型有一定的限制,由於上下文之間的依賴性,導致既有的
自然語言理解模型,在面對篇幅較長的上下文理解時,效果有限。
在自然語言理解研究中,通常必須使用前面的片段資訊來了解當前的訊息,稱之為長期依
賴性(long-range dependence),簡單來說,就是為了正確地理解一篇文章,有時候需
要參考數千個字之前的一個單詞或是一個句子,大多數的研究人員用神經網路處理這項問
題時,會用門控循環網路(Gating-based RNNs)和梯度裁剪(gradient clipping )技
術,來改善長期依賴模型,但是還是不足以完全解決這項問題。
賴性(long-range dependence),簡單來說,就是為了正確地理解一篇文章,有時候需
要參考數千個字之前的一個單詞或是一個句子,大多數的研究人員用神經網路處理這項問
題時,會用門控循環網路(Gating-based RNNs)和梯度裁剪(gradient clipping )技
術,來改善長期依賴模型,但是還是不足以完全解決這項問題。
目前最好的方法是透過Google於2017年推出的NLU神經網路架構Transformers,
Transformers允許數據元(data unit)之間直接連接的特性,能夠有效地擷取長期依賴
性,但是在語言建模中,Transformers目前實現的方法適用於固定長度的文章,舉例來說
,一個長篇文章會被切成由幾百個字符組成的固定長度的片段,每個片段再分開處理,而
這樣的方法有2大限制,一是該演算法無法為超過固定長度的文字篇幅建立依賴模型,二
是裁切片段的程式無法識別句子的邊界,導致上下文破碎化而難以優化,這個問題就算對
長期依賴性不強的較短序列而言,也是非常麻煩。
性,但是在語言建模中,Transformers目前實現的方法適用於固定長度的文章,舉例來說
,一個長篇文章會被切成由幾百個字符組成的固定長度的片段,每個片段再分開處理,而
這樣的方法有2大限制,一是該演算法無法為超過固定長度的文字篇幅建立依賴模型,二
是裁切片段的程式無法識別句子的邊界,導致上下文破碎化而難以優化,這個問題就算對
長期依賴性不強的較短序列而言,也是非常麻煩。
為了解決上述的限制,Google針對超越固定長度的上下文資料,發布了全新的NLU架構
Transformer-XL,該架構包含2項技術: 片段式遞迴機制(segment-level recurrence
mechanism)和相對位置編碼設計(relative positional encoding scheme)。
Transformer-XL,該架構包含2項技術: 片段式遞迴機制(segment-level recurrence
mechanism)和相對位置編碼設計(relative positional encoding scheme)。
片段式遞迴機制是在訓練的過程中,將前一個片段的計算結果修復並保存,以利在下一個
新的片段執行時重新利用,由於上下文資訊可以在片段的邊界中流動,神經網路深度有幾
層,這項額外的連接機制就能為依賴關係的長度提升幾倍,除此之外,遞迴的機制也解決
了上下文破碎化的問題,提供新的片段上下文必要的標註。
新的片段執行時重新利用,由於上下文資訊可以在片段的邊界中流動,神經網路深度有幾
層,這項額外的連接機制就能為依賴關係的長度提升幾倍,除此之外,遞迴的機制也解決
了上下文破碎化的問題,提供新的片段上下文必要的標註。
而當系統要重複使用上一個片段的結果時,必須將上一個片段的編碼位置,整合至新的片
段位置編碼中,這樣的操作會導致位置編碼不連貫,為了實現片段式遞迴機制,因此需要
搭配相對位置編碼的設計,與其他相對位置編碼設計不同的是,Google是用可學習的轉換
固定向量,如此一來,該相對位置編碼設計能夠更廣泛地適用於較長的序列中。
段位置編碼中,這樣的操作會導致位置編碼不連貫,為了實現片段式遞迴機制,因此需要
搭配相對位置編碼的設計,與其他相對位置編碼設計不同的是,Google是用可學習的轉換
固定向量,如此一來,該相對位置編碼設計能夠更廣泛地適用於較長的序列中。
Google研究團隊實驗發現,Transformer-XL比vanilla Transformer模型更能有效地理解
更長的上下文,且不需要重新計算就能處理新片段的資料,因此大幅提升自然語言理解的
效能,Google認為,該研究成果可以改善語言模型預先訓練的方法、創造逼真的長篇文章
,也能協助影像和語音領域的應用開發。
更長的上下文,且不需要重新計算就能處理新片段的資料,因此大幅提升自然語言理解的
效能,Google認為,該研究成果可以改善語言模型預先訓練的方法、創造逼真的長篇文章
,也能協助影像和語音領域的應用開發。
4.完整新聞連結 (或短網址):
https://www.ithome.com.tw/news/128609
突破長篇上下文理解挑戰,Google發布全新自然語言理解架構Transformer-XL | iThome
Transformer-XL利用片段式遞迴機制搭配相對位置編碼設計,突破過去NLU模型對長篇文章理解的問題 ...
Transformer-XL利用片段式遞迴機制搭配相對位置編碼設計,突破過去NLU模型對長篇文章理解的問題 ...
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 64.64.108.227
※ 文章代碼(AID): #1SLMY8ea (Gossiping)
※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1549101192.A.A24.html
→ : 趕快推一個免得大家以為我看不懂1F 02/02 17:53
推 : 嗯嗯跟我想的差不多2F 02/02 17:54
推 : 和我想的一樣 只是google先實做了3F 02/02 17:54
推 : 之前才想到,被孤狗先發表了4F 02/02 17:55
→ : 沒錯,跟我的理論有87%像5F 02/02 17:56
推 : 其實路還很遠很遠6F 02/02 17:57
推 : 推文臥虎藏龍 XD7F 02/02 17:57
推 : 這我妹妹昨天跟我說過8F 02/02 17:59
推 : PTT推文機器人要進化惹0.09F 02/02 18:00
推 : 這不是我小三時想出來的嗎= =10F 02/02 18:02
推 : 記住 谷歌就是天網11F 02/02 18:05
推 : 人工智能0..012F 02/02 20:05
噓 : 小時候我就聽阿嬤說過了13F 02/02 20:28
--
※ 看板: Gossiping 文章推薦值: 0 目前人氣: 0 累積人氣: 401
作者 doig 的最新發文:
- 39F 15推 3噓
- 周杰倫在大巨蛋現場 稱讚蔣萬安很給力 讓他可以成為第一個在大巨蛋開唱的藝人 Youtube影片: 周杰倫: "其實我常常經過大巨蛋 我也常常經過東區 因為那邊有個潮牌店Phan開頭的(無情工 …99F 50推 9噓
- 12F 2推 4噓
- 剛剛在抖音看到, 彭弋航昨天在桃園機場, 要回大陸的送機影片 抖音影片連結: 我從影片截了一些動圖gif 動圖2 她這次在大陸那邊也很紅 B站、抖音很多她的影片 大陸觀眾的留言 "這個讀北京 …184F 75推 30噓
- 18F 9推
點此顯示更多發文記錄
回列表(←)
分享