※ 本文為 MindOcean 轉寄自 ptt.cc 更新時間: 2020-01-01 16:44:56
看板 Gossiping
作者 標題 [新聞] 自然語言處理標竿測試,百度打敗微軟、Go
時間 Wed Jan 1 14:39:27 2020
自然語言處理標竿測試,百度打敗微軟、Google
百度的預訓練語言模型ERNIE,在GLUE平台一次16項自然語言處理測試中拿下第一,表現
優於Google、微軟和卡內基美隆大學
iThome 文/林妍溱 | 2020-01-01發表
在最近一次自然語言處理GLUE標竿測試中,中國網路業者百度的AI預訓練語言模型達到
90.1分,超越Google、微軟和卡內基美隆大學登上榜首。
GLUE(General Language Understanding Evaluation)是知名的自然語言理解(NLU)多
任務標竿測試和分析平台,包含9項測試,像是聽取句子中的人名和組織名,或是聽句子
中的同音異形字等等。在最近一次16項自然語言處理測試中,百度的預訓練(
任務標竿測試和分析平台,包含9項測試,像是聽取句子中的人名和組織名,或是聽句子
中的同音異形字等等。在最近一次16項自然語言處理測試中,百度的預訓練(
pre-training)語言模型ERNIE拿到90.1分居冠。
其次為微軟的MT-DNN-SMART(89.9)及Google T5(89.7)。阿里巴巴的ALICE DAMO NLP
和卡內基美隆大學的XLNet以89.5 同列第4名,臉書的RoBERTa則名列第8。微軟另二個模
型(FreeRoBERT MT-DNN –ensemble)也擠進前十。GLUE真人測試基準得分為87.1分(第
11名)。
和卡內基美隆大學的XLNet以89.5 同列第4名,臉書的RoBERTa則名列第8。微軟另二個模
型(FreeRoBERT MT-DNN –ensemble)也擠進前十。GLUE真人測試基準得分為87.1分(第
11名)。
百度去年推出的ERNIE (Enhanced Representation through kNowledge IntEgration)
模型是一種連續型預訓練框架,經由連續給予模型多任務學習(multi-task learning)
方法,每當引入新任務時,該框架可在學習該任務的同時不遺忘之前學過的資訊,達到漸
進式學習與建構的目的。百度今年初推出ERNIE 1.0,7月再升級為2.0。
方法,每當引入新任務時,該框架可在學習該任務的同時不遺忘之前學過的資訊,達到漸
進式學習與建構的目的。百度今年初推出ERNIE 1.0,7月再升級為2.0。
百度的ERNIE是從Google BERT獲得靈感(兩者都是取自「芝麻街」的主角名字)。BERT利
用名為遮罩(masking)的技巧,隨機隱藏文句中15%的字再試圖預測剩下的字。這種方法
大幅推升自然語言處理的能力。但BERT主要是基於英文。百度則根據中、英文的差異,為
ERNIE模型加入中文需要的特有演算法。
用名為遮罩(masking)的技巧,隨機隱藏文句中15%的字再試圖預測剩下的字。這種方法
大幅推升自然語言處理的能力。但BERT主要是基於英文。百度則根據中、英文的差異,為
ERNIE模型加入中文需要的特有演算法。
在英文之中每個字都有獨立意義。例如波士頓(Boston)、美國(America)。但在中文
,如果抽出「波」或「美」獨立一個字,就完全和「波士頓」或「美國」不同意義。
百度團隊於是提出動態邊界遮罩演算法(Dynamic Boundary Masking),發展出隱藏中文
字串、而非單一字的遮罩法。這項演算法也能分辨有意義和無意義的隨機字串的不同。
ERNIE在理解中文組成,以及預測中文漏字的能力比外國模型來得強,用於中文翻譯和在
文件中汲取資訊上相當有用。
ERNIE在理解中文組成,以及預測中文漏字的能力比外國模型來得強,用於中文翻譯和在
文件中汲取資訊上相當有用。
但百度表示,他們發現ERNIE以意義為基礎的理解能力,除了中文外,理解及預測英文文
句也比用單字使用統計為基礎的模型來得好。
ERNIE預訓練技術已被用於百度多項產品,包括百度搜尋、小度音箱、資訊推薦等。百度
ERNIE 2.0的論文已被國際人工智慧頂級學術會議AAAI-2020收錄,預定明年2月7日到12日
在美國紐約舉行及發表。
ERNIE 2.0的論文已被國際人工智慧頂級學術會議AAAI-2020收錄,預定明年2月7日到12日
在美國紐約舉行及發表。
https://www.ithome.com.tw/news/135127
自然語言處理標竿測試,百度打敗微軟、Google | iThome
百度的預訓練語言模型ERNIE,在GLUE平台一次16項自然語言處理測試中拿下第一,表現優於Google、微軟和卡內基美隆大學 ...
百度的預訓練語言模型ERNIE,在GLUE平台一次16項自然語言處理測試中拿下第一,表現優於Google、微軟和卡內基美隆大學 ...
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.168.0.189 (臺灣)
※ 文章代碼(AID): #1U33wZ7A (Gossiping)
※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1577860771.A.1CA.html
→ : 厲害了 我的國1F 1.171.129.189 台灣 01/01 14:39
推 : 每天要抓13億人 誰不會進步2F 59.125.79.58 台灣 01/01 14:40
推 : 要過濾敏感內容當然強阿3F 140.114.234.41 台灣 01/01 14:40
→ : 可能背後有網軍在工人智慧吧,中國人多4F 42.73.70.173 台灣 01/01 14:41
推 : 每分每秒都在過濾分析15億人的信息 當然進步5F 36.227.17.177 台灣 01/01 14:41
推 : 天網果然厲害6F 223.138.151.234 台灣 01/01 14:42
推 : 滿厲害的7F 118.169.45.136 台灣 01/01 14:42
推 : 超英趕美 習近平棒棒8F 27.147.27.226 台灣 01/01 14:43
推 : 什麼 小熊維尼 包子應該搜尋不到東西9F 106.1.228.52 台灣 01/01 14:43
推 : 參考谷歌創造自己的東西 不愧是中國10F 114.26.144.1 台灣 01/01 14:44
→ : 偉大的發明
→ : 偉大的發明
推 : 或許AI就這樣大躍進的發展起來了 就像當初納12F 36.227.17.177 台灣 01/01 14:44
→ : 粹用集中營的人做醫學實驗帶動醫藥發展一樣
→ : 科學的進步就是要夠多的樣本數據 獨裁政府在
→ : 這點上是很有優勢的 但也能創造人類進步
→ : 粹用集中營的人做醫學實驗帶動醫藥發展一樣
→ : 科學的進步就是要夠多的樣本數據 獨裁政府在
→ : 這點上是很有優勢的 但也能創造人類進步
→ : 大部分的學術研究都是參考別人來的16F 118.169.45.136 台灣 01/01 14:44
推 : 13億小粉紅的data 給他 train17F 106.104.113.14 台灣 01/01 14:45
推 : 先跟我說64天安門算自然語言嗎?18F 220.137.0.190 台灣 01/01 14:46
→ : 吳宗憲跟支那賤畜在用而已19F 220.129.113.54 台灣 01/01 14:46
推 : 因為有特殊需求啊20F 180.176.66.120 台灣 01/01 14:48
推 : 以意義為基礎 太潮了吧21F 101.12.62.166 台灣 01/01 14:55
推 : 有需求 有數據 超穩22F 180.176.128.213 台灣 01/01 14:56
推 : 中國的網頁翻譯真的比google翻譯好很多23F 218.161.58.126 台灣 01/01 14:58
推 : 每天要監控13億人,技術當然鍊得快24F 220.132.47.96 台灣 01/01 15:00
推 : AI靠的是越多數據來training25F 123.192.177.238 台灣 01/01 15:02
推 : Over feeding?26F 1.200.207.115 台灣 01/01 15:04
→ : 新的模型感覺都跟bert好像阿 希望27F 42.76.80.57 台灣 01/01 15:06
推 : 簡單說就是百度抄Google然後修改一下28F 36.225.69.55 台灣 01/01 15:09
→ : 有些新的想法29F 42.76.80.57 台灣 01/01 15:09
→ : "獲得靈感" 講得真是客氣30F 36.225.69.55 台灣 01/01 15:09
推 : 大數據 猛ㄉ31F 36.239.124.87 台灣 01/01 15:10
推 : 不虧是專搞文字獄的國家32F 114.34.97.46 台灣 01/01 15:16
→ : 就是小成果吧 從google的成果上接著做33F 111.249.47.101 台灣 01/01 15:29
推 : 還是杜奕瑾的AI公司比較厲害36F 180.217.65.220 台灣 01/01 15:51
推 : 十四億大數據果然不是叫假的37F 220.135.23.224 台灣 01/01 15:58
推 : 65-1也能嗎38F 36.230.70.9 台灣 01/01 16:20
推 : 厲害39F 117.19.195.85 台灣 01/01 16:26
推 : 好厲害 中國的軟體業滿強的40F 149.28.243.18 美國 01/01 16:28
推 : 模型就是需要大量資料改進 中國人口41F 101.12.67.211 台灣 01/01 16:30
→ : 很適合做
→ : 很適合做
推 : 備份資料也是屌打估狗 百度就牛逼43F 1.175.4.151 台灣 01/01 16:31
--
※ 看板: Gossiping 文章推薦值: -1 目前人氣: 0 累積人氣: 217
作者 pooznn 的最新發文:
- 52F 8推 6噓
- 64F 25推 5噓
- 國民黨立委翁曉玲近日接受《日經亞洲》專訪時表示「我們是中國人」、呼籲「和平統一 」,台灣不應大規模提升國防,翁也批評「中華民國台灣」是「民進黨多年以來長期實現 所謂台獨的嘗試」。對此,綠委郭國文今( …105F 40推 15噓
- 6F 2推
- 26F 11推 6噓
點此顯示更多發文記錄
回列表(←)
分享