[新聞] 自然語言處理標竿測試，百度打敗微軟、Go - Gossiping板

首頁(home) 上頁(↑) 下頁(↓) 末頁(end)

※ 本文為 MindOcean 轉寄自 ptt.cc 更新時間: 2020-01-01 16:44:56

看板 Gossiping

作者 pooznn (我~~~是來被打臉滴!!!)
標題 [新聞] 自然語言處理標竿測試，百度打敗微軟、Go
時間 Wed Jan 1 14:39:27 2020

自然語言處理標竿測試，百度打敗微軟、Google

百度的預訓練語言模型ERNIE，在GLUE平台一次16項自然語言處理測試中拿下第一，表現
優於Google、微軟和卡內基美隆大學

iThome 文/林妍溱 | 2020-01-01發表

在最近一次自然語言處理GLUE標竿測試中，中國網路業者百度的AI預訓練語言模型達到
90.1分，超越Google、微軟和卡內基美隆大學登上榜首。

GLUE（General Language Understanding Evaluation）是知名的自然語言理解（NLU）多
任務標竿測試和分析平台，包含9項測試，像是聽取句子中的人名和組織名，或是聽句子
中的同音異形字等等。在最近一次16項自然語言處理測試中，百度的預訓練（

pre-training）語言模型ERNIE拿到90.1分居冠。

其次為微軟的MT-DNN-SMART（89.9）及Google T5（89.7）。阿里巴巴的ALICE DAMO NLP
和卡內基美隆大學的XLNet以89.5 同列第4名，臉書的RoBERTa則名列第8。微軟另二個模
型（FreeRoBERT MT-DNN –ensemble）也擠進前十。GLUE真人測試基準得分為87.1分（第
11名）。

百度去年推出的ERNIE （Enhanced Representation through kNowledge IntEgration）

模型是一種連續型預訓練框架，經由連續給予模型多任務學習（multi-task learning）
方法，每當引入新任務時，該框架可在學習該任務的同時不遺忘之前學過的資訊，達到漸
進式學習與建構的目的。百度今年初推出ERNIE 1.0，7月再升級為2.0。

百度的ERNIE是從Google BERT獲得靈感（兩者都是取自「芝麻街」的主角名字）。BERT利
用名為遮罩（masking）的技巧，隨機隱藏文句中15%的字再試圖預測剩下的字。這種方法
大幅推升自然語言處理的能力。但BERT主要是基於英文。百度則根據中、英文的差異，為
ERNIE模型加入中文需要的特有演算法。

在英文之中每個字都有獨立意義。例如波士頓（Boston）、美國（America）。但在中文
，如果抽出「波」或「美」獨立一個字，就完全和「波士頓」或「美國」不同意義。

百度團隊於是提出動態邊界遮罩演算法（Dynamic Boundary Masking），發展出隱藏中文

字串、而非單一字的遮罩法。這項演算法也能分辨有意義和無意義的隨機字串的不同。
ERNIE在理解中文組成，以及預測中文漏字的能力比外國模型來得強，用於中文翻譯和在
文件中汲取資訊上相當有用。

但百度表示，他們發現ERNIE以意義為基礎的理解能力，除了中文外，理解及預測英文文
句也比用單字使用統計為基礎的模型來得好。

ERNIE預訓練技術已被用於百度多項產品，包括百度搜尋、小度音箱、資訊推薦等。百度
ERNIE 2.0的論文已被國際人工智慧頂級學術會議AAAI-2020收錄，預定明年2月7日到12日
在美國紐約舉行及發表。

https://www.ithome.com.tw/news/135127

自然語言處理標竿測試，百度打敗微軟、Google | iThome

百度的預訓練語言模型ERNIE，在GLUE平台一次16項自然語言處理測試中拿下第一，表現優於Google、微軟和卡內基美隆大學 ...

--

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.168.0.189 (臺灣)
※ 文章代碼(AID): #1U33wZ7A (Gossiping)
※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1577860771.A.1CA.html

→ Yude0109: 厲害了我的國1F 1.171.129.189 台灣 01/01 14:39

推 STi2011: 每天要抓13億人誰不會進步2F 59.125.79.58 台灣 01/01 14:40

推 jack168168tw: 要過濾敏感內容當然強阿3F 140.114.234.41 台灣 01/01 14:40

→ neverfly: 可能背後有網軍在工人智慧吧，中國人多4F 42.73.70.173 台灣 01/01 14:41

推 Ilat: 每分每秒都在過濾分析15億人的信息當然進步5F 36.227.17.177 台灣 01/01 14:41

推 whathefuc: 天網果然厲害6F 223.138.151.234 台灣 01/01 14:42

推 shadow0326: 滿厲害的7F 118.169.45.136 台灣 01/01 14:42

推 vinex518: 超英趕美習近平棒棒8F 27.147.27.226 台灣 01/01 14:43

推 Chia2323: 什麼小熊維尼包子應該搜尋不到東西9F 106.1.228.52 台灣 01/01 14:43

推 makimakimaki: 參考谷歌創造自己的東西不愧是中國10F 114.26.144.1 台灣 01/01 14:44
→ makimakimaki: 偉大的發明

推 Ilat: 或許AI就這樣大躍進的發展起來了就像當初納12F 36.227.17.177 台灣 01/01 14:44
→ Ilat: 粹用集中營的人做醫學實驗帶動醫藥發展一樣
→ Ilat: 科學的進步就是要夠多的樣本數據獨裁政府在
→ Ilat: 這點上是很有優勢的但也能創造人類進步

→ shadow0326: 大部分的學術研究都是參考別人來的16F 118.169.45.136 台灣 01/01 14:44

推 BlowjobFace: 13億小粉紅的data 給他 train17F 106.104.113.14 台灣 01/01 14:45

推 SONYPS5: 先跟我說64天安門算自然語言嗎？18F 220.137.0.190 台灣 01/01 14:46

→ webster1112: 吳宗憲跟支那賤畜在用而已19F 220.129.113.54 台灣 01/01 14:46

推 lpbrother: 因為有特殊需求啊20F 180.176.66.120 台灣 01/01 14:48

推 p2p8ppp: 以意義為基礎太潮了吧21F 101.12.62.166 台灣 01/01 14:55

推 bradyhau106: 有需求有數據超穩22F 180.176.128.213 台灣 01/01 14:56

推 chu630: 中國的網頁翻譯真的比google翻譯好很多23F 218.161.58.126 台灣 01/01 14:58

推 legendrl: 每天要監控13億人，技術當然鍊得快24F 220.132.47.96 台灣 01/01 15:00

推 alcpeon911: AI靠的是越多數據來training25F 123.192.177.238 台灣 01/01 15:02

推 roygb61215: Over feeding?26F 1.200.207.115 台灣 01/01 15:04

→ tomlin121283: 新的模型感覺都跟bert好像阿希望27F 42.76.80.57 台灣 01/01 15:06

推 BabySatan: 簡單說就是百度抄Google然後修改一下28F 36.225.69.55 台灣 01/01 15:09

→ tomlin121283: 有些新的想法29F 42.76.80.57 台灣 01/01 15:09

→ BabySatan: "獲得靈感" 講得真是客氣30F 36.225.69.55 台灣 01/01 15:09

推 ko234488: 大數據猛ㄉ31F 36.239.124.87 台灣 01/01 15:10

推 yanis: 不虧是專搞文字獄的國家32F 114.34.97.46 台灣 01/01 15:16

→ Kazimir: 就是小成果吧從google的成果上接著做33F 111.249.47.101 台灣 01/01 15:29

推 coutji3184: 13億筆 data 還是ground truth34F 123.194.129.166 台灣 01/01 15:29
→ coutji3184: https://i.imgur.com/n5Tysgm.jpg

推 aaaba: 還是杜奕瑾的AI公司比較厲害36F 180.217.65.220 台灣 01/01 15:51

推 leon1757tw: 十四億大數據果然不是叫假的37F 220.135.23.224 台灣 01/01 15:58

推 hcwang1126: 65-1也能嗎38F 36.230.70.9 台灣 01/01 16:20

推 bobsonlin: 厲害39F 117.19.195.85 台灣 01/01 16:26

推 feliz5566: 好厲害中國的軟體業滿強的40F 149.28.243.18 美國 01/01 16:28

推 Tsubasa1008: 模型就是需要大量資料改進中國人口41F 101.12.67.211 台灣 01/01 16:30
→ Tsubasa1008: 很適合做

推 degneva: 備份資料也是屌打估狗百度就牛逼43F 1.175.4.151 台灣 01/01 16:31

--

※ 看板: Gossiping　文章推薦值: -1 目前人氣: 0 累積人氣: 217　

作者 pooznn 的最新發文:

+9 [新聞] 桃園副市長家人被詐1500萬幕後黑手竹聯幫信堂幹部.律師14人落網 - Gossiping 板

作者: pooznn 111.240.20.75 (台灣) 2025-02-19 23:06:20

41F 13推 4噓
+10 [新聞] 妙瓦底36詐騙集團「為大陸人經營」陸官方 - Gossiping 板

作者: pooznn 111.240.2.246 (台灣) 2025-01-31 00:30:31

26F 10推
+2 [新聞] 唐從聖北京摔落舞台！看醫生「收天價帳」 - Gossiping 板

作者: pooznn 61.228.47.190 (台灣) 2024-10-19 23:59:33

52F 8推 6噓
+20 [新聞] 又砍小學生！廣州男「小學門口瘋砍」致3傷含2童 - Gossiping 板

作者: pooznn 111.240.38.59 (台灣) 2024-10-09 14:53:23

64F 25推 5噓
+25 [新聞] 翁曉玲專訪自稱中國人、籲「和平統一」 - Gossiping 板

作者: pooznn 61.228.36.71 (台灣) 2024-10-04 13:01:58

國民黨立委翁曉玲近日接受《日經亞洲》專訪時表示「我們是中國人」、呼籲「和平統一」，台灣不應大規模提升國防，翁也批評「中華民國台灣」是「民進黨多年以來長期實現所謂台獨的嘗試」。對此，綠委郭國文今（ …

105F 40推 15噓

點此顯示更多發文記錄

分享網址: 複製

DispBBS

1樓時間: 2020-01-01 20:35:05 (台灣)

瞎

Uggyy

　 01-01 20:35 TW

這麼厲害 
幹嘛一大堆人翻牆跑去使用其他品牌？

回到看板(←)《Gossiping》

r)回覆 e)編輯 d)刪除 M)收藏 ^x)轉錄同主題: =)首篇 [)上篇 ])下篇

回列表(←) 分享

看板名稱：確定(Enter) 取消(Esc) 搜尋(Space)

查詢帳號：確定(Enter) 取消(Esc) 搜尋(Space)

搜尋: m)m文 b)進板 c)未分類 a)作者 /)標題 q)取消？[q]

搜尋：送出(Enter) 取消(Esc)

回覆文章至: f)看板 m)作者信箱 b)兩者皆是 q)取消？[f]

要引用原文嗎？ y)引用原文 n)不引用 a)全部回覆 r)複製原文 q)取消？[y]

轉錄本文章於看板: 1)使用連結 2)使用複製 q)取消？[1]

轉寄至站內信箱於使用者: 確定(Enter) 取消(Esc)

修改文章標題為: 確定(Enter) 取消(Esc)

修改文章標題為: 確定(Enter) 取消(Esc) 全部(a)

確定要刪除這篇文章？(可按大U救回) 確定(Enter) 取消(Esc)

刪除理由:

確定(Enter) 取消(Esc)

加到這個分類：確定(Enter) 下一層(→) 回上層(←) 取消(Esc)

你覺得這篇文章: 1)真讚 2)真瞎 q)取消？[1] (再選一次即可收回)

你覺得這篇文章: 1)值得推薦 2)表示反對 3)單純註解 q)取消？[3]

guest

顯示圖片預覽(Enter) 取消(Esc)

上傳圖片

按ctrl+Enter可輸入下一行。

guest

確定要送出？確定(Enter) 取消(Esc) 繼續(e)

▏▎▍▌▋▊▉ 請按任意鍵繼續 ▉

服務條款隱私權條款聯絡站長 FB專頁