[新聞] 全球首款「繁體中文」AI 大型語言模型登場！聯發科攜手中研院打造 - Stock板

作者 forb9823018 (風過無痕)
標題 [新聞] 全球首款「繁體中文」AI 大型語言模型
時間 Wed May 3 12:46:09 2023

-------------------------------發文提醒----------------------------------
1.發文前請先詳閱[新聞]分類發文規範，未依規範發文將受處份。
2.連結過長請善用 https://bit.ly/ 等縮網址服務，連結不能點擊者板規1-2-2處份。
3.心得/評論請盡量充實，心得過短或濫竽充數將以板規 1-2-3、4-4 水桶處份。
4.發文請依照格式文章標明段落，不符合格式者依4-1刪文處分。
------------------------ 按ctrl+y 可刪除以上內容。 ----------------------

原文標題：

※請勿刪減原文標題

全球首款「繁體中文」AI 大型語言模型登場！聯發科攜手中研院打造
原文連結：

※網址超過一行過長請用縮網址工具

https://3c.ltn.com.tw/news/53050

全球首款「繁體中文」AI 大型語言模型登場！聯發科攜手中研院打造 - 自由電子報 3C科技

不讓 GPT-4 專美於前，身為IC設計龍頭的聯發科於官網宣布，旗下來自前瞻技術研究單位的「MediaTek Research」聯發創新基地，近幾年來以致力深耕人工智慧技術領域為主要核心，日前已成功開發出全球首款以繁體中文打造、具備增強AI生成訓練...... ...

發布時間：
2023/04/30 18:52

※請以原文網頁/報紙之發布時間為準

記者署名：

劉惠琴

※原文無記載者得留空

原文內容：

美國新創科技公司 OpenAI 以基於 AI 生成式打造的強大語言模型 GPT-4，透過大量的語言
材料與資料訓練等技術，讓會說人話的「對話式」AI聊天機器人ChatGPT，從去年底開始火
速於全球掀起風靡熱潮後，不但可輸入文字進行問答，現在還能給出圖片讓AI去解讀，甚至
還能要求AI生成所需要的圖片範例。與此同時，各大科技巨頭廠商，也爭相投入這波創新AI
技術競賽的浪潮。

不讓 GPT-4 專美於前，身為IC設計龍頭的聯發科於官網宣布，旗下來自前瞻技術研究單位
的「MediaTek Research」聯發創新基地，近幾年來以致力深耕人工智慧技術領域為主要核
心，日前已成功開發出全球首款以繁體中文打造、具備增強AI生成訓練的大型語言模型「BL
OOM-zh」，並公開釋出該原始碼的測試模型提供外界下載，除能直接輸入繁體中文進行問答
或生成文案之外，同時兼具支援英文等多語言能力。

由於現有多數開放原始碼所釋出的大型語言訓練模型，主流普遍大都傾向以英文作為首要語
言與主要優化版本，相較下，以繁體中文所打造的預生成式AI語言訓練模型，則是較為少見
，且資料量也相對不足。

有鑑於此，聯發創新基地於去年五月就已攜手與中研院、國家研究院展開合作計畫，透過三
方共同組成的AI研究團隊，以打造出全球首款使用繁體中文作為主要對象的大型語言模型「
BLOOM-zh」為主要訴求，欲藉此讓與繁體中文相關的AI人工智慧技術、研究與應用，能更進
一步地加速普及化。

聯發科表示，聯發創新基地的AI研究團隊，於今年成功開發的首個繁體中文「BLOOM-zh」大
型語言模型，主要運用兩大關鍵技術，其一，就是使用能理解包括中文、英文、法文與越南
文在內、共計46種語言的「BLOOM」大型語言模型，以「BLOOM」既有具備的繁體中文模型與
英文模型作為開發基準。

其二，則是另外擴展涵蓋新聞、書籍、教育、百科全書與口語化等多個領域文章，包含中文
與英文共計74億個參數值，作為預訓練模型。

同時，並使用來自國家教育研究院提供的大量高品質繁體中文作為主要訓練材料，加上聯發
科制訂以符合國際標準繁體中文評量指標的硬體性能訓練環境，與收集近期較新語言材料，
以訓練模型能具備有更易於讀懂使用者輸入指令的高效率執行能力。還有，來自中研院針對
該語言模型生成的文字，進行自動偵測與評估修正，避免生成的文字內容具有特定偏見或敵
意等不適內容。

BLOOM-zh 繁體中文大型語言模型釋出開源，點下列網址可前往試用、下載
https://huggingface.co/ckip-joint

ckip-joint (CKIP Joint Research Group)

Large Language Model ...

另，補充說明的是，上述內文提到的「BLOOM」模型，是由總部位於紐約的AI新創公司 Hugg
ing Face，集結全球60個國家、逾一千多位研究人員、於去年2022年推出「BigScience」開
源專案項目的成果，「BLOOM」大型語言模型，具備高達1,760億個參數值，並擁有理解46種
語言與13種程式語言的能力。

心得/評論：

※必需填寫滿30字，無意義者板規處分

原來聯發科也有AI團隊，一直以為只有做硬體，少數軟體部份也是EDA之類的輔助軟體，沒
想到已經有在做中文AI了。繁中版且不是中國那種擋住一堆敏感詞版本，最近應該很多人會
試用

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 101.137.163.49 (臺灣)
※ 作者: forb9823018 2023-05-03 12:46:09
※ 文章代碼(AID): #1aKUSLRd (Stock)
※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1683089173.A.6E7.html

推 pponywong: 國外一開源國內就自研
該不會model有參考GPT-2.0 open source 吧1F 05/03 12:46

推 abccbaandy: 不都這樣？對岸早就一堆"自研"了XD3F 05/03 12:51

噓 leo921080931: 超廢4F 05/03 12:51

推 ethan0419: 自研cc5F 05/03 12:52

推 as80110680: 不能畫色圖的AI我可是不要的6F 05/03 12:53

推 kmark1120: 如果是gpt-2開源碼做出來的對岸一堆了人家不公開的已經做到4代了不知道能力差ㄅ別多少7F 05/03 12:53

→ faelone: 發哥之前還成立元宇宙辦公室呢，真的蠻愛顧股價的9F 05/03 12:54

推 Archier: 瑟瑟10F 05/03 12:55

推 capssan: 這沒辦法畫圖吧，我看連生成色色文都不行11F 05/03 12:57

推 NEX4036: 明天漲停不要不信。12F 05/03 12:57

→ capssan: 而且學習的內容居然還包含新聞？..真期待會教出啥玩意兒13F 05/03 12:58

噓 stationary: 發哥也懂AI?那就只能噴了15F 05/03 12:58

推 BaGaJohn5566: 要重返農藥了嗎16F 05/03 13:04

→ is1128: 去玩玩demo吧，我只能說廢到笑17F 05/03 13:07

推 FlynnZhang: \發哥/\發哥/18F 05/03 13:10

→ lpmybig: 發糕重返農藥上看一千19F 05/03 13:13

噓 qwas65166516: 一樓不懂裝懂內文就說是BLOOM基底了別只會酸20F 05/03 13:15

→ uv5566: 沾邊就想炒下一個元元宙21F 05/03 13:16

→ qwas65166516: 國內有大廠願意投資就值得鼓勵了22F 05/03 13:16

推 cage820518: 發哥本業沒未來了是嗎？搞這個東東23F 05/03 13:18

推 GooglePixel: 配合政府發展計劃領個打工費而已24F 05/03 13:19

噓 qwe78971: 還以為是自研結果是拷貝別人的拿來改== 這樣我單人就可以做了發哥有沒有考慮高薪聘請25F 05/03 13:19

→ sdhpipt: 之後會講一堆廣東話吧27F 05/03 13:20

推 KadourZiani: 華語首家線上____上線囉28F 05/03 13:20

推 Albert0912: AI炒起來29F 05/03 13:21

→ littenVenus: AI發糕 AI肉鬆好ㄘ嗎30F 05/03 13:23

噓 dergnj: 不過做繁體字沒前途就是了31F 05/03 13:25

→ alex780312: 大語言模型搞到剩繁中...32F 05/03 13:27

推 may0723: 台灣首家線上AI上線啦！33F 05/03 13:29

→ l024bytes: 等等這不是it 就有在教學34F 05/03 13:32

→ starport: 粉紅：乳為什麼不是簡體35F 05/03 13:33

推 weiyuhsi: 阿難的就是預訓練模型，從Bert開始，語言一直都不是太大的障礙，對模型來說啥語言都差不多，好的預訓練模型隨便tuning一下就可以在其他語言上有很好的表現。
不過有大方的說自己套什麼預訓練模型，誠實給讚36F 05/03 13:34

推 intointo: 訓練資料來自？41F 05/03 13:36

推 derekhsu: 這個用開源模型做出來的懶叫比雞腿喔42F 05/03 13:43

推 observer0117: chatgpt用reddit訓練，bloom-zh該不會用ptt...
hugging face，會想到face hugger43F 05/03 13:47

→ janhon: 2000億大概到GPT 3.0規格吧45F 05/03 13:50

→ laechan: 跑出答案的速度超慢46F 05/03 13:50

噓 Murasaki0110: 笑死直接git clone算什麼研發47F 05/03 13:51

→ laechan: 真的懶趴比雞腿 https://i.imgur.com/z9kyC9M.jpg48F 05/03 13:52

→ JOKIC: 肥宅福音49F 05/03 13:58

推 rrroooqqq: 有ai就是噴了，管他內容是什麼！重返千金股50F 05/03 14:11

推 strlen: 你各位是多嚴格？能跑出結果來就該放鞭炮了51F 05/03 14:15

→ piece1: 試了一下....爛到不知道該說啥了!52F 05/03 14:15

噓 ggininin5566: 太神啦53F 05/03 14:24

→ onit: 傻傻的豬在風口都會飛發哥本益比這麼低就差題材54F 05/03 14:44

噓 qwe78971: 試用了一下爛到笑，工程師是不是if(最高建築)cout<<101<<Endl;這樣那找我去做就可以了55F 05/03 15:01

噓 shirleyEchi: http://i.imgur.com/HhBai7a.jpg 理解能力真差57F 05/03 15:04

推 lizardc1: 發哥上看兩千一切預告在前58F 05/03 15:13

推 tr920: 用開源軟體刻出來，大概大學專題程度59F 05/03 15:19

噓 NCCUexpert: 參數量差太多，你在幼稚園學習別人讀高中了60F 05/03 15:40

噓 lise1017: 基本上台灣搞的起來的東西都是老蔣那一幫留美回來的中國人搞的土生土長的台灣人搞出來的東西就是些小鼻子小眼睛
成不了氣候這麼說也不是台灣沒人材而是台灣的人材都不會傻呆在台灣早就出走了61F 05/03 15:43

推 ac3333: 看到工研院心就涼一半了…66F 05/03 16:41

推 OnePiecePR: 30億參數、130億 tokens 應該還沒湧現現象，如果跟前幾代能力差不多就糗大了。再觀察～67F 05/03 16:49

→ shinyi444: 爽啦打爆殘體文69F 05/03 16:54

→ DrTech: 真的是git clone等級而已。拿別人的模型，Bloomz上fine-tune而已。而且有7.7%的資料是從簡體中文直接翻成繁體中文。
模型參數只有1B-3B，10億-30億，真的是GPT-2規模而已。70F 05/03 16:55

推 thaleschou: 馬上被串去交友軟體75F 05/03 17:57

推 kalapon: 用之乎者來交談很利害嗎76F 05/03 18:00

噓 reemir: git clone:77F 05/03 18:57

推 OnePiecePR: 坦白說 transformer 我也能刻，不知道能不能上新聞。坦白說，我也用 prompt 讓 ChatGPT 產出 transformer encoder(by torch) 同時也驗證正確能執行，不知道能不能上新聞。我不叫發科、我也不姓聯。78F 05/03 19:01

推 webster1112: 用來發費雯超讚 !82F 05/03 20:24

作者 forb9823018 的最新發文:

+17 Re: [閒聊] 卞相壹：「我認為這種規則，不應該存在」 - C_Chat 板

作者: forb9823018 101.139.193.9 (台灣) 2025-01-26 16:19:38

33F 17推
+140 [新聞] 藍營《老福法》修法！敬老票「陪搭車」同享半價高鐵：恐衝擊營運 - Stock 板

作者: forb9823018 223.23.255.40 (台灣) 2025-01-02 09:03:37

我國將邁入超高齡社會，在野黨提出「老人福利法」修法，其中內容包含，超過65歲或超過 75歲長者的「必要陪伴者」，搭乘大眾運輸比照半價。對此，交通部表示，經費成本將可能由全票者負擔，恐怕會衝擊運輸業 …

443F 206推 66噓
+3 [新聞] 送葉元之「慶生賀禮」罷免連署達第一階段門檻 - BigBanciao 板

作者: forb9823018 61.231.50.25 (台灣) 2024-12-28 14:31:25

8F 3推
+50 [討論] 館長被廠商切割 - HatePolitics 板

作者: forb9823018 101.136.122.254 (台灣) 2024-12-11 18:47:59

以上看完可使用 Ctrl+y 刪除太苦了，館長！不僅沒有代言費，還讓廠商主動跳出來切割否認，代表代言打廣告不僅沒價值，甚至是負的！只要沾到邊，對品牌就是負面形象，現在館長還能找到什麼工 …

91F 54推 4噓
+36 [討論] 寒國人直播被封 - HatePolitics 板

作者: forb9823018 101.136.24.43 (台灣) 2024-12-08 08:05:38

寒國人抖音直播被封了，太苦了，錢已經不好賺了，不小心提及閩南狼被封。最近閩南狼絕對是禁詞中的禁詞，在上頭還沒有明確指令之前，肯定是先封再說，賺這一行的錢連這敏感度都沒有，這樣不太行啊 …

84F 36推

點此顯示更多發文記錄