作者 derekhsu (浪人47之華麗的天下無雙)標題 Re: [爆卦] 中央研究院詞庫小組大型語言模型時間 Mon Oct 9 12:40:01 2023
※ 引述《dean1990 (狄恩院長)》之銘言:
: 本魯也很好奇問了一些問題,
: 首先是比較基礎的:
: https://i.imgur.com/zKhx1A2.jpg
: 接著是大家都知道的:
: https://i.imgur.com/Tl8GRO3.jpg
: 再來是比較敏感一點的:
: https://i.imgur.com/Xm7bZC3.jpg
: 最後倒是令本魯比較意外:
: https://i.imgur.com/d43AJ24.jpg
: 中研院作為我國最高研究機構,
: 研究結論應該還算有公信力吧。
: ※ 引述《PekoraSakura (PekoMiko)》之銘言:
: : https://huggingface.co/spaces/ckiplab/CKIP-Llama-2-7b-chat
: : 不知道這研究案領多少錢?
: : http://i.imgur.com/tt7aKBR.jpg
: : http://i.imgur.com/SpiGuTr.jpg
: : http://i.imgur.com/kXrHsS1.jpg
: : 拿別人的成功來tune一下就可以掛名中研院......
: : 有沒有掛?
對於LLM只有這一點認知程度的話,最好不要就這樣出來帶風向會比較好,不然先去
跟陽明交大校長先去旁邊先學習一下什麼叫做LLM,不同LLM之間又有什麼差異。
第一個錯誤的認知是認為LLM就應該要提供正確的答案,事實上LLM是一個機率模型,
它所做的事情是基於模型的權重預測下一個token(詞塊)最高的機率是那個,它不是資
料庫,所以你不能因為它答的一個答案不是你所想的就是說這個模型如何如何。
第二個錯誤的認知是把所有的LLM都當成是同一個等級,好像只要A不如B那A就不行,是
垃圾。以這個案例來說,它是Llama-2-7b跟Atom-7b模型,前面的Llama-2模型是代表它
是META出的Llama模型第二代(可商用),而7b則是說它的參數是70億個,不要以為70億
個參數很多,70億參數以LLM來說只能說是非常小的,所以答出一切亂七八糟的答案非
常正常,在7b之上,還有13b跟70b的模型參數量。
7b的模型實務上如果沒有經過finetune然後針對小範圍的特定任務,基本上就是玩具而
已。
第三,就是對於台灣的能力有誤會,做AI大概分為三個要素,模型/資料/算力。在大語言
模型方面,台灣三個都弱,模型用開源的即便是台智雲,也是用開源模型。資料方面,
繁體中文本來就在中文領域本來就是弱項(中文已經很弱了,繁體中文更弱),算力方面,
台灣有算力從頭到尾訓練LLM的不是說沒有,但跟OpenAI, META都還是非常非常遙遠的距離
,所以能做作finetune就不錯了。
這是原生llama-2的試玩網址(記得把模型調到7b來比較)
https://www.llama2.ai/
好,回歸重點,中研院在網站上就已經說過了
####
以商用開源模型
Llama-2-7b以及
Atom-7b為基礎,再補強繁體中文的處理能力
####
好,剛剛我說了Llam2-2-7b,那Atom-7b我剛剛沒有提到,這是什麼東西?
Atom-7b就是
https://github.com/FlagAlpha/Llama2-Chinese
這個就是中國訓練出來的大語言模型,Atom-7b
中研院從頭到尾都沒有隱藏這件事,它就是基於中國訓練的Atom-7b然後再用繁體中文去
finetune出來的模型啊。
從頭到尾中研院就沒有隱藏這件事,完全不知道前面好像發現什麼新大陸一樣。
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 175.182.19.98 (臺灣)
※ 作者: derekhsu 2023-10-09 12:40:01
※ 文章代碼(AID): #1b8uGbYy (Gossiping)
※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1696826405.A.8BC.html
※ 同主題文章:
Re: [爆卦] 中央研究院詞庫小組大型語言模型
10-09 12:40 derekhsu
推 Aotearoa: 只是要酸民進黨而已啦1F 61.58.110.137 台灣 10/09 12:40
→ spzper: 笑死,如果KMT搞這種早嘴爆2F 1.170.66.19 台灣 10/09 12:41
※ 編輯: derekhsu (175.182.19.98 臺灣), 10/09/2023 12:42:38
噓 gaymay5566: 所以這種垃圾東西可以給台灣人用嗎?3F 36.234.77.82 台灣 10/09 12:43
噓 keydata: 喔,那請把中國寫上去,不要只寫模型的英文名啊4F 223.137.198.67 台灣 10/09 12:43
噓 alcpeon911: 這時候就沒有抗中保台的問題了☺6F 223.136.234.220 台灣 10/09 12:44
推 wmud: 基本上你的第一點就是讓很多酸民發現新大陸的點,八卦一堆中老年酸民當初沒玩過chatg7F 42.73.53.216 台灣 10/09 12:45
推 snocia: 標題把中國兩個中文字寫出來就給過9F 180.217.76.226 台灣 10/09 12:45
→ wmud: pt還真的以為AI模型的回答有指向性或是必定正確不會唬爛10F 42.73.53.216 台灣 10/09 12:45
噓 keydata: 只寫模型的名稱不敢寫中國兩個字,然後整天抗中飽台
被抓包再來說,那個模型名稱去查就是中國訓練的,我們沒隱瞞啊12F 223.137.198.67 台灣 10/09 12:45
→ su4vu6: 沒辦法 他們又不在乎真相 只是想帶風向16F 118.232.104.122 台灣 10/09 12:46
→ snocia: 然後最好再加上本模型回答以中華人民共和國資料為主要參考對象,不然回答一律當成民主進步黨的定調17F 180.217.76.226 台灣 10/09 12:47
推 lianpig5566: 你在八卦板認真啥 它們只是找理由酸20F 125.229.142.121 台灣 10/09 12:48
噓 yesonline: 感謝政府感謝黨, 釋出繁中化的模型...21F 220.133.253.85 台灣 10/09 12:48
噓 iopzu3lv0: 領一堆錢然後拿他國模組交差了事 好棒一堆米蟲難怪停滯20年23F 122.121.227.138 台灣 10/09 12:48
噓 Beltran: 塔綠假日點名25F 49.215.46.48 台灣 10/09 12:50
推 SpectreMan: 沒有問題幹嘛下架?我剛玩得正爽26F 49.158.78.6 台灣 10/09 12:50
噓 Yahweh: 要這樣找兩個研究生就能搞找你中研院幹麻27F 118.169.145.38 台灣 10/09 12:50
→ xdbx: 那它答案怎麼變那麼快 是想洗掉什麼28F 36.237.188.88 台灣 10/09 12:51
推 wamng: 按照民進黨的標準,中研院應該被扣帽子了,關鍵不是鄉民怎麼看,是民進黨雙標29F 103.238.130.134 香港 10/09 12:57
噓 KCSonfire: 我只想提出一個問題?所以處處防中國防假的?這裡忽然又可以了?31F 180.217.28.161 台灣 10/09 12:57
推 wamng: 連用APP都要扣帽子,這種AI底層架構可以?民進黨要不要臉33F 103.238.130.132 香港 10/09 12:59
→ derekhsu: 做不出來啊 怎麼辦呢? 沒算力沒資料沒模型35F 175.182.169.199 台灣 10/09 12:59
→ widec: 同意KCSonfire37F 1.165.42.242 台灣 10/09 13:01
噓 cloudyoyo: 那怎不大方說我們中研院用中國模型?38F 111.240.216.110 台灣 10/09 13:01
→ widec: 做不出來就抄中國的 這很雙標
如果我們一直有跟中國合作也就算了
主事者要是柯文哲看會被打成什麼樣子39F 1.165.42.242 台灣 10/09 13:02
推 hsuchiyi: 如果這個模型是柯團隊做的 我很好奇評論會是什麼43F 223.139.221.201 台灣 10/09 13:06
推 g70245: 推47F 111.71.48.169 台灣 10/09 13:07
→ spzper: 花一堆錢和你說做不出來,難道是別人的錯48F 1.170.66.19 台灣 10/09 13:08
→ g70245: 覺得提供資料讓人自己思考就好,你不知道對象誰49F 111.71.48.169 台灣 10/09 13:08
推 newyorker54: 國民黨不可以民進黨就可以,國民黨幹的民進黨也幹了51F 120.114.241.100 台灣 10/09 13:09
推 lulumic: 黑龍轉桌講一大堆 還是抄對岸的成果啊53F 27.53.144.118 台灣 10/09 13:09
→ newyorker54: 如果是柯文哲就直接被幹到死54F 120.114.241.100 台灣 10/09 13:10
--