Re: [討論] 中研院繁中LLM被爆直接拿對岸的來套 - Soft_Job板

作者 alex780312 (Alex)
標題 Re: [討論] 中研院繁中LLM被爆直接拿對岸的來套
時間 Sat Oct 14 15:46:23 2023

※ 引述《DrTech (竹科管理處網軍研發人員)》之銘言：
: 2. 訓練模型會先卡什麼？
: 目前，台灣任何一個單位，根本沒能力研發LLM模型架構。台智雲，中研院，或其他任何單位。
: 都是基於LLaMA2上去 fine-tune的。
: 所以模型都是 7B 13B 70B大小。
: 而是大概都是用QLORA或相關技術去 fine-tune的。這些都是open source直接去套而已，
: 完全沒有任何技術門檻。
: (只有誰願意採購幾千萬硬體的門檻而已)

身為LLM猴子，大多同意DrTech的看法，只是台智雲這塊有點不一樣。
其實台智雲有幾乎一半台灣杉2號的機器可以用，
也克服很多開源軟體無法解決的問題；例如硬體是V100不是A100，
又要能夠做3D model parallelism，又要同時能跑LoRA，RLHF，
在100Gbps網路中維持GPU使用率滿載等等。在meta llama出來之前，
我們還是跑BLOOM-176B，硬體需求更高。

我想說的是，在LLM訓練階段，許多硬體門檻已經被台智雲推倒了，
台灣杉2號還能夠做很多事！我覺得可惜的是政府，學界，企業的整合部份，

因為不同單位考量的利益是不同的，企業只做特定任務finetune是因為
客人就需要這種東西，至於基礎模型的訓練無法在短時間內看到好處，

比較適合政府和學研單位主導。LLM猴子什麼咖都不算，在公司內拍桌說要

開源也沒人聽（還好沒有被開除XD）

例如TAIDE是很有潛力當個統合協調的角色，看起來官學合作已經成型，
只剩業界無法進去？縱使業界在台灣杉2號上已經有許多突破，
但我們沒辦法有機會透過某種合作的形式讓學界也使用我們的技術，
然後公司又不像學界那樣以論文產出為目標，所以很難說服老闆去
做些"開源"的工作，自然也不會做些純研究的項目。

台灣杉2號絕對能夠做到清理commoncrawl、FP16精度訓練不用QLoRA、
訓練超過176B參數的大模型。希望大人物們（產官學）能夠多多思考和溝通，
看怎麼促成更多人的合作囉。

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 182.234.135.79 (臺灣)
※ 作者: alex780312 2023-10-14 15:46:23
※ 文章代碼(AID): #1bAaTHLl (Soft_Job)
※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1697269585.A.56F.html

※ 同主題文章:

[討論] 中研院繁中LLM被爆直接拿對岸的來套!

10-09 09:42 gaymay5566

Re: [討論] 中研院繁中LLM被爆直接拿對岸的來套

10-09 14:53 DrTech

Re: [討論] 中研院繁中LLM被爆直接拿對岸的來套

10-14 15:46 alex780312

→ ToastBen: 說個笑話：產官學1F 10/14 23:27

→ DrTech: 很好的討論，讓大家看到更多想法2F 10/15 00:12

推 zanyking: 推，希望看到更多通用的合作與嘗試3F 10/15 00:29

→ alex780312: 補充一下，臺智雲像是官+產的合作，目的在充分發揮台灣杉二號使用率，但缺乏學研角色。現況是台灣杉的資源被切成兩半各做各的，臺智雲考量time to market ，而TAIDE 可以慢慢打磨，路線不同4F 10/15 10:24