※ 本文轉寄自 ptt.cc 更新時間: 2023-04-08 21:42:51
看板 Stock
作者 標題 Re: [新聞] AI晶片競爭開跑,谷歌公布第四代TPU,宣
時間 Fri Apr 7 15:09:01 2023
※ 引述《ynlin1996 (.)》之銘言:
: 原文標題:
: AI晶片競爭開跑,谷歌公布第四代TPU,宣稱比輝達A100晶片更快更節能
: 原文連結:
: https://bit.ly/3meYAG8
: 發布時間:
: 2023.4.6
: 記者署名:
: 茋郁
: 原文內容:
: 谷歌於2023年4月5日公佈了其用於訓練AI模型的超級電腦的新細節,稱該系統比輝達的同類型系統A100更快、更節能。雖然現今大多數涉足AI領域的公司的處理能力都來自輝達的晶片,但谷歌設計自己客製化晶片Tensor Processing Unit(TPU)期望能夠推動其在AI研究。
: 谷歌是在COVID-19大流行高峰期間宣布了其Tensor晶片,當時從電子到汽車的企業面臨晶片短缺的困境。由於谷歌看到蘋果在客製化晶片的投入,幫助了iPhone以及其他產品的開發。因此最初該晶片是為其Pixel智慧型手機提供動力,可是歷經幾年之後,谷歌將TPU延伸至更多領域,可見得其開發方面取得了長足的進步。
: 如今谷歌90%以上的AI訓練工作都使用這些晶片,即通過模型提供數據的過程,使它們在諸如類似人類的文字查詢或生成影像等任務中發揮作用。: 谷歌TPU現在已經是第四代了。之所以世代晶片發展那麼迅速的關鍵在於,谷歌使用AI來設計其TPU晶片。谷歌聲稱,與人類花費數月時間設計晶片相比,使用AI設計晶片僅需要6小時即可完成設計過程。
: 一旦採用AI設計晶片,產品迭代都在迅速發生,這就是TPU進入第四代的原因。未來隨著生成式AI的快速發展,將造成大型語言模型的規模呈現爆炸式成長,這意味著它們太大而無法儲存在單顆晶片上。所以谷歌客製化開發的光訊號交換器將4,000多顆晶片串在一起成為一台超級電腦,以幫助連接各個機器。此外,微軟也是將晶片拼接在一起以滿足OpenAI的研究需求。
: 谷歌指出,PaLM模型——其迄今為止最大的公開披露的語言模型——通過在50天內將其拆分到4,000顆晶片超級電腦中的兩個來進行訓練。更重要的是,其超級電腦可以輕鬆地動態重新配置晶片之間的連接,有助於避免出現問題並進行調整以提高性能。
: 谷歌除了自己使用TPU之外,一家新創公司Midjourney使用該系統訓練其模型,該模型在輸入幾句文字後即可生成新影像。: 可是谷歌並沒有將其第四代晶片與輝達目前的旗艦H100晶片進行比較。谷歌暗示它可能正在開發一種新的TPU,它將與輝達H100展開競爭。
: 總之,隨著生成式AI的崛起,AI晶片的開發腳步將成為下一個廠商積極介入的領域,以搶奪未來商機。
: 心得/評論:
: Google公布第四代TPU,並宣稱比NVIDIA A100更快更節能,其客戶Midjourney利用TPU訓練其模型再輸入文字後生成圖片。
周末下班閒聊,
發現tech版沒有這篇文章,
那就在這裡討論好了,
其實我說的東西都是網路 google+wiki 就有的東西,
先簡單說明一下現代化的ML DeepLearning的基本概念,
其實就是用暴力法把整個model 放進去 GPU/TPU 裏頭training/inference,
這會有兩個最大的限制,
硬體速度跟GPU/TPU記憶體容量,
硬體太慢跑不動或跑太久,
GPU/TPU記憶體容量太小的話是連跑都不能跑,
我幾年前在板上分享的TQQQ DeepLearning 預測股價的模型,
需要8GB 的 GPU VRAM
維基小百科之後就回到主題: ChatGPT,
目前所有的聊天機器人模型通通都是LLM,
https://en.wikipedia.org/wiki/Wikipedia:Large_language_models
Wikipedia:Large language models - Wikipedia
This policy covers how large language models (LLMs) may and may not be used on Wikipedia to generate new text or modify existing text.
This policy covers how large language models (LLMs) may and may not be used on Wikipedia to generate new text or modify existing text.
股歌微軟OpenAI 這幾家的模型一定遠遠超過這個大小,
大上數百倍都有可能,
我是做硬體晶片的,
不要問我model 這塊的問題,
所以現在這些聊天機器人模型最大的問題是整個系統無法塞下model training,
所以這篇文章的重點在這句話:
"谷歌客製化開發的光訊號交換器將4,000多顆晶片串在一起",
只能這麼做才有辦法塞下這麼大的model training,
Nvidia 也有類似的技術叫做 NVLink,
可以把電腦上數個Nvidia 顯卡串聯運算,
但是如果模型大到一台電腦顯卡全部插滿都塞不下運算的話,
我就不知道Nvidia 如何解決,
但是我相信Nvidia 一定有解決的方法
所以現在問題已經提升到整個系統端,
而不是我的晶片跑多快這麼簡單的問題,
軟體跟模型要如何切割如何分配塞入多台超級電腦,
硬體方面如何塞入最大的模型做運算
說個題外話,
我幾年前做了一個project, AI 晶片與系統研發的project,
最近拿到公司的大獎,
不是新聞這個TPU,
我跟開發model 的對口同事討論過,
是否能夠拿我們開發的這個系統來跑Chat model,
得到答案是否定的,
至少現階段還無法做到,
原因很簡單, VRAM 不夠大, 塞不下model,
但是他們model 部門也有在想辦法要細切 model 看可不可以塞進去這個系統,
所以速度已經不是最重要的考量了,
至於速度,
兩年前應該是全世界最快的晶片+系統,
可惜 VRAM 不夠大,
原本運用方向就不是要做chat
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 24.5.140.41 (美國)
※ 作者: waitrop 2023-04-07 15:09:01
※ 文章代碼(AID): #1aBy6FZF (Stock)
※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1680851343.A.8CF.html
※ 同主題文章:
04-07 09:44 ■ [新聞] AI晶片競爭開跑,谷歌公布第四代TPU,宣稱比輝達A100晶片更快更節能
● 04-07 15:09 ■ Re: [新聞] AI晶片競爭開跑,谷歌公布第四代TPU,宣稱比輝達A100晶片更快更節能
推 : 太專業了1F 04/07 15:14
推 : 一台電腦塞不下換一個機房塞不塞得下 我現在在弄XD2F 04/07 15:17
整個機房就需要switch 串聯 GPU/TPU,也就是原文裏頭說的客製化開發的光訊號交換器,
不然你無法做到多台電腦同步運算同一model,
另外一個做法就是用純軟體的方式細切model 分別塞到個別機器,
也就是我的對口同事正在嘗試要做的solution
※ 編輯: waitrop (24.5.140.41 美國), 04/07/2023 15:20:49
推 : 推3F 04/07 15:24
推 : 分別塞 細切的方案感覺成本比較省4F 04/07 15:29
→ : 內行的就知道 大模型最重要的其實是VRAM而非速度5F 04/07 15:30
→ : 想起古早56K年代 用PC幫忙解外星人的project6F 04/07 15:30
→ : transformer系的瓶頸都是記憶體牆7F 04/07 15:30
推 : 用NVSwitch or IB(InfiniBand)8F 04/07 15:30
→ : 包含記憶體容量和存取速度 運算速度反而是其次9F 04/07 15:31
推 : 類似腦細胞神經連結 30年前的超大電腦又回來了10F 04/07 15:33
公司內部的project 內容不能說太多,我只能說在電腦歷史上單一超級電腦或是分散運算小電腦,
這兩個方向已經吵了五六十年以上,
目前Chat model 的確是只有單一超級電腦才能運算,
但是我相信以後一定有解決方法可以用分散運算小電腦,
當年我在做這個AI project的時候,
也是公司兩派立場的爭論: 單一超級或是分散小電腦,
我的project 的研發方向是用分散運算方式去解決AI問題,
可是現在卡關在chat model,
但是我相信未來一定是分散運算的方式,
因為觀看人類電腦歷史,
沒有例外都是分散運算小電腦最後得到勝利
→ : 不過微軟提供給openai的解決方案不是NVlink11F 04/07 15:36
→ : 而是用InfiniBand把幾萬張A100串起來
※ 編輯: waitrop (24.5.140.41 美國), 04/07/2023 15:44:32→ : 而是用InfiniBand把幾萬張A100串起來
※ 編輯: waitrop (24.5.140.41 美國), 04/07/2023 15:45:24
推 : 比較好奇文中說的AI設計晶片是不是真的?13F 04/07 15:55
推 : AI設計晶片應該指的是軟體定義晶片,也就是Coarse G14F 04/07 16:11
→ : rained Reconfigurable Arra,目前這塊最成功的是思
→ : 科,其網路交換器及虛擬化處理器都有用到類似架構
→ : rained Reconfigurable Arra,目前這塊最成功的是思
→ : 科,其網路交換器及虛擬化處理器都有用到類似架構
推 : 分散運算要面對資料傳輸的瓶頸 也有它本身的限制17F 04/07 16:11
推 : NV之前買下mellanox18F 04/07 16:12
→ : 可以把多台server用網卡串起來
→ : 可以把多台server用網卡串起來
推 : 短期內搞研究的還是要用類超級電腦 分散運算我覺得20F 04/07 16:15
→ : 是用在一些比較成熟的狀況 例如iphone pixel的model
→ : 是用在一些比較成熟的狀況 例如iphone pixel的model
推 : Graphcore的IPU也是走單一超級電腦路線,x86陣營則22F 04/07 16:17
→ : 是嘗試用新一代AMX指令集來搶食訓練大餅,目前是期
→ : 待我國新創公司能在AI推理有所成果
→ : 是嘗試用新一代AMX指令集來搶食訓練大餅,目前是期
→ : 待我國新創公司能在AI推理有所成果
推 : 畢竟training目前看起來還是需要大力出奇蹟...25F 04/07 16:20
推 : 就說了是比系統不是比晶片,原文推文一堆外行26F 04/07 16:22
→ : 感謝分享27F 04/07 16:24
推 : 其實NV也已經佈局switch了,mellanox 就是做IB連結28F 04/07 16:29
→ : 的公司
→ : 的公司
推 : NV的DGX其實應該就有用Mallanox Switch去串全部機台30F 04/07 16:52
推 : 大頻寬的光交換器準備要商轉了,不怕啦31F 04/07 17:48
推 : 問個笨問題 TSLA 不是有個 DoJo超級電腦? 是不是32F 04/07 18:48
→ : 跟文中所提的超級電腦同一個類別?
→ : 跟文中所提的超級電腦同一個類別?
推 : 很專業,所以可以買啥標的34F 04/07 19:22
Nvidia跟谷歌,只有這兩家可以做出chat 的系統,
只是Nvidia 真的股價有點高
→ : 請問版上鄉民,像現在高通的晶片,也可以直接作出35F 04/07 19:26
→ : GPU 使用目前最重要的AI類功能嗎,還是說仍然必須
→ : 使用到 Nvidia的技術?
→ : 也就是是否就算用高通晶片作出 GPU,也會因為因為
→ : Nvidia的某些架構或者特殊技術,所以沒辦法用?
→ : 而且高通這晶片其實去年4月就現市了
→ : 我實在不太清楚目前這些是都能直接用還是有架構問題
→ : GPU 使用目前最重要的AI類功能嗎,還是說仍然必須
→ : 使用到 Nvidia的技術?
→ : 也就是是否就算用高通晶片作出 GPU,也會因為因為
→ : Nvidia的某些架構或者特殊技術,所以沒辦法用?
→ : 而且高通這晶片其實去年4月就現市了
→ : 我實在不太清楚目前這些是都能直接用還是有架構問題
推 : 推個解釋的連文組也能懂42F 04/07 22:27
※ 編輯: waitrop (24.5.140.41 美國), 04/08/2023 09:43:38推 : 推好人分享43F 04/08 11:14
推 : 推44F 04/08 13:33
推 : 推,分享!45F 04/08 15:50
→ : 算力的價值建立在產出吧,覺得可以從AI產出去找股票
→ : 算力的價值建立在產出吧,覺得可以從AI產出去找股票
推 : 推分享47F 04/08 18:21
--
※ 看板: Stock 文章推薦值: 0 目前人氣: 0 累積人氣: 21
作者 waitrop 的最新發文:
- 先上今天帳號: 身為賭徒, 一定要玩最刺激的比特幣跟三倍槓桿ETF, 我在版上喊買比特幣已經喊快三個月了, 我自己也是每天買2股 ibit, 我的投資策略很簡單, 持續買進, 每天買, 我現在每天買 …150F 55推
- 高雄夫妻合計年薪百萬的工作很少 高雄工程師的職稱都是假的, 一堆工程師月薪三四萬不到 簡單講, 就是工作的問題, 現在還比十幾年前好, 現在至少還有中科, 南科, 高雄台積電, 十幾年前中南部幾乎沒 …82F 29推 9噓
- 33F 17推 3噓
- 44F 12推 4噓
點此顯示更多發文記錄
→
guest
回列表(←)
分享