Re: [新聞] 稱霸 AI 推理性能，NVIDIA B200 晶片海放 AMD MI300X - Stock板

首頁(home) 上頁(↑) 下頁(↓) 末頁(end)

※ 本文轉寄自 ptt.cc 更新時間: 2024-09-03 10:28:26

看板 Stock

作者 LDPC (Channel Coding)
標題 Re: [新聞] 稱霸 AI 推理性能，NVIDIA B200 晶片海
時間 Tue Sep 3 03:04:53 2024

相關文章可以參考這個
https://36kr.com/p/2927059579722630
比較有意義的是這邊
https://spectrum.ieee.org/new-inference-chips

Blackwell, AMD Instinct, Untethered AI: First Benchmarks - IEEE Spectrum

This morning, ML Commons released the results of its latest AI inferencing competition, ML Perf Inference v4.1. This round included first-time submiss ...

前言
雖然大家都在討論AI要怎樣獲利但AI產品要獲利前有一個很重要的大前提
就是AI infrastructure得先成熟也就是如何讓巨大數量消費者能在平台上(Large-scale)
能得到平台上的服務這個第一步關鍵就是Inference 上的成本算力提升也意味單位
成本下降

自從LLM興起後(GenAI) 直到去年都比較是Training上的改進像是軟體端有Deep-Speed
陸續整合到LLM/Transformer上能把訓練數度提高百倍(意味成本降低百倍)
硬體端有A100->H100 (Transformer加速) HBM容量變大等等此類
但針對AI商業化的Inference塊一直很不明朗

去年之前我個人認為Inference玩家就是NV/AMD/i皇(免強算半個)/ASIC玩家等大亂戰
今年開始Inference開始有比較嚴謹的方式去量化"Large-Scale Service" 來推廣落地
這都意味以後的服務平台成本會下降以現在GPT-4o 25.00元你可以使用1M tokens

(註2) 想像一下以後的成本可以降到100倍以上同時也意味AI infra在走向產業落地

而第二個連結(ieee)就是開始在量化Inference的成本/能力裡面用秒來計算能提供多少
客戶請求(queries)

裡面有兩個比較重要的分類 (1) 一個是MoE 這是一種算法上的設計會成為將來主流
他能在LLM包山包海的下游任務(例如文字總結寫程式醫療問題) 能動態選取專家
所以在MoE上表現好對效能上來說都會好 (2)處理位元數降低(e.g., f32/bf16/f4)

處理位元數降低好處會帶來運算速度增快運算成本降低但通常缺點就是效能會變很糟

(正確率下降模型準度降低) 但NVDA弄出了一個4位元版本且準度沒有太大犧牲
Blackwell FP4運算效力非常誇張 ( https://reurl.cc/myrAMM )

第二個連結可以看出明顯AI inference 老黃把眾家對手打得滿頭包...在第二張圖裏
就算校正GPU數量狗家的TPU也是沒佔上風(註3)

處此之外還有一份報告是關於Llama3 ( https://www.aizws.net/news/detail/1238 )

Llama3.1 训练平均 3 小时故障一次，H100 万卡集群好脆弱，气温波动都会影响吞吐量 - AI 资讯 - 资讯 - AI 中文社区

每 3 个小时 1 次、平均 1 天 8 次，Llama 3.1 405B 预训练老出故障，H100 是罪魁祸首？...... ...

可以看見當算力拉高高算力高power 巨大集群系統容易崩潰就連老黃都無法避免
然而這在A100叢集崩潰幾乎沒有出現過這也意味眾家對手再拉高power 算力
軟體容易不穩定而崩潰在這個AI軍備競賽下時間永遠是個最重要的成本這也意味
其他對手還只要沒在巨大集群驗證過都不能算上玩家 (目前只有狗家)

最後一個總結老黃的核心思想就是算力 (硬體+軟體+巨大cluster)

當年老黃在顯卡大戰說過我每半年提高顯卡算力一倍雖然一堆遊戲廠商
跟我說他家電動遊戲不需要這樣強顯卡但我們不能照遊戲廠商需求來設計
我們給他們更好的顯卡這樣他們才能設計更好的遊戲我們可以創造需求

同樣只要對先進算法有需求算力就會存在顯卡大戰所有的套路我們會再重新走一次

而AI這個路線也是如此因為Scaling Law已經講明算力無窮止盡造就無窮智能
就算今天LLM技術落伍只要有需求先進的算法就會需要算力 Scaling Law就是摩爾定律
CPU當年無限開發計算能力有了軟體業顯卡無限開發算力有了電動產業
這也是為何Eric Schmidt說政府用算力10的26次方flops當作監管條件

其他政治上的風險
https://www.youtube.com/watch?v=UczALD7ZZDU

Data Center->水土地電力當地居民抗議

--
最近韭菜力有點高 QnQ 你們買股請用閒錢買....不然就會像我一樣要去賣玉蘭花

--
註1:Deep Speed是微軟一個重大的軟體加速設計這讓我想起Bill 之前說的
https://www.youtube.com/watch?v=jpfC7rzoX2A

"Microsoft putting tens of billions of dollars,into not just the back-end
capacitiy, "but re-engineering their application"

註2:Gen AI/LLM 把所有資訊都是用token計價文字上來說2~3token等於一個英文word
You miss 100% of the shots you don't take 這句話大概等於11 tokens
在影像的話如果以一張512x512像素來說有一個不嚴謹的公式
total tokens = 85 + 170 * n, (n=512 在這邊)

註3: 謠言果家的私有雲會用狗家TPU 但Inference結果現在看來我很好奇果家
會願意放棄這樣香的NV Inference架構用狗家TPU

註4: 亞痲已經開始大量用RAG+LLM 作為改善shopping 和查詢物品的使用者體驗
如果為真我們會看到亞痲跟軟家大量在AI Infra 軟體上改進等

※ 引述《enouch777 (雷)》之銘言：
: 原文標題：稱霸 AI 推理性能，NVIDIA B200 晶片海放 AMD MI300X
: ※請勿刪減原文標題
: 原文連結：
: https://bit.ly/4dIpmfq
: ※網址超過一行過長請用縮網址工具
: 發布時間：
: September 2, 2024 by 陳冠榮
: ※請以原文網頁/報紙之發布時間為準
: 記者署名：September 2, 2024 by 陳冠榮
: ※原文無記載者得留空
: 原文內容：
: 由產業人士和學術界組成的開放工程聯盟（MLCommons）自 2018 年推出 MLPerf 產業基準
: ，是衡量機器學習性能、提高科技透明度的常見指標。隨著科技大廠針對 MLPerf Inferenc
: e v4.1 提出測試資料，尤其 NVIDIA 下一代 Blackwell GPU 首次參與測試，讓業界看出各
: 家晶片性能提升至什麼程度。
: MLPerf Inference v 4.1 測試結果有一系列值得關注的新增內容，像是 MLPerf 首次引進
: MoE（Mixture of Experts Models，混合專家模型）性能評估，特別採用開源 Mixtral 8×
: 7B 模型。這一輪基準測試更展示一些令業界關注的晶片和系統，有些還是首次公開測試結
: 果，比方說 AMD MI300X、Google TPU v6e（Trillium）、英特爾 Granite Rapids、Unteth
: er AI speedAI 240 等，還有最受市場矚目的 NVIDIA B200。
: 雖然 Blackwell GPU 交付到客戶手中還需要幾個月時間，但 MLPerf Inference 4.1 測試
: 結果可讓客戶一窺即將到來的強大性能。Blackwell GPU 由於使用 NVIDIA 第二代 Transfo
: rmer 引擎和 FP4 Tensor 核心，處理 MLPerf 設定的 Llama 2 70B 模型，首次測試結果顯
: 示性能較自家 Hopper 架構的 H100 高出 4 倍之多。
: 而在單一 B200、H200 及競爭對手 MI300X 的比較，MLPerf Inference v 4.1 測試結果運
: 用 Llama 2 70B 計算每秒生成 token 數，可看出 B200 的表現遙遙領先 H200 和 MI300X
: ，性能平均達到 H200 約 2.5 倍，更是 MI300X 的 4 倍左右。可見主流的 H200 明顯勝過
: MI300X，換成下一代 B200 更是大勝。
: 值得關注的是，MI300X 規格如電晶體、HBM 等比起 H200 複雜，封裝複雜度更高，可推測
: AMD 這款 AI 晶片成本高昂，卻要賣得更便宜才能與 NVIDIA 競爭。信昕產研從這一輪 MLP
: erf 測試結果分析，MI300X 合理價格可能要比目前 H200 低約 30%。
: 換個角度來看，市場可能對於 NVIDIA 產品毛利高有些意見，一旦性能強大的 NVIDIA GPU
: 價格再低一點，恐無對手與之競爭。
: 心得/評論：
: https://i.imgur.com/DhaD9B1.jpeg
: 蘇媽24年初之前不是號稱贏黃的H100
: 結果只在伯仲之間，還小輸
: 現在看起來黃的B200提升驚人。雖然現在晚一點才會來。但看來護城河已經建好了
: ※必需填寫滿30正體中文字，無意義者板規處分

--

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 24.4.211.194 (美國)
※ 作者: LDPC 2024-09-03 03:04:53
※ 文章代碼(AID): #1crWnRFw (Stock)
※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1725303899.A.3FA.html

※ 編輯: LDPC (24.4.211.194 美國), 09/03/2024 03:10:16

推 FirePopcorn : 推1F 09/03 03:14

→ Justisaac : 漲知識給推~2F 09/03 03:18
→ Justisaac : 雖然我覺得Intc連半個都稱不上XD

推 stuppi : 感謝LD老大分享~4F 09/03 03:20

推 Justisaac : 居然沒推到，補一下。5F 09/03 03:22

推 Haerin520 : 推已經歐印NVDL了誰來69樓救我6F 09/03 03:28

推 pornpig32 : Nv能否持續領先7F 09/03 03:30

推 ETTom : 推長知識了8F 09/03 03:49

噓 a000000000 : 我說過惹老黃這逼系列地位類似哀鳳49F 09/03 03:50
→ a000000000 : 出來94掃場他把能想到的花招都用上惹
→ a000000000 : 下一代的問題4會變成哀鳳五還哀鳳六很難說

推 hyuying : 哇謝LD！希望我也能Learning到飛黃騰達12F 09/03 03:50

→ a000000000 : 沒新招就挨奉五有新招就挨鳳六13F 09/03 03:51

※ 編輯: LDPC (24.4.211.194 美國), 09/03/2024 04:23:28

→ ookimoo : ww3之後美國會徹底衰弱，中間會一堆國家沒有電！14F 09/03 04:41

推 sean667cd : 感謝 LD大分享！15F 09/03 04:44

推 waitrop : 我該歐印nvdl嗎16F 09/03 04:49

推 MyDice : 感謝大大分享17F 09/03 06:12

推 ejnfu : 所以結論是all in NVDA對吧18F 09/03 06:13

推 pacino : 推 NVDA19F 09/03 06:23

推 TIPPK : 感謝分享20F 09/03 06:31

推 zoze : 相信老黃財富自由21F 09/03 06:51

推 william7713 : 台灣一直歡迎資料中心來蓋XDD 不知道在想啥22F 09/03 06:54

推 jerrychuang : 99MU23F 09/03 06:55

推 spike1215 : 恐懼來自於算力不足，對吧。24F 09/03 06:56

推 peapriayod : 專業推25F 09/03 06:58

推 lusifa2007 : 推老黃就是強26F 09/03 07:01

推 darlost : 推一個27F 09/03 07:06

推 fdkevin : 結論歐印NVDA28F 09/03 07:11

噓 askaa : 當大家都要買nvdl 跟全部人都在拉抬目標價29F 09/03 07:38
→ askaa : 你就知道該如何處置手上的股票了

推 Chilloutt : 以token 練丹是可怕的商業模式，東西被重新估價31F 09/03 07:47

推 ppuuppu : 哇，一早看到L大的信心加持感恩32F 09/03 07:54

推 Lipraxde : Inference server 真正的需求等手機普遍都有能跑 L33F 09/03 07:57
→ Lipraxde : LM 再看吧？雖然 edge 端能跑的 model 比 GPT-4o
→ Lipraxde : 廢，但一般使用需求其實也用不上多強的 LLM

推 ajkofqq : 好36F 09/03 08:03

推 darkangel119: 感謝專家分析與分享37F 09/03 08:03

推 f860506 : 推38F 09/03 08:08

推 aegis43210 : AI推論接下來各大CSP會用博通設計的ASIC來想辦法取39F 09/03 08:09
→ aegis43210 : 代，到時看才知道鹿死誰手

推 utn875 : 感謝提供基礎知識41F 09/03 08:17

推 NicholasTse3: all in NVDL 一波退休！42F 09/03 08:19

推 sdbb : 99nvdl43F 09/03 08:39
推 sdbb : https://i.imgur.com/HltGuLS.jpg

推 Samurai : ASIC取代別鬧惹，關鍵應該是明年的chatgpt5 ，LLM45F 09/03 08:42
→ Samurai : 進化才是終端市場爆發的時候

推 NotForever : 感謝分享47F 09/03 08:43

推 atpx : 推分享48F 09/03 09:01

推 zhi5566 : 推49F 09/03 09:15

推 darkangel119: 蝦? 用 ASIC? 想太多了吧50F 09/03 09:32

→ bnn : 嚇你甩你磨你51F 09/03 09:45

→ cyshowen : B系列GPU已經就 800mm2吃到光罩極限，要再增加電晶52F 09/03 09:57
→ cyshowen : 體就只能靠製程。兩顆大晶片進CoWoS-L封裝成B200又
→ cyshowen : 因熱膨脹係數delay，至於老黃說什麼修光罩改善良率
→ cyshowen : 看起來是在解Critical Path積熱，但有沒有效可以繼
→ cyshowen : 續觀望。
→ cyshowen : 老黃要變下一代，GG CoWoS下一代(2027)可能有機會
→ cyshowen : ，熱膨脹問題還是跑不掉

--

※ 看板: Stock　文章推薦值: 0 目前人氣: 0 累積人氣: 122　

作者 LDPC 的最新發文:

+50 [心得] 資料中心投資方向 - Stock 板

作者: LDPC 172.59.161.237 (美國) 2025-02-17 14:43:22

"遇到任何不能解決的事情就用C4炸彈" 在AI界這邊也是 "遇到任何無法解決的事情就用算力出奇蹟" < @v@b AI社群> (在下方任何段落 …

74F 52推 2噓
+63 [心得] GPU vs ASIC - Stock 板

作者: LDPC 76.21.72.78 (美國) 2025-02-09 05:41:21

蘇媽在最近一次採訪給了ASIC跟GPU大戰的註解她註解 Despite this, Su doesn't expect dedicated AI ASICs to replace GPUs …

128F 64推 1噓
+76 Re: R: [請益] 為什麼中國越來越強？ - Stock 板

作者: LDPC 76.21.72.78 (美國) 2025-02-01 10:27:33

怎抹這邊突然變AI版 =_= DeepSeek 有件事情幹得比矽谷好就是AI Backend 優化(這玩意就是需要懂架構和軟體就是一個苦力枯燥活) 大體而言在A100架構以前大部分訓練都還 …

150F 76推
+16 Re: [新聞] OpenAI：已掌握DeepSeek盜用模型證據 - Stock 板

作者: LDPC 76.21.72.78 (美國) 2025-01-30 01:19:19

47F 17推 1噓
+37 Re: [新聞] OpenAI執行長：DeepSeek令人驚豔但關鍵在運算 - Stock 板

作者: LDPC 76.21.72.78 (美國) 2025-01-28 15:24:11

就是算力才是絕對 (新聞用運算這詞可能不太好懂) 吃瓜可以看下面翻譯無窮算力->無窮智能這就是OpenAI和Andrej Karpathy, Jim Fan甚至認為高算力模型可以訓練更強大 …

103F 37推