Re: [新聞] 輝達H100晶片紓壓了訂單大戶開始轉售 - Stock板

看板 Stock
作者 waitrop (嘴砲無雙)
標題 Re: [新聞] 輝達H100晶片紓壓了訂單大戶開始轉售
時間 Thu Feb 29 11:38:32 2024

你劃錯重點,
先不論這篇論文的可行性與實用性,
你真的劃錯重點了

算力重要嗎?
重要但是不是影響販售/採購晶片的主因,
這個年代是用軟體思考的年代,
有兩個軟體方面的主因是AI晶片的關鍵:
1. LLM
2. API/framework: CUDA, OpenCL, tensorflow, pytorch

很多人嗆我說廢話,
但是很多人卻是連廢話都不懂,
LLM 全名叫做 "Large" language model,
都已經叫做Large 了,
還放在最前面以表示重要性,
所以能夠處理"Large" 模型的能力遠比算力重要的多,
這篇文章有圖形解釋cpu vs gpu vs tpu的差別,
https://www.linkedin.com/pulse/
cpu-vs-gpu-tpu-unveiling-powerhouse-trio-computing-abhineet-raj/
所以拿這三者來比較算力是很蠢的事情,
這三者的算力彼此之間個差了十倍到百倍的差距,
比方說我有一大串數字/資料要做運算,
cpu 必須每個數字/資料做運算之後相加減,
gpu 把數字/資料放進兩個矩陣一次就算完,
tpu 直接把算法設計成硬體邏輯,
數字/資料放進tpu可以直接得到結果,

所以你看出問題了嗎?
當你的資料與模型太大會塞不進去矩陣 (v-ram),
同樣的道理,

資料與模型太大會塞不進去tpu裡頭 (v-ram),
現代化的AI 瓶頸已經從算力提升到模型太大,
而這就是NVDA 厲害的地方,

一顆GPU v-ram 不夠塞進資料與模型,
沒關係, NVDA 把GPU 串連起來,
數百萬顆的GPU 串連 v-ram提升數百萬倍,
總可以塞進資料與模型來運算了吧,
請參考"電池串連"原理就可以了解我在說什麼

TPU 原本把算法設計成硬體邏輯是個優點,
但是在串連運算上面卻成了缺點,
矩陣運算可以串連串起來運算,
邏輯電路要串連 v-ram 運算反而變得非常複雜與難實現,
所以TPU 被綁在自身v-ram 的大小限制上面,
太大的模型與資料無法放進v-ram 就無法運算,
不過還是有解決方法,
這邊就不多說了

所以算力重要嗎?
在LLM 面前真的不是最主要的考量

2. CUDA 版上吵翻天了,
不需要多說了,
你算力就算能比NVDA快上萬倍,
你也要能夠繞過CUDA 再說,
更何況算力有沒有比較快都很難說

※ 引述《oopFoo (3d)》之銘言：
: 千禧年的網路泡沫，也是先炒作硬體商，Cisco, Sun...，Sun還有"dot in dot-com"的廣告。
: 網路確實是改變世界，但真正大賺的是軟體公司，而且是完全新鮮的軟體公司。
: 這次AI浪潮，應該也是類似。
: N家這次炒作這麼高，是因為真的，Compute是供不應求。每個大公司都怕買不夠，跟不上。
: 但最近一些AI的發展，也許會發現，這些Compute是不需要的。
: Mamba, RetNet, RWKV是從"Attention"的這點來改善。"Attention"是Quadratic Complexity，這是硬體需求的關鍵。現在在找方法從Quadratic改成Linear。
: Mamba我很看好，它的作者之一也是"Flash Attention"的作者。
: 但昨天一篇新的論文，可能是真的翻天覆地的開始。
: https://arxiv.org/abs/2402.17764
: "The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits"
: https://news.ycombinator.com/item?id=39535800
: hn的討論。
: 現在討論的共識是，可行，理論基礎很扎實。各路人馬開始指出，從2006年開始的這方面研究，已經找出好多篇證實這方向是可行的。
: 現在的LLM是用fp16(16bits)，這方法可1.58bits，(討論說可以縮到0.68bits)
: 然後本來是fp dot product的只要int add。
: 輕鬆10x的效能，新ASIC針對Ternary weight發展可以輕鬆100x的效能改善？
: 如果這篇證實是可行的，AI起跑點重新設置，所有公司的價值都要重新計算。

: 這篇的作者群很有資歷，但很有趣的是，主要是來自北京/清華大學。美國猛力壓制中國的運力運算，造就不太需要Compute的方法的發現，戳破美國AI泡沫，這會是非常的諷刺。

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 76.103.225.6 (美國)
※ 作者: waitrop 2024-02-29 11:38:32
※ 文章代碼(AID): #1bt_mwxv (Stock)
※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1709177914.A.EF9.html

※ 同主題文章:

[新聞] 輝達H100晶片紓壓了訂單大戶開始轉售

02-28 16:33 ichitakajoe

Re: [新聞] 輝達H100晶片紓壓了訂單大戶開始轉售

02-29 08:06 oopFoo

Re: [新聞] 輝達H100晶片紓壓了訂單大戶開始轉售

02-29 11:38 waitrop

Re: [新聞] 輝達H100晶片紓壓了訂單大戶開始轉

02-29 19:01 w180112

Re: [新聞] 輝達H100晶片紓壓了訂單大戶開始轉售

03-03 01:59 MiniArse

推 pmes9866: 好的歐印TQQQ1F 02/29 11:40

推 leochen124: 謝謝分享2F 02/29 11:41

推 poisonB: 何必跟一知半解的認真3F 02/29 11:44

推 Aska0520: 感謝分享 ALL IN NVDA4F 02/29 11:44

推 kid1a2b3c4d: 講中文啦QQ5F 02/29 11:44

→ aimlikenoob: 問就是買6F 02/29 11:45

→ tctv2002: 嗯嗯跟我想的一樣7F 02/29 11:48

→ fatb: 閱8F 02/29 11:49

推 rkilo: 謝分享9F 02/29 11:51

推 sam90205: 何必認真看到那篇論文的產地就可以end了.10F 02/29 11:52

推 kducky: 00757會漲嗎0.011F 02/29 11:55

推 roseritter: 推. 硬體受限情況下只能從其他地方突破惹12F 02/29 11:55

推 ab4daa: 歐印TQQQ13F 02/29 11:55

推 a069275235: 樓下幫我看一下這一大篇有沒有股點14F 02/29 11:55

GPU => NVDA
vram => hbm => MU
switch => AVGO
包牌 => QQQ

→ roseritter: 中國的HBM不知道何時商業量產15F 02/29 11:55

※ 編輯: waitrop (76.103.225.6 美國), 02/29/2024 11:58:09

推 Altair: 豪!!! 所以要歐印誰?16F 02/29 11:56

→ kausan: 所以沒有比cuda更屌的東西你還是要舔nv17F 02/29 11:57

有比cuda更屌的東西,
但是掌握在七巨頭手上

→ a069275235: 感恩明牌五星推！18F 02/29 11:58

推 abc21086999: 我記得原Po是在G工作的FTE19F 02/29 11:59

推 j65p4m3: 好窩歐印20F 02/29 11:59

※ 編輯: waitrop (76.103.225.6 美國), 02/29/2024 12:03:04

推 esproject: 幹嘛跟對岸小粉紅認真www 整天再吹利害了窩的鍋21F 02/29 12:04

推 leoloveivy: 但如果要tpu 一定是port一個可以的model v-ram加上去面積大價錢還是比H100划算吧嗎22F 02/29 12:06

推 lonzoball02: 繞過去就好了24F 02/29 12:06

推 iamjojo: 推解釋這我看得懂25F 02/29 12:11

推 minikai: 問就是TQQQ26F 02/29 12:12

推 WTF55665566: 那文就是裝逼拐個彎吹支那或成最大贏家而已
欠打臉27F 02/29 12:14

推 TheObServer: 請問什麼東西比庫打還猛？29F 02/29 12:15

CUDA 是最底層的軟硬體介面,
提供軟體(寫程式)得到硬體加速的效果,
但是Google 的Tensorflow,
以及Meta/Facebook 的Pytorch,
是建構在CUDA 之上的python API 套件,
現在已經很少人直接寫CUDA,
大部分的人都用pytorch or tensorflow,
我個人的經驗是pytorch 比較容易,
tensorflow 比較底層比較複雜,
但是相對的tensorflow 提供更強大與更自由的設計功能,
不論是Google or FB,
tensorflow or pytorch,
在公司內部project 都已經可以繞過cuda 直接對硬體溝通加速

→ JKjohnwick: 中國的科技業不是只能代工跟抄襲嗎30F 02/29 12:16

→ AndyMAX: switch ==> Nintendo31F 02/29 12:17

→ TheObServer: 不會是量子電腦吧32F 02/29 12:17

推 subi: 現在好像開始談LPU了33F 02/29 12:18

※ 編輯: waitrop (76.103.225.6 美國), 02/29/2024 12:22:48

推 motan: 好，結論就是輝達強暴了34F 02/29 12:21

推 ymlin0331: 包牌是TQQQ啦35F 02/29 12:21

推 fmp1234: 關鍵就是要大36F 02/29 12:27

推 truelove356: NV不是要搶AVGO的地盤37F 02/29 12:29

推 csluling: 本來就是，不然一直在衝v-ram幹嘛，一堆北七一直在講算力瓶頸38F 02/29 12:30

推 zoze: AMD能分一杯羹嗎40F 02/29 12:30

→ csluling: 出新卡建新機就是一直在關注v-ram多大才知道能跑多大模型41F 02/29 12:31

推 ppuuppu: 讚讚43F 02/29 12:32

→ csluling: 不過pytorch不算是繞過CUDA吧，頂多說可以對硬體有指哪算哪效果吧？44F 02/29 12:33

pytorch or tensorflow 搭配自家的driver+kernel+firmware+tpu/asic,
就可以繞過cuda,
但是自家的那套東西不對外販售
※ 編輯: waitrop (76.103.225.6 美國), 02/29/2024 12:35:18

推 Ashand: SOXX46F 02/29 12:35

推 leochen124: 所以現在新創都在做inference的加速嗎47F 02/29 12:36

是的,
新創 training 玩不起,
除了openai夠錢也夠名聲能夠玩training

另外,
inference 尤其是 edge AI 會是下一個戰場,
只是我不知道居然來的這麼快,
我原本估計要兩三年後才會到來

推 LieTo: 繞過CUDA的意思是也可以不用NV的晶片嗎?48F 02/29 12:36

是的,
但是目前只有七巨頭五仙女有能力繞過cuda
※ 編輯: waitrop (76.103.225.6 美國), 02/29/2024 12:39:17

→ LimYoHwan: https://i.imgur.com/GxJuHEi.jpeg49F 02/29 12:37

推 easyman: 這篇論文其實是-1，0，1 , 其實應該很適合整合在flash TLC上面。或者三檔電壓的RAM上面。如果放在FPGA上，就是2bit 加法器。50F 02/29 12:37

→ LimYoHwan: 快一倍走了韭菜套滿手割肉再進去53F 02/29 12:37

推 leochen124: 現在應該是還有那些國家的LLM的sever還沒被滿足,才能確定有沒有overbooking54F 02/29 12:38

推 cowaksor: 好的信貸加質押tqqq56F 02/29 12:40

→ Lipraxde: Edge inference 到處都在推，簡直殺紅眼了XD57F 02/29 12:46

推 smallcheng: AMD除了價格優勢，在技術上有什麼優勢跟著NV喝湯嗎58F 02/29 12:46

推 Fww: 推你認真，下面那篇真的不知在幹嘛59F 02/29 12:47

→ TsmcEE: 包牌不應該是tqqq嗎60F 02/29 12:50

推 energyy1104: 個人認為真正的護城河是NVLink跟NVSwitch61F 02/29 12:52

推 pponywong: Edge side只可能做inference阿62F 02/29 12:52

→ energyy1104: CUDA的重要性恐怕還要排在這兩個後面63F 02/29 12:52

→ pponywong: 另外training的成本也很大不可能繞過去
目前openai 是用富爸爸的azure data center64F 02/29 12:53

→ s90002442: 結論：單押g66F 02/29 12:53

→ pponywong: 你要搞模型你還是要花錢買NPU(TPU)或是GPU67F 02/29 12:54

推 william85: 推68F 02/29 12:55

推 Gipmydanger: 推69F 02/29 12:55

推 pponywong: 除了谷歌的TPU 目前只有微軟說要自己做下單給牙膏其他都還是用NV CUDA 像是META跟TSLA 就買幾十萬片70F 02/29 12:56

推 sdbb: 拜託別刪，謝謝72F 02/29 12:57

→ LDPC: 狗家忘了下車嗚嗚嗚嗚 99狗家 QQ73F 02/29 12:58

→ pponywong: 另外就原Po講的 AI model會越來越大你圖形辨識跟GPT到現在Sora的模型不是同一個量級的增長
你要進入到下一個階段的AI 你就只能繼續擴大算力
可能Sora需要30萬張H100 下一個AI就需要100萬張
然後這些training是沒辦法繞過的你要進場玩你就只能花錢74F 02/29 13:02

→ clamperni: 基本麵吃起來80F 02/29 13:05

→ yiefaung: TPU也有TPU pod好嗎…81F 02/29 13:06

推 leochen124: 請問inference就不用把整個大模型放到vram嗎82F 02/29 13:07

→ LDPC: 樓上用切的QQ 參照Model parallelism
所以gpu之間通訊速度很重要這是老黃的大招
4090有等效A100算力但4090多卡之間通訊太慢83F 02/29 13:14

推 ohmypig: 請問原po 對Alphawave IP 這家的看法？傳輸速度會是下一個gating 嗎？86F 02/29 13:15

推 leochen124: 謝謝L大解說88F 02/29 13:16

→ LDPC: https://zhuanlan.zhihu.com/p/10710172789F 02/29 13:17

推 Samurai: 我廢物只想知道要歐印哪隻90F 02/29 13:21

推 ProTrader: 原po說的內容外行人可能真的搞不董"大型"91F 02/29 13:22

推 tchen4: 看不懂先給推92F 02/29 13:22

推 csluling: 原po跟L大都好心人93F 02/29 13:23

→ ProTrader: 用生活中的東西來說台鐵高鐵都是大型
但是台鐵高鐵的速度差異很明顯94F 02/29 13:23

推 zhi5566: Waitrop發一篇文我就買一些TQQQ96F 02/29 13:24

→ ProTrader: 如果你家有超跑跑的比高鐵快那還是迷你型沒用97F 02/29 13:24

推 clisan: 謝謝說明98F 02/29 13:24

推 usb4: TPU好像可以串連了? google上次說training用自家TPU99F 02/29 13:25

推 aegis43210: LPU的成本太高了啦，塞一堆sram，哪來那麼高的良率及封裝量能來玩這個，成本效益還是輸ASIC
西台灣就是有算力瓶頸才開始玩模型剪枝，等到未來各行各業都需要AI推論時就會很有用，不過西台灣也只能這樣玩，L20的推論只是堪用，所以配合中芯晶片的無奈之舉244F 03/01 01:13

推 colinshih: Protrader: 20-30年前很多應用的論文在不同領域，和TPU 的問題基礎類似。250F 03/01 01:45

推 yumumu: 讚252F 03/01 06:58

噓 astroboy0: ㄏㄏ怎麼沒有人提挖礦潮要回來，老黃又要賺兩邊
怎麼看都是老黃繼續輾壓，市值能多高？或是搞拆股253F 03/01 07:15

作者 waitrop 的最新發文:

+41 Re: [閒聊] 矽谷房價高怎麼不考慮蓋大樓 - home-sale 板

作者: waitrop 76.103.225.6 (美國) 2025-01-11 16:49:15

: 答案是有的, 一直在蓋更詳細的解答, 矽谷很大, 加州更大, 不可能每個地方都蓋大樓, 只有city (downtown) 才能蓋大樓, 這跟容積率地區規劃有關, 跟台灣一樣, 所以San …

121F 41推
+7 Re: [請益] 投資的世界,努力研究真的沒用嗎? - Stock 板

作者: waitrop 76.103.225.6 (美國) 2025-01-06 10:51:34

27F 7推
+28 Re: [心得] 2024年報(太早降槓桿,重新存股TQQQ) - Stock 板

作者: waitrop 76.103.225.6 (美國) 2025-01-03 12:53:14

^^y :) :D XD 其實, 我不是指數投資派, 也從不相信分散化, 我來賭場是要來發大財的, 不是來賺5%-10%的獲利, 我其實是看不上QQQ, 更不要提VT, 我前面文章已經說了, 我把 …

51F 28推
+21 Re: [情報] 美國芝加哥採購經理人指數(PMI) - Stock 板

作者: waitrop 76.103.225.6 (美國) 2025-01-02 14:30:45

: : : : : : 最近美國投資界一直在喊核能發電, 甚至還主張核能發電是清潔能源, 雖然這裡頭有很大的炒股成分在(OKLO), 但是各個產業的巨頭的確是一直在喊缺電所以缺電很可能會限制美國接 …

51F 22推 1噓
+32 [心得] 2024年報(太早降槓桿,重新存股TQQQ) - Stock 板

作者: waitrop 76.103.225.6 (美國) 2025-01-01 07:49:34

存股TQQQ 已經四年多了, 以每年存10-12萬美金的速度前進, 今年美國總統選舉年, 選前一堆專家包含老謝一直說川普選上會崩盤, 川普會導致惡性通膨與世紀大蕭條, 雖然我支持川普, 但是我尊重專 …

73F 32推

點此顯示更多發文記錄