顯示廣告
隱藏 ✕
※ 本文轉寄自 ptt.cc 更新時間: 2025-12-14 23:30:37
看板 Stock
作者 minazukimaya (水無月真夜)
標題 Re: [新聞] 甲骨文股價暴跌超10%!訂單積壓越來越多 「燒錢」砸AI
時間 Sat Dec 13 03:06:12 2025


※ 引述《LDPC (Channel Coding)》之銘言:
: @@我是不知道其他世界線 我們公司有引入各種AI Tool
: 比方說在slack 我要開一個data bucket權限 (公司機密資料 權限最高級那種)
: 來測試我新模型 然後我就slack打serval (IT機器人公司方案)
: 他就開始一步步核對 然後最後一步還跟我說有各種data access 時間限制
: 然後就幫我設定好 然後最一關簽呈就是人類IT 這些步驟效率超越傳統IT很多
: 隨時都可以叫IT機器人幫我處理各種事情 前置作業大量弄好 只要一兩個人類做最後確認
: 同樣的 我在openai企業版(有專門設計給企業版) 這個整合內部公司所有文件資料
: 有一次我要設計模型 我就問這方面模型有誰設計過 結果他就拉出過去
: 三年各種歷史設計報個 還有各種benchmark 因為openai企業版可以整合公司資料庫
: 一下子我就能站在過去歷史巨人 不需要去問哪個部門之前幹過啥
: ai coding現在最大用途就是寫測試工具 真他x的好用 設計模型完之後 叫ai幫我寫
: script去做下游端大量測試
: 其他ai tool還有infenrece端可以直接調用prompt和觀察模型反應 以及notion
: 這種線上報告也引用自家ai tool 快速搜尋資料都挺方便
: 然後我們自己設計給下游顧客的ai tool 如果顧客說他工作時間沒縮短
: 那我們就拿不下訂單 現在垂直整合領域已經殺到紅血 每個tool 越蓋越先進QQ
: 我好想躺平 已經每天工時飆到16hr....... 改天再寫寫去NeurIPS看到的跡象
: Hinton/Jeff Dean/Yoshua Bengio/何凱明 任何你知道大神都去這今年NeurIPS
: 結論就是大廠真的要幹架了 Google DeepMind新政策 禁止發paper
: QQ 不發paper延伸意義就是 現在開始 狗家不會在開放他們自家模型設計秘密
: 目標就是要胖揍開放愛和其他競爭者...
: 目前狗家大量研究員生氣中 這次還有很多菁英邀請制度線下聚會 跑去蹭了NV/META
: 看到一堆海外的博士生在現場跪求進去Meta 線下聚會.......QQ
: 據說開放愛線下聚會是最難進去的 連地點和門路在哪都不知 只能被動邀請

沒關係,偷偷告訴你一個Insight
今年NeurIPS 2025有一篇超重量級的論文
Introducing Nested Learning
這篇文論的重要程度不亞於Attention is all you need
甚至可以說有過之而無不及

Transfomer架構只是發明了蒸氣機
Nested Learning這篇論文,簡直就是熱力學定律的等級了

基本上等於宣告Transformer架構過時了(因為是一種扁平和單一頻率的特例)
未來三到五年,全面轉向Nested Learning的時代

以下文字是我先寫一版,再請Gemini潤稿的洞察

--------這是AI潤稿的分隔線--------

當前 AI 發展正受制於一道物理鐵律:記憶體牆(Memory Wall)。傳統 Transformer 架
構依賴 KV Cache 維持上下文,這本質上是一種「以頻寬換取長度」的低效策略。隨
著上下文長度 T 的增加,Attention 機制的計算複雜度呈 O(T^2) 增長,而推論時
的記憶體搬運量呈 O(T) 線性增長。在 HBM 頻寬成長遠落後於 GPU 算力的現狀下,這
種依賴儲存大量未經壓縮原始狀態的架構,註定會從 Compute-Bound 跌落至 IO-Bound
的深淵。


Nested Learning 的出現,透過對記憶與推理本質的重新理解,為此困境帶來了典範轉移
級別的解答。

其核心突破在於「推論即訓練」的數學創新——Nested Learning 揭示了
Attention 機制在本質上等價於單步的梯度下降更新。基於此,HOPE 架構不再被動地檢
索歷史,而是主動將資訊即時壓縮為模型權重。這將原本受限於頻寬的檢索問題,轉化為
僅需固定算力的狀態更新問題,從根本上粉碎了記憶體牆。


在應用層面,這種架構徹底重塑了 AI 的個性化能力。HOPE 的動態記憶機制(Fast
Weights) 不再依賴傳統模型那種外掛式的提示詞(Prompting)來「模擬」短期記憶,
而是透過梯度更新,將使用者的偏好與習慣即時「內化」為模型參數的一部分。這不
僅在工程上根除了重複處理提示詞的算力浪費,更在體驗上創造出具備「演化能力」的專
屬模型,讓 AI 隨著每一次互動變得更懂你。

這一變革預示著當前 HBM 需求高速增長的趨勢將顯著放緩,技術改革的方向將轉向針對
不同更新層級的硬體特化:

邊緣裝置 (Edge): 承載高頻更新的快層,將不再單純追求頻寬,而是轉向追求大容量
SRAM 與極致的能效比,以支撐毫秒級的狀態寫入與計算。

雲端中心 (Cloud): 承載低頻更新的慢層,為了處理更複雜的邏輯推理與龐大的智能結
構,將演化出針對非歐幾何的特化運算單元,以在雙曲空間中實現更高維度的高效推理。

----------這是AI潤稿的分隔線-----------

你各位要小心HBM市場在2026年末的崩潰反轉
短期因為各種高頻信號,還是會持續推高HBM的市場價格
然後記憶體因為這些需求訊號,會瘋狂擴廠

等到「基於超大KV Cache的Transfomer架構」路徑依賴崩潰
新架構全面轉向HOPE的時侯
嘻嘻 刺激囉~~~

--
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 146.70.205.172 (日本)
※ 作者: minazukimaya 2025-12-13 03:06:12
※ 文章代碼(AID): #1fF6Uc_j (Stock)
※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1765566374.A.FED.html
※ 同主題文章:
ksjr        : 因為這新架構 google是不是又要重新設計TPU拉?1F 12/13 03:10
遙遙領先,狗家的硬體和計算架構和前沿論文研究,具有高度的一致性
互相加成,互相協同,full-stack優化
等到其他大廠醒悟過來,發現Nested learning才是正確方向
決定要放棄Transfomer時,狗家已經領先一年到一年半了

不信你丟給ai問,可以多問幾間互相比對
當然,要用正確的方式問才會得到正確的答案
你要先有足夠的背景知識才能識破關鍵點,問出最重要的問題

問問題的能力,大概就是新時代最重要的能力了XD
※ 編輯: minazukimaya (146.70.205.172 日本), 12/13/2025 03:16:47
iecju520    : 我看你根本不懂AI吧...2F 12/13 03:22
rayray0410  : 看到這ID就先推3F 12/13 03:24
L1ON        : 我在看openai倒數計時4F 12/13 03:27
ccneptunecc : 放棄transformer架構是否意味著需要更多GPU?5F 12/13 03:41
如果是以「當前同等能力模型」作為基準 答案是不會
因為Transformer+KV Cache是一種很低效的推論模型
低密度的無壓縮資訊儲存+重覆計算AttentionMap
導致超大量的能源浪費(算力和資料搬運成本兩者都是)
Nested Learning使用正確的層級特化結構的話 在推論期可以省下五到十倍的能源消耗

不過,架構優化和模型能力提升是兩步走的
在架構優化釋放出來的算力,最終會導致模型繼續依照Scaling Law擴大

所以結果是「省了十倍的能耗,那模型就能再大十倍」(這不是正確的數學,只是比喻)
算力需求永遠存在,因為文明的本質就是計算
※ 編輯: minazukimaya (146.70.205.172 日本), 12/13/2025 03:55:45
kuku951     : 需要更多GPU就需要更多記憶體…6F 12/13 03:55
需要從更細致的視角去切入
SRAM也是記憶元件 HBM也是 Host DRAM(LPDDR)也是
計算也一樣 tensor core是計算元件 systolic array也是計算元件
近存運算也是計算元件

所以「在哪裡計算,在哪裡儲存,如何搬運資料」從來就不是一個單一命題
一切都要從架構與系統級的視角下去拆解,才會根據需求得出一個答案

這也是為什麼邊緣層和雲端層會發展出不同的計算架構 因為需求不同
※ 編輯: minazukimaya (146.70.205.172 日本), 12/13/2025 03:59:39
ng101281    : 一根戳破泡沫的針來了7F 12/13 04:03
kuku951     : 感謝分享,這東西真的挺牛的,說不定這會是未來AGI8F 12/13 04:08
kuku951     : 的先驅,順便回覆樓上,如果這東西是真的搞得出來,
kuku951     : 那就是戳破那些說AI泡沫的人
roseritter  : 硬體現實有餘裕的話,原本現在吹的天文級算力需求很11F 12/13 04:59
roseritter  : 難蓋出來
roseritter  : 改新玩法就能現實點
研究(Model Refinement)時代和擴增(Scaling)時代是輪流出現的
Ilya Sutskever最近有一篇訪談可以看看
正如他所說,接下來時代巨輪要轉回模型改進了

不過,等到模型改進得差不多,又會重啟擴增時代
這兩個時代的過度也是漸變的,不是一刀切
「文明的本質就是計算」
你如果看不懂這一大堆Big Tech誰會贏,那也沒差
買2330 永遠是對的

tigerzz3    : 好久沒看到mina大 預計何時開撿?還是保守看?14F 12/13 05:07
感謝GOOG爆噴一波,現在YTD 90%了(真是出乎我意料..11月初時我本來已經躺平了)
https://i.imgur.com/NHJP572.png
[圖]

不過我在11月底賣掉一部份GOOG撿了NVDA,作整體部位Rebalance
然後今天就吃了一根超~~~級大的,腳麻了,哭啊

shead1983   : 這篇好驚人,感謝高高手分享內容,讀完後的感想是15F 12/13 05:08
shead1983   : 美光全力衝刺HBM,是不是慘惹?
嘻嘻 其實這篇只是我得到的洞察的一小角而已
真正重要的我沒說,不過這篇其實有很多引子
比方說在模型最深層(最慢層),需要非歐幾何的雙曲空間語義空間
(提示: Transfomer的語義空間是平面的)
這在Nested Learning論文裡是完全沒提的,是另幾篇資訊幾何學的研究

aegis43210  : 現在的確是有AI泡沫,但目前要看是啤酒先裝滿或是泡17F 12/13 05:10
aegis43210  : 沫先消掉
aegis43210  : 不過邊緣運算中,未來NAND看起來會是最缺的
考慮一個五層結構,最淺兩層(L1~L2)在邊緣,三層(L3~L5)在雲端
你猜猜看L1需要多少參數量? 答案可能出乎你意料的小
完全不需要放在NAND

而且從最快層的「權重即時更新」需求來看,也不能可能放在NAND

tigerzz3    : 今天這種盤 狗家不到1%真的太扯20F 12/13 05:14
kuku951     : 衝刺HBM怎麼會慘… 這個做法還真有可能解決HBM的困21F 12/13 05:15
kuku951     : 境 然後HBM的優勢在於頻寬跟速度 一定是未來最需要
kuku951     : 的
HBM的頻寬和速度很重要 這敘述沒問題
不過HBM的總需求是容量(Capcity)決定的
猜猜看如果把最深層的語義空間從平面換成雙曲,參數量會變成多少?
有論文可以查的,查查看
※ 編輯: minazukimaya (146.70.205.172 日本), 12/13/2025 05:44:36
flyawayla   : 花一整個早上快速掃完,看起來運算沒減少反而更多,24F 12/13 05:53
flyawayla   : 不同頻率互相獨立,不獨立我猜就要用記憶體存參數,
flyawayla   : 也沒有看到討論訓練速度,通常沒有就表示一定更花時
flyawayla   : 間,心得是中立,畢竟都發一個月了,可以再等等看其
flyawayla   : 他團隊有沒有跟上
我覺得你關注錯重點,HOPE架構的工程實作不是論文中最重要的部份
數學表達才是,這篇論文就算把HOPE架構整個去掉
純理論的部份就有相當於熱力學定律的價值

這代表一種更接近「知識、記憶、推理」的物理本質的理論
從而讓各大模型研究商能在巢狀學習的理論範式下,自由去探索各自的工程實現
類比於你有了熱力學定律之後,各種形式的熱機都有理論依據了

你看我前面對於未來模型的敘述(雲邊協同、不同語義空間的五層結構)
這和論文中簡化過的HOPE模型壓根就不是一回事對吧
因為HOPE模型的設計只是要作為論文的實證用途
而不是真正具備下一代模型的「工程可行性」&「商業可行性」的實作

至於下一代實作「可能會長什麼樣子」
那自然是不會在這裡解釋了...
反正即使我提了 99.99%的股板眾也是鴨子聽雷啊

waitrop     : 當你看到論文的時候,早就有特定的TPU xpu 了29F 12/13 06:03
狗家員工內線消息
我要是真信了 你就是在內線交易囉!!!

就事論事 TPUv7沒有明顯針對Nested learning的痛點去優化
(當然也沒有明顯不能跑的理由,依然可以跑)
至於v8之後怎麼設計,現在也沒有公開消息

比起雲端,我覺得現在是邊緣的計算架構沒跟上Nested Learning的需求

Morphee     : 先問一個問題 2017年 attention 出來之後30F 12/13 06:07
Morphee     : 你是否從技術押注中賺超過幾個億? 如果沒有
有 嘻嘻
你再回去翻翻我2019年談AI革命的文章
當時也是一樣,完全沒有人看懂我說什麼

Morphee     : 那 Nested Learning 也只是一個數據很普的實驗32F 12/13 06:09
※ 編輯: minazukimaya (146.70.205.172 日本), 12/13/2025 06:11:00
newwu       : 想想這運用到大規模,多客戶的時候,這真的會讓記33F 12/13 06:21
newwu       : 憶體減少嗎
newwu       : *會讓記憶體使用量減少嗎?
waitrop     : 邊緣計算也會跟上nested learning ,也有相對應的T36F 12/13 06:26
waitrop     : PU xpu
waitrop     : 會讓記憶體用量增加,但是不是hbm ,不能再多說了
如果根據手機上最快層的即時更新需求去推導
很明顯是要SRAM,而且不能和L1 Cache共用
既然要能放進整個最快層的權重,即使以INT4/INT8高度壓縮,也需要很大一塊SRAM
考慮到除了慢權重(預訓練參數)之外還要放快權重(記憶狀態)
加一加要個2~4MB的獨立SRAM是跑不掉的

fisher6879  : 呱呱呱,數學不會背叛我,不會就是不會,不過AI推論39F 12/13 06:29
fisher6879  : 的HBM需求下滑結論還是看得懂的,感謝mina大分享,
fisher6879  : 天網是不是又加速啦?啾命Rrrr
真der 天網近了 悔改吧

googstar    : 非goog的asic又要準備被輝達gpu揍爛了 改架構最能42F 12/13 06:31
googstar    : 適應的就輝達
losage      : 你應該要請open潤稿,g家唯一缺點就是不會說人話44F 12/13 06:33
我故意的 實際上Gemini Canvas寫小作文可以調長度
調越長它會試著擴寫 解釋的更清楚  但是我偏不 嘻嘻
說真的,看不懂的人,就把我整篇文字+NL的論文都餵給AI
然後再問AI就好啦,時代都是這樣了,要善用AI啊

steven853   : 所以結論是allin asic?45F 12/13 06:34
waitrop     : 沒錯,gb300的Rubin 三小的就是為了解決memory wal46F 12/13 06:34
waitrop     : l ,這問題業界都知道,但是願意改架構改算法的公
waitrop     : 司,也就只有谷歌跟輝達
Ipluck      : 回過頭看M大2019第一篇文真的是含金量十足   當時49F 12/13 06:36
Ipluck      : 就看的這麼徹底真的厲害
一般來說我是看未來3~5年的,再遠的我也看不到了
所以2019那篇講的是2019~2024的AI革命
這篇講的是2025~2030「通往AGI之路」

bunjie      : 先推在看51F 12/13 06:37
audic       : 核心權重會隨互動漂移=不可重現、不可審計、極易被52F 12/13 06:38
audic       : 誤導,現實系統根本不敢上線,頂多停在論文
回到上述的五層系統
你完全可以把最深層的(物理定律、道德價值、信念)基底層
靜態權重完全鎖定不更新,來防止惡意注入

論文提示的是一種數學架構,你理解了整個數學架構的話
實務上你完全有各種工程實作的細節去彌合你的需求

當然我完全同意這種動態學習的系統,在正式上線前一定要經過嚴格的對齊測試
不過這不會構成「永遠不會有能夠動態學習的系統」的理由

tsubasawolfy: 這名字取得好…看到就大概知道他要幹嘛54F 12/13 06:42
ksjr        : 有拉今天下午當薪水小偷時有問copilot 不過這個也發55F 12/13 06:44
elliotpepe  : 先推一個,未來再回顧56F 12/13 06:44
ksjr        : nested learning十一月初就發了 好像股價已反應?57F 12/13 06:45
Morphee     : 雲端跟edge會重分配吧 為啥會亂飄58F 12/13 06:47
看你每一層的更新頻率怎麼設定
再以五層模型舉例的話
雲端的L3可能是event-driven更新、L4可能是每天更新一次
L5就如上述所說,最好是不要亂更新

googstar    : 真的通往agi只會讓整個ai產業算力需求持續飆升?59F 12/13 06:53
googstar    : 看來輝達真的太便宜
買2330 永遠正確
鐵打的Foundry,流水的Design House

guanting886 : 感謝分享61F 12/13 06:57
afflic      : 2330有機會變成全球市值前三嗎62F 12/13 06:58
Morphee     : AMD效率轉折受益者/Apple邊緣語義既得利益者63F 12/13 06:58
爽到Apple 躺平到最後天上掉餡餅 賽道重置
抱緊GOOG大腿就贏那些花了幾百億美金看別人車尾燈的

breathair   : 我只後悔都看對了,轉倉太慢還一堆QQQ,XD不過至少64F 12/13 06:59
breathair   : 早一步清掉TSM跟NVDA
tomtowin    : 重點是SRAM,就是買2330,感謝分享66F 12/13 07:00
deltawai    : 感謝67F 12/13 07:01
chives465   : 推M大,請問除了TSM,AVGO會建議買入嗎?68F 12/13 07:04
Morphee     : 想了一下 Hyperbolic若起來 NV還是比AMD有利69F 12/13 07:04
qwe78971    : 股票不講這個 所以短期內沒用 到時候早就換股了70F 12/13 07:06
Morphee     : 看軟體是否續補topology-aware跟memory-flow API71F 12/13 07:08
不過,最深層語義改用雙曲,這可能是這篇文章裡最弱的推定
因為用現有的硬體算雙曲空間,那個運算量之驚人
光一個龐加萊距離就比歐幾里德距離高不止十倍運算量了

所以在專算雙曲的特化硬體內建之前
很有可能就是平面或球面加減用了

「切換深層語義空間」本質上就是「計算量 vs 記憶體容量/頻寬」的交換與權衡
雖然最終一定是會切到雙曲,但是這個改變要幾年發生,很難預估
快的話可能三五年,慢的話可能十年

billionerx10: 看來自研asic可能會是一條非常不明智的路 架構一改72F 12/13 07:16
billionerx10: 整個無用
hduek153    : 分享推74F 12/13 07:18
kottas      : 好文75F 12/13 07:19
jay412210   : 我2330是最大贏家76F 12/13 07:24
abyssa1     : 要放SRAM 那就回到CCW 說的 產能遠遠不夠77F 12/13 07:28
邊緣需要大SRAM,雲端不需要
至於邊緣什麼時侯真正爆發
那當然是要等Nested Learning的動態學習模型成為主流才行
畢竟單層的Transfomer是不可能在邊緣裝置跑的

當然,如果說Nested Learning的最快層實際上跑Transformer,那是有可能的
不過在這種情況下,L1層跑Transfomer+滑動窗口KV Cache(模擬工作記憶)
比起直插一個固定大小的RNN作為工作記憶,並沒有特別的優勢

總之,要看到邊緣裝置爆發
大概會是2027~28之後的增長點了

GinginDenSha: 推,呆灣房子買起來,呆民財富持續噴射78F 12/13 07:30
littlelaba  : 一句話 做多還做空啦79F 12/13 07:32
whyhsu      : 好80F 12/13 07:35
suzuke      : Nested Learning 推論即訓練聽起來很美好,但是你81F 12/13 07:39
suzuke      : 要知道現在的推論只要做「前向傳播 (Forward Pass)
suzuke      : 」,運算量相對小。Nested Learning在推論時,內部
suzuke      : 還要做反向傳播 (Backward Pass)或梯度更新,每生
suzuke      : 成一個字,計算量可能變成原本的 2-3 倍。再來訓練
suzuke      : 穩定性極差,也還不能平行化,這些問題沒解決前,
suzuke      : 它想要成為LLM的聖杯取代Transformers 還太早
你這屬於論文沒看清楚,或是直接丟AI叫它生答案的結果
再看清楚一點,HOPE架構的最快層有作反向傳播嗎??
在一個參數量很小、只處理簡單語義連結的最快層,直接一個DGD作掉了

要請AI讀論文,也要有足夠的背景知識,不然你根本不知道關鍵在哪
AI隨便說你隨便信

Morphee     : 從Attention到ChatGPT也差不多五年 合理的時間尺度88F 12/13 07:40
gcarrot     : 我也是11月底清了GOOG, 買入NVDA, 現在有點痛..89F 12/13 07:45
都是ORCL的錯 救救NVDA 救救

Morphee     : 樓上你講得也是我問的問題 2017年你看到Attention90F 12/13 07:45
Morphee     : 樓樓上才對 也可以說出類似的論點 Attention要成為
Morphee     : AI聖杯還早 NLP還不成熟等等
任何洞見從技術前沿傳導到普羅大眾都要時間
這我五年前講AI革命時就說過一次了
問題是,當一個洞見變成新聞每天狂報的時侯,早就失去交易價值了

n555123     : 推93F 12/13 07:48
mamorui     : 菇菇之前有提過,今年下半年正式進入聖杯終戰(我94F 12/13 07:51
mamorui     : 個人預計三年時間) ,市場通常第二年上半場會開始
mamorui     : 醞釀分勝負的前奏
aspirev3    : 邊緣裝置爆發 還跟七巨頭有關嗎97F 12/13 07:51
jimjim951357: 感謝分享98F 12/13 07:52
ejnfu       : 所以要買哪支? Google NVDA都已有了99F 12/13 07:52
kkes0001    : 搞笑,革命性論文要多少有多少,重點是實作,trans100F 12/13 07:52
kkes0001    : former 到llm 中間隔多久你知道嗎
kkes0001    : 在這邊留個言當紀錄,幾個月後再來看看肯定還是原
kkes0001    : 樣
原文就跟你說三到五年的大趨勢了(攤手)
至於知道這樣的技術趨勢 要怎麼轉成短期的獲利
嘻嘻 不教你

overpolo    : 真的感覺天網近了...104F 12/13 07:54
timtdsas    : 真股板女神推推105F 12/13 07:55
Morphee     : Attention/Transformer上位速度算非常快了106F 12/13 07:56
Morphee     : 但是還是對投資技術的慧眼要求很高 敢在2022年底前
Morphee     : 重押的 還是有一個很強的嗅覺
breathair   : 聽起來,GOOG,AVGO,TSM,AAPL是不錯的組合?109F 12/13 08:01
lokagh      : 這種突破表示未來可降低ai電力需求?110F 12/13 08:01
解決模型架構的能源效率,只會導致更快的Scaling Law,更早的超人工智能時間表
電力需求要下降,這是不可能的
因為「文明的本質就是計算」

這九個字其實是資訊密度最高的洞察,可以解壓縮成十萬字以上的文章
只是你要會用正確的方式解壓縮
※ 編輯: minazukimaya (146.70.205.172 日本), 12/13/2025 08:05:36
Morphee     : 現在比較煩惱是谷歌有Attn論文被OpenAI反超的經驗111F 12/13 08:04
Morphee     : 上頭可能不準發有料的文章了
kkes0001    : 那只能說你要嘛不是這個學術界的要嘛AI頂會論文看113F 12/13 08:08
kkes0001    : 少了,革命性論文說多不多,說少也不少,但真正能
kkes0001    : 走出實用這道坎的是少之又少
dodobaho    : M大看壞記憶體?116F 12/13 08:09
jacky5946   : 謝謝大神分享乾貨117F 12/13 08:09
darkangel119: 想到發明藍莓機的電影 黑莓  將資料壓縮讓通訊塔的118F 12/13 08:09
darkangel119: 乘載量暴增
joe2        : 論文啊….個人是不信120F 12/13 08:09
breathair   : 聽起來懶人重壓TSM無敵XD121F 12/13 08:11
Morphee     : 應該是說資本投入的方向性 崁很多阿 理論 實驗 工程122F 12/13 08:12
Morphee     : 不是看幾篇論文衝過去單押 方向感阿
loopdiuretic: 先推不然別人以為我看不懂124F 12/13 08:15
qscNERO     : 推 謝謝分享125F 12/13 08:19
pc007ya     : 神 感謝分享,NVDA盤兩個月還下跌哭了 2330 GUC放126F 12/13 08:21
pc007ya     : 抽屜傳家了
beavertail97: 所以要出清NVDA的意思?128F 12/13 08:22
AndyMAX     : 出清蒜粒小隊129F 12/13 08:28
lovealgebra : 習近平要統治世界了130F 12/13 08:30
calqlus     : mina桑都修過來了...大盤真的牙敗了...131F 12/13 08:32
believefate : 結論 還可以炒股到2026 沒事132F 12/13 08:36
FireStarman : 作者都買NVDA了還有人說出清NVDA?133F 12/13 08:40
GX90160SS   : 績效跟鬼一樣134F 12/13 08:41
mudmud      : Entropy Control135F 12/13 08:41
dongdong0405: 這讓我想到早在RAG開始火了之後我就跟同事說RAG這東136F 12/13 08:42
dongdong0405: 西早晚會被取代
否,並沒有說Nested Learning就不用RAG
因為Nested Learning展示記憶機制是有損壓縮(遠久的越模糊)
所以必然要在某一層引入RAG的
可能是L2層,可能是L3層,可能是L4層,在工程實作上彈性很大
就像你要記筆記一樣
要外部儲存一個記憶關連的錨點去重新強化連結

axr         : 推 看來無腦堆tsm安心睡了138F 12/13 08:48
bnn         : 總覺得聽你的描述蛋白質剛進入第一層摺疊139F 12/13 08:48
bensonla    : 推,買2330就對了140F 12/13 08:49
jen1121     : 2330 NVDA APPL,三檔續買141F 12/13 08:52
Risedo      : 都顛覆性了 AGI還要2030嗎142F 12/13 08:55
MumiPyonPyon: 說要取代transformers的文章年年都有143F 12/13 08:58
Eide        : 我大谷歌天下無敵144F 12/13 09:01
leotw       : Tsm: 片上sram需求goog: 最高效模型+最低運算成本145F 12/13 09:03
allenmusic  : 好專業文 感謝146F 12/13 09:05
a39208491   : 推147F 12/13 09:10
barrytwu    : 2330+NASDAQ無腦多!148F 12/13 09:12
wangyl      : 有料149F 12/13 09:13
Smile365Day : 應該是要出清做HBM的記憶體廠商150F 12/13 09:13
Lowpapa     : 這篇論文跟我想的一樣151F 12/13 09:21
AJEN1202    : 感概自己書讀太少看不懂152F 12/13 09:21
Lasvegas    : 推153F 12/13 09:23
g0t24568    : Mina大995154F 12/13 09:29
stonerr     : 感謝分享155F 12/13 09:29
vvnews      : 問AI AI卻回答HBM需求反而會暴增 請問那裡有問題QQ156F 12/13 09:29
lasekoutkast: 重點是掌握權力的那些政治人物157F 12/13 09:31
lasekoutkast: 產業的發展跳脫不了人的管理
breathair   : 你整篇喂進去,不要自己問比較準,AI有答案了159F 12/13 09:32
lasekoutkast: 那些掌握權力的政治人物決定AI發展的快慢160F 12/13 09:32
abyssa1     : 繼續卡dram bandwidth才會讓NVDA上不去161F 12/13 09:35
abyssa1     : 路線沒改的話 到時候dram比顯卡還貴
lasekoutkast: 泡沫的產生歸根究底就是在理論尚未成熟前就一窩蜂163F 12/13 09:35
lasekoutkast: 的投入資金
abyssa1     : Mina為什麼你的ip 在日本 出國玩還這麼認真研究喔165F 12/13 09:37
aixiiae2005 : M大可以直接講標的嗎= =不然2030你又要發文說2025發166F 12/13 09:38
aixiiae2005 : 的文沒人看得懂了...
aixiiae2005 : 這樣2030也可以回來稽查XD
ndk2675m    : 新架構的產品,由誰生產@@?169F 12/13 09:40
bigwhiteeat : 哥 不能說中文嗎….170F 12/13 09:41
Humanbeings : 這篇含金量超高,已經顛覆對未來AI的想像,感謝分享171F 12/13 09:41
lajeremy    : 感謝分享 讚歎Ptt法人172F 12/13 09:42
lasekoutkast: 產業的發展還要考慮現金流173F 12/13 09:43
liliumeow   : 聽起來更接近人類大腦 但如果這個架構加上超大記憶174F 12/13 09:46
liliumeow   : 體 有什麼不好 記憶好總是有地方可以派上用場 搞不
liliumeow   : 好是機器超越人類的地方
lusifa2007  : 好文推推177F 12/13 09:47
kao9458     : 這個team在ttt的前提下,水了好幾篇paper,寫的最178F 12/13 09:49
kao9458     : 好的是故事
qilar       : 安啦 transformer 不會死的180F 12/13 09:52
yuantai     : 燈別開那麼亮,很多人還有美夢不想醒181F 12/13 09:52
NekomataOkay: 感謝信心加持182F 12/13 09:52
sustto      : 記憶體終究要回白菜價惹 PC又贏183F 12/13 09:55
asssstang   : 看不懂,但有料給推184F 12/13 09:56
abyssa1     : 記憶體要回白菜價 至少要到產能大量開出來 還很久185F 12/13 09:56
eriker      : 又不是O T 就比較好 這種線性模型早就一堆 transfor186F 12/13 09:56
eriker      : mer跟暴力解沒兩樣 一定是最強的
kajika      : HBM之後崩潰反轉也不會是這個原因啦188F 12/13 09:57
webberya    : 我看懂關鍵字了,鐵打的2330買起來就對了189F 12/13 09:57
[圖]
mamorui     : 公司財不揭露  嘻嘻 狗狗比這篇論文發表 可能有新191F 12/13 09:58
mamorui     : 的才會發表
[圖]
 
[圖]
[圖]
smallmin36  : 好專業!只能推了196F 12/13 09:58
assassinzero: 這篇重點:如果nested learning可行,記憶體的美夢197F 12/13 09:58
assassinzero: 就會破碎
[圖]
eriker      : 而且資訊越多變爛機率更高 gpt用起來就是這樣 真正200F 12/13 09:58
[圖]
eriker      : 有用的通常就是最近的202F 12/13 09:58
ojh         : 高手 這下nv真的要崩爛 只能抱孤狗了203F 12/13 09:58
[圖]
jerrychuang : google不是在2024年就提出Nested Learning的概念了.205F 12/13 09:59
jerrychuang : .其他家應該多少有研究了吧..雖然GOOG還是絕對領先
jerrychuang : 啦
[圖]
mamorui     : 公司財最後不再揭露時 AGI就準備完成210F 12/13 10:00
nidhogg     : 先無腦台積電再看誰打贏?211F 12/13 10:00
eriker      : 長文的任務跟短文是明顯不同的 如果trasmformer在記212F 12/13 10:00
eriker      : 憶體可行下都還是最強
「推論即學習」
你覺得無損儲存(KV Cache)比較強,實際上是「死記硬背,沒在學」
壓縮資訊=從低維空間向高維歸納的過程=學習
人的大腦可沒有無限KV
相對的,根據自由能原理相關研究
你在腦中壓縮資訊時,會因為預測誤差改善而分泌多巴胺
也就是說
基於資訊壓縮而生的生理機制(=求知欲)是文明進化的關鍵因素

goodjop     : 尊重專業 推,但懂再多的人 短線還是會看錯214F 12/13 10:05
goodjop     : 何不長抱 刪APP即可?
goodjop     : 如果再2020年就有NVDA 已經是25倍的獲利
ojh         : 科技變化很快 孤狗推tpu出來 長抱nv刪app的全死217F 12/13 10:09
goodjop     : 真的嗎? 很多人都還是賺錢 死在哪?218F 12/13 10:10
MinJun5566  : 我信mina大219F 12/13 10:10
goodjop     : 你的言論 讓人容易記住ID 而且越來越容易記住了220F 12/13 10:11
marke18     : 謝謝分享~~221F 12/13 10:11
loveadu     : NV65收,2奈米現在誰用?222F 12/13 10:15
cosmite     :223F 12/13 10:17
karcher     : 搞AI快變搞哲學了,這有助於營收?224F 12/13 10:18
brightest   : 看起來nested 頻寬需求只會更大 如果CIM起不來 HBM225F 12/13 10:18
brightest   : 需求只會更大 所以關鍵反而是CIM的創新而不是neste
brightest   : d
faultless   : 看起來谷歌玩的方式才是未來的主流228F 12/13 10:19
as6633208   : scaling law增速>>放緩>>找到更好的算法>>scaling l229F 12/13 10:19
as6633208   : aw增速 LOOP
as6633208   : 不需質疑scaling law,除非你相信人類科技停滯
plaay       : 現在還沒有nested learning 劃時代發明的感覺232F 12/13 10:21
a1234567289 : Scaling law不是聖經捏233F 12/13 10:22
as6633208   : 質疑scaling law大概就是覺得人類科技現在就是頂了234F 12/13 10:24
as6633208   : ,不會再更好,破台了,你覺得可能嗎,宇宙那麼大尺
jerrychuang : 應該是HBM下降,但一般LPDDR上升.因為不需要一直搬236F 12/13 10:24
jerrychuang : ,而且餐數量下降
stanleyiane : 推~238F 12/13 10:25
as6633208   : 宇宙那麼大尺度,你覺得人類文明就這樣見頂了,人生239F 12/13 10:25
as6633208   : 真無趣
guanting886 : 定期定額買進,做好隔代沖241F 12/13 10:27
jian0202    : 先推242F 12/13 10:28
a1234567289 : 你對scaling law的理解是整個文明算力需求會上升243F 12/13 10:29
a1234567289 :  但這玩意說的是隨著模型規模增長 他就會表現得更
a1234567289 : 有智慧
bonjour87   : 你的最後假設是記憶體會因為需求擴廠.結論會崩盤?246F 12/13 10:30
bonjour87   : 但現在看到的是記憶體寧願裁掉消費性也不擴產.
一般來說記憶體會有長鞭效應
不過你說的也沒錯,如果市場很快就納入長期信號
不再瘋狂推高HBM價格,三大記憶體廠也沒有因瘋狂的短期價格訊號擴廠的話
最終的曲線可能會更平淡一點
泡沫有多大,破的時侯就有多刺激
我文中說2026年末要小心的前提是
明年上半HBM繼續以每季+20%~30%的價格增速瘋漲
如果現在就是HBM價格高點,稀缺性炒作停止,那反而不會有後面刺激故事

a1234567289 : 文明能量 算力需求或許會上升 但這和模型說的scal248F 12/13 10:30
a1234567289 : ing law是兩件事
Comtw       : 我看不懂 是不是注定當韭菜了250F 12/13 10:31
a1234567289 : 另外 地球尺度夠大了吧 從第一個生命誕生到現在 生251F 12/13 10:31
a1234567289 : 命體的智慧走的一直是更有效率而非更大
kei1823     : 美光究竟是不是先知253F 12/13 10:33
as6633208   : 單細胞生物也很有效率,始終了展不了科技,就是要堆254F 12/13 10:37
as6633208   : ,有效率只是堆更快,還是要堆
rayisgreat  : mina大大回來了!先推先推!256F 12/13 10:38
a1234567289 : 我只是認為架構永遠優先於規模257F 12/13 10:39
TIPPK       : 99公公258F 12/13 10:40
kuosos520   : all in TSMC or GOOG NVDA TSMC AAPL?259F 12/13 10:40
jatj        : 2樓噓的好懂 發表一下低見如何260F 12/13 10:42
yuen1029    : 講到人家看不懂就贏了261F 12/13 10:50
tinybunny   : 想買鴨 但看到macd就先等惹262F 12/13 10:50
afacebook   : 2年我看大家也是說transformer完蛋了 是mamba得天下263F 12/13 10:51
afacebook   : 可是現在主流還是都用Transformer
afacebook   : 看起來真的很厲害 不過在看看
Mamba只有一層更新頻率
你套用在Nested learning的框架下去理解各種對Transfomer的改進
會發現他們都共享同一套數學表達
所以才說真正重要的不是HOPE架構,而是論文前半的那套數學

Noberman    : 只有中國要擴廠 你哪邊資訊看到其他要擴的?266F 12/13 10:54
schula      : 優文推推真有趣,言簡意賅,感謝信心加持267F 12/13 10:56
BBKOX       : 買半導體ETF應該不會輸吧268F 12/13 10:57
s942816     : 你不如說量子電腦統一世界269F 12/13 10:59
a9564208    : 最後針對邊緣裝置跟雲端的論述,是不是代表通訊又噴270F 12/13 11:00
afacebook   : 我看起來他跟qkv結構沒甚麼關聯ㄟ 他是一種新的梯度271F 12/13 11:00
afacebook   : 度更新方式
afacebook   : 論文確實很厲害 不過跟記憶體好像沒啥關聯
FULLHD1080  : 記憶體那邊省下來的錢,會轉去計算晶片,這樣講大家274F 12/13 11:02
FULLHD1080  : 懂了嗎
woker       : 不要吵買google就好276F 12/13 11:07
josephpu    : 推277F 12/13 11:08
lovemost    : 計概還老師了….努力回憶中278F 12/13 11:08
ookimoo     : 軟體,硬體會發展,需求不會像你想的那樣提升,top279F 12/13 11:15
ookimoo     :  player手上的錢也是要從投資變回收,聽不懂也沒辦
ookimoo     : 法
overpolo    : 怎麼會沒關聯  同等級算力用的記憶體變少 所以資源282F 12/13 11:15
overpolo    : 要先轉去撐高算力  之後算力高了變成存儲能力遇瓶頸
overpolo    : 就要再把資源拿去擴充記憶體  這是個正向的景氣循環
joey2k14    : 所以買NVDA、TSM、GOOG、AVGO、AMD、APPL對吧285F 12/13 11:17
aegis43210  : 大規模路線肯定是會有用的286F 12/13 11:17
woker       : 買半導體etf好了 基金會自動幫我們研究287F 12/13 11:22
strlen      : 要怎麼證明紀憶體不重要了?288F 12/13 11:25
FULLHD1080  : 以fab而言,記憶體御三家營收會典範轉移到TSMC,然後289F 12/13 11:27
FULLHD1080  : 我的AGI一定要比你強,所以開始瘋狂捲算力
FULLHD1080  : 現在大家在捲小孩子的學歷,以後大家改捲誰家的機器
FULLHD1080  : 人比較聰明比較能打
flightmoon  : 跟AI聊完,如果要在NL以及BCI上投資,AI建議TSM、293F 12/13 11:42
flightmoon  : GOOG、ISRG
[圖]
koushimei   : 就是台積電繼續吃肉 韓廠挫賽296F 12/13 11:47
f0915034335 : 看不懂但先推再說297F 12/13 11:49
JasonTatum11: 就是N變log N 這不是大一就學過的東西嗎298F 12/13 11:56
abyssa1     : 記憶體需求不會下降 只是增速回到線性而已299F 12/13 11:58
對,因為要解的問題又從IO bound變回compute bound了

mamorui     : 趨勢是AI用記憶體扶正  除非谷歌成功顛覆硬體界「300F 12/13 12:03
mamorui     : 算力愈高 記憶體永遠不夠用」的基礎觀念
mamorui     : 計概的東西是最難撼動的
是Compute intensity改變了

cloud1030   : 感謝大大的分享 與我想的差不多303F 12/13 12:06
feeling5322 : 感謝大大無私分享304F 12/13 12:11
ynanlin     : 從一個學習AI新架構的角度,我把minazukimaya大的305F 12/13 12:12
ynanlin     : 意見和Google nested learning paper放到NotebookL
ynanlin     : M上,先做了這份Deep Research報告,大家可以看一
ynanlin     : 下 (http://bit.ly/497jV9T)
ab4daa      : 快搞死記憶體吧 想組電腦了309F 12/13 12:13
dream12305  : 小看華爾街財技310F 12/13 12:16
longlyeagle : 結果下一世代最後還是靠Google...311F 12/13 12:24
BBKOX       : 還沒到最後的物理AI,一切都難說312F 12/13 12:25
BBKOX       : 半導體ETF買起來
SuperBig78  : 所以nested learning架構的出現會加速AGI的出現嗎?314F 12/13 12:28
真正的AI產業領導者 aka. Sir Demis Hassabis
他說我們離AGI還差一到兩次的關鍵技術突破
Nested Learning高機率是其中一個(用統一的數學語言重新描述知識與學習的本質)
剩下一個,我不知道 等Google Researh研究出來我再跟你說

bonbon789852: 看不懂但是感謝分享 大GG天下無敵315F 12/13 12:30
eatlion     : 感謝大大無私分享316F 12/13 12:30
ctes940008  : 要爆了嗎?317F 12/13 12:33
for767      : 有什麼好刺激的?記憶體已經好幾次這樣了318F 12/13 12:37
每一次記憶體週期都很刺激好嗎XD

jorden      : 感謝分享 終於懂目前AI模型語言一堆限制的邏輯了319F 12/13 12:37
bring777    : 領先技術的,現在誰新手機沒用AI ?320F 12/13 12:38
oops801011  : 推321F 12/13 12:43
SilverRH    : GSIT先躺一票人進去了322F 12/13 12:47
pmes9866    : 老鐵牛逼 我要好好複習我的數學了323F 12/13 12:49
loopdiuretic: 那台積要回房間喝酒了嗎 奪門而出啥時回來?324F 12/13 13:12
s81048112   : 看完推325F 12/13 13:14
CCPenis     : 還真的是2330無腦多326F 12/13 13:19
BBKOX       : 重壓TSMX,再加上七巨頭槓桿ETF,應該可以應對後面327F 12/13 13:22
BBKOX       : AI的發展
junior020486: 甲骨文丸辣329F 12/13 13:22
BBKOX       : 囊括代工、算力、模型、應用330F 12/13 13:23
※ 編輯: minazukimaya (146.70.205.172 日本), 12/13/2025 13:23:49
NoMomoNoLife: 賀出桶!還馬上熱心分享QQ331F 12/13 13:23
ynanlin     : 關於接下來幾年學習推理運算所用的晶片,會朝更客332F 12/13 13:23
ynanlin     : 製化,記憶體需求與架構也將改變,由於NL是Google
ynanlin     : 開發也正積極落實應用,可想見內部有更多相應硬體
ynanlin     : 架構的研發,也有相對領先的優勢。粗淺的Deep Rese
ynanlin     : arch報告第二則分享給大家看看(https://bit.ly/4rVv1X3)
ynanlin     :
walkingtall : m大厲害!希望後續持續幫忙暗示(或明示XD)救一下338F 12/13 13:25
walkingtall : 我們這些小菜雞XD
nikoyaka9527: 推mina大,謝謝分享資訊340F 12/13 13:34
rayisgreat  : 前幾天才看到TSMC釋出的N7到未來A14的效能演進,再341F 12/13 13:37
rayisgreat  : 加上架構模型持續架化,兩者相輔相成實在很難想像未
rayisgreat  : 來的AI世界會有多可怕@@
rayisgreat  : *持續進化
alanjiang   : 這是可以免費看的嗎www345F 12/13 13:38
rayisgreat  : https://reurl.cc/eVM4xW346F 12/13 13:39
rayisgreat  : 再次感謝mina大大分享
TSMC claims 4.2X efficiency gain over a decade from N7 to A14 fabrication process | Tom's Hardware TSMC clarifies A14 specifications: Even more performance, but better tools might be needed to extract the full potential of the latest process technol ...

 
bob1012     : 感謝分享348F 12/13 13:48
ACDC69      : 看不懂,先推349F 12/13 13:49
OuO333333   : 看起來像Transformer+RL?350F 12/13 13:58
mamorui     : mina大一定知道數學猜想也在靠AI解決中,菇菇我等351F 12/13 14:01
mamorui     : 躺在科學家塵封盒子的做不下去的論文登場,AI的第
mamorui     : 三篇章聖杯是黑科技。
不止是數學,包含社會科學和經濟學,這種傳統上歸到文組的領域
實際上也是需要AI研究的
因為數學語言是有普世擴展性的
所以從Nested Learning的起點出發,再多幾步推導
就能得出「文明的本質就是計算」
延伸出L6與L7的計算層,發展出一套用來描述文明、制度的數學語言

https://reurl.cc/6bK3Q5
我提供一個引子給對這方面研究有興趣的人去讀
老樣子,如果讀不懂,就丟去問AI吧
※ 編輯: minazukimaya (146.70.205.172 日本), 12/13/2025 14:15:06
TaiwanUp    : NL=控制理論 Transformer=引擎 HOPE=會變形的引擎354F 12/13 14:11
TaiwanUp    : 會變形的引擎在飛機來說很恐怖 但模型訓練不一定
TaiwanUp    : 熱力學定律還是至高無上 很難有什麼技術可比喻為之
TaiwanUp    : 熱力學定律是不可被比喻的
你小看了Nested learning這篇論文的背後擴展潛力
它不單單只是一篇關於AI的論文,它「正好是熱力學定律的反面理論」
熱力學是關於「宇宙的熵增」
Nested learning是關於「文明的熵減」
剛好是對偶關係

TaiwanUp    : 剛睡醒就看了好人名單文 刷了兩小時的手機358F 12/13 14:16
h22349      : 別想太多 一篇優化效率 現在ai就像是國土擴張,遲359F 12/13 14:22
h22349      : 早會有新算法,需要這些資源
※ 編輯: minazukimaya (146.70.205.172 日本), 12/13/2025 14:24:18
FULLHD1080  : AI的飛輪效應要來了,算法-硬體 相互改善,直到物理361F 12/13 14:25
FULLHD1080  : 化學的窮盡
linweida    : 睡醒看到Mina大的文必推!   (mina怎麼好像不用睡覺)363F 12/13 14:30
ykjiang     : SRAM太貴太佔die size且面向用戶,不用太低延遲364F 12/13 14:38
ykjiang     : DRAM應該更適合
TaiwanUp    : 文明熵減是局部熵減 很難跟全域對偶 但是人致富關鍵366F 12/13 14:57
hotbeat     : CUDA 才是那個聖杯 ,ASIC只能做edge的367F 12/13 14:59
MoonCode    : 想太多了368F 12/13 15:01
hotbeat     : 怎麼看google還是最大贏家,跟台廠有結盟的基本上369F 12/13 15:08
hotbeat     : 都不用擔憂太多
breathair   : 再推一次!看完覺得自己對AI的發展拔高了不只一層!371F 12/13 15:15
TaiwanUp    : 宇宙和文明還是有對偶 但沒有野蠻和文明那麼明顯372F 12/13 15:23
afacebook   : 當初大家覺得Mamba能取代transformer 是MoE+mamba或373F 12/13 15:32
afacebook   : 其他的架構 當然不可能只有一層ssm的架構啊
afacebook   : 這東西感覺是一種特別的fine turing
afacebook   : 能不能成功 要再多做一點實驗
afacebook   : 現在主要還是覺得大模型比較強
afacebook   : 這是想要做些中模型 就能有很好的適應能力吧
afacebook   : 很特別 請google再多做一點實驗
afacebook   : CMS這種更新方式 其實跟一般 先凍結一些層 然後慢慢
afacebook   : 打開 不是很像嗎?
afacebook   : 然道主要是那optimizer有貢獻嗎
afacebook   : 好像也沒這麼簡單 要再研究一下
TaiwanUp    : NL像是聯合國憲章 HOPE是機構+流程 Transformer美國384F 12/13 15:52
TaiwanUp    : Mamba就是另一國 但看起來沒有成氣候
misthide    : 總歸一句 2330是最大贏家 任何新技術都繞不開它386F 12/13 16:02
BBKOX       : 以為買了AI Pro就能一直使用Gemini思考型,結果還387F 12/13 16:10
BBKOX       : 是有次數限制…
afacebook   : Mamba有沒有成氣候 還不知道吧....389F 12/13 16:24
afacebook   : 每次新架構出來 基本都會吹一下  要經過檢驗
afacebook   : 說實在 我個人是覺得沒有到當初看Transformer那種
afacebook   : 神奇感 就是等看接下來發展
PTTMAXQQ    : 感恩啊 謝謝分享專業知識 對我幫助蠻大的393F 12/13 16:40
sss966146   : 想問2019是哪一篇394F 12/13 16:50
h129875230  : 要五層參數 不就要一大坨人幫忙 fine tune嗎 這個395F 12/13 16:51
h129875230  : 五年內就出來 是不是有點樂觀
五層不是五個模型好嗎,它是同一個模型的巢狀表達
在快層傳到慢層時,傳遞的是「語義向量」
這就表示L2傳給L3的語義向量要是同義的
也就是說,整個模型是要五層一起聯合訓練的
預訓練時不可能分散佈署
是訓練完才把L1/L2的初始靜態參數(慢權重)佈署到邊緣端

jonaswang01 : 我g天下無敵還有人有疑問?397F 12/13 17:12
suPerFlyK   : 只能推了398F 12/13 17:17
akanokuruma : 意思是記憶卡現在風聲水起 隨著技術更新 擴廠=負債399F 12/13 17:29
akanokuruma : 虧損 暴死
Bellucci    : 看不懂所以問AI, 它建議是Goog/AAPL/AVGO/QCOM/ARM/401F 12/13 17:35
Bellucci    : TSMC/聯發科 , Nvidia有其護城河且他具備訓練功能不
Bellucci    : 至於死掉但要分散風險不重倉。
Bellucci    : TSM是絕對防禦
darkangel119: AI回答我是SRAM IP 跟 ASIC 事核心受益者 咦?405F 12/13 17:40
[圖]
 
[圖]
[圖]
 
[圖]
Bellucci    : 我菜雞還是QQQ和mega 7就好,神仙打架我沒資格參加410F 12/13 17:52
joewang85   : 推411F 12/13 17:58
※ 編輯: minazukimaya (146.70.205.172 日本), 12/13/2025 18:07:13
as6633208   : 行業護城河問gpt你會很慘喔,每間護城河都是在增加412F 12/13 18:06
as6633208   : 的要看的是未來布局
mudmud      : Active Entropy Control Model414F 12/13 18:28
Bellucci    : 我沒問行業護城河欸我直接給論文它自己寫的415F 12/13 18:28
Bellucci    : 重點不在第四張在前三張
Bellucci    : 反正AI沒回要買Nividia 是建議前三張的標的
lee198218   : 謝謝提供非常好的素材418F 12/13 19:00
breathair   : 此篇重點在未來AI世界的描繪,虛擬與現實的雙耦,虛419F 12/13 19:06
breathair   : 擬的入口(GOOG,APPL),物理的極限(TSM,CEG)
lavign      : 通用型怎麼什麼都不精怎麼和ASIC比421F 12/13 21:03
PTTMAXQQ    : 你各位還是想想最終消費者會選擇從哪個入口去付費A422F 12/13 21:16
PTTMAXQQ    : I
sustainer123: 這篇不是github還沒開源嗎?424F 12/13 21:28
avans       : 不懂Nested Learning如何降低vram用量,不過先推了!425F 12/13 22:49
njjroom     : 謝謝mina大的分享引起很多大大的討論,跪學中……426F 12/13 23:16
ksjr        : asic每次換算法都要重新設計來取得最佳效能啊427F 12/13 23:39
avans:轉錄至看板 AI_Art                                         12/14 00:12
ykjiang     : 這用TPU跑一定悲劇,GPU勉強可以,ASIC有得等428F 12/14 02:00
ykjiang     : 不過NL不會太快取代現有的LLM,即使硬體充分支援
ykjiang     : 每個人都雲端學習自己的AI model,學出來還都不同
ykjiang     : 太不可控了
ykjiang     : 可以考慮邊緣端的應用,不過風險還是很高,容易被告
JKjohnwick  : 太唬爛,這要甚麼時候商轉,甚麼時候價格降下來433F 12/14 13:43
JKjohnwick  : 如果可行的話,採購第一個轉過來買這個
mtm         : 這是股版目前最有料的一篇435F 12/14 14:59
mtm         : 9月的時候要減碼TSM,現在要趕快補回來了嗎

--
※ 看板: Stock 文章推薦值: 0 目前人氣: 0 累積人氣: 352 
作者 minazukimaya 的最新發文:
  • +29 Re: [標的] 華邦電 2344 (空) - Stock 板
    作者: 146.70.205.100 (日本) 2026-04-14 14:24:45
    最後一次更新華邦電,因為我大部份都回補了 之後就不再發文追蹤 未到目標價就回補的主因是總空單曝險水位控管 結合另一篇旺宏的標的文,兩檔的風報比持續拉大 下定決心的因素是今天旺宏漲停,我小量進場五月期 …
    50F 33推 4噓
  • +50 [標的] 旺宏 2337 (空) - Stock 板
    作者: 146.70.205.100 (日本) 2026-04-09 15:44:27
    標的: 2337.TW 旺宏 分類:空 分析/正文: 基本面 2026 Q1樂觀預估1.2~1.5元 主因為三月營收顯著成長,不過成本項不好估計 2027全年EPS,依凱基預估為107,EPS成長率 …
    90F 51推 1噓
  • +43 Re: [標的] 華邦電 2344 (空) - Stock 板
    作者: 138.199.22.149 (日本) 2026-03-29 17:43:44
    終於回臺灣啦~~來更新一下標的近況 基本面 過年之後,呈現近期轉強而長期轉弱的變化 主要是長鑫IPO之後擴產搶市佔以及力積電產能加入等因素 預期DDR4報價將在2026下半年開始轉弱 EPS預估 2 …
    106F 55推 12噓
  • +44 Re: [標的] 2344 華邦電籌碼分析 - Stock 板
    作者: 93.118.41.99 (日本) 2026-02-07 14:07:32
    2/2~2/6 籌碼分析總結 這也是本系列最後一篇文章了,過去幾篇文章 從長線分析(股權分散表)、短線分析(每日券商分點進出)、 與盤中分析(分檔內外盤結合盤勢)的內容 都涵蓋在裡面了,剩下的就是讓 …
    76F 48推 4噓
  • +66 Re: [標的] 2344 華邦電籌碼分析 - Stock 板
    作者: 93.118.41.99 (日本) 2026-02-05 00:46:06
    我知道很多人不想看到這串文了 不過還是更新一下2/4的籌碼追蹤 首先,今日成交量明顯降溫,高頻交易商退場,籌碼變得乾淨容易判斷 2/3作為主要買盤的 凱基-城中 統一-城中 再加上凱基-台北 今天明 …
    89F 66推
點此顯示更多發文記錄
分享網址: 複製 已複製
guest
x)推文 r)回覆 e)編輯 d)刪除 M)收藏 ^x)轉錄 同主題: =)首篇 [)上篇 ])下篇