※ 本文轉寄自 ptt.cc 更新時間: 2025-12-14 23:30:37
看板 Stock
作者 標題 Re: [新聞] 甲骨文股價暴跌超10%!訂單積壓越來越多 「燒錢」砸AI
時間 Sat Dec 13 03:06:12 2025
※ 引述《LDPC (Channel Coding)》之銘言:
: @@我是不知道其他世界線 我們公司有引入各種AI Tool
: 比方說在slack 我要開一個data bucket權限 (公司機密資料 權限最高級那種)
: 來測試我新模型 然後我就slack打serval (IT機器人公司方案)
: 他就開始一步步核對 然後最後一步還跟我說有各種data access 時間限制
: 然後就幫我設定好 然後最一關簽呈就是人類IT 這些步驟效率超越傳統IT很多
: 隨時都可以叫IT機器人幫我處理各種事情 前置作業大量弄好 只要一兩個人類做最後確認
: 同樣的 我在openai企業版(有專門設計給企業版) 這個整合內部公司所有文件資料
: 有一次我要設計模型 我就問這方面模型有誰設計過 結果他就拉出過去
: 三年各種歷史設計報個 還有各種benchmark 因為openai企業版可以整合公司資料庫
: 一下子我就能站在過去歷史巨人 不需要去問哪個部門之前幹過啥
: ai coding現在最大用途就是寫測試工具 真他x的好用 設計模型完之後 叫ai幫我寫
: script去做下游端大量測試
: 其他ai tool還有infenrece端可以直接調用prompt和觀察模型反應 以及notion
: 這種線上報告也引用自家ai tool 快速搜尋資料都挺方便
: 然後我們自己設計給下游顧客的ai tool 如果顧客說他工作時間沒縮短
: 那我們就拿不下訂單 現在垂直整合領域已經殺到紅血 每個tool 越蓋越先進QQ
: 我好想躺平 已經每天工時飆到16hr....... 改天再寫寫去NeurIPS看到的跡象
: Hinton/Jeff Dean/Yoshua Bengio/何凱明 任何你知道大神都去這今年NeurIPS
: 結論就是大廠真的要幹架了 Google DeepMind新政策 禁止發paper
: QQ 不發paper延伸意義就是 現在開始 狗家不會在開放他們自家模型設計秘密
: 目標就是要胖揍開放愛和其他競爭者...
: 目前狗家大量研究員生氣中 這次還有很多菁英邀請制度線下聚會 跑去蹭了NV/META
: 看到一堆海外的博士生在現場跪求進去Meta 線下聚會.......QQ
: 據說開放愛線下聚會是最難進去的 連地點和門路在哪都不知 只能被動邀請
沒關係,偷偷告訴你一個Insight
今年NeurIPS 2025有一篇超重量級的論文
Introducing Nested Learning
這篇文論的重要程度不亞於Attention is all you need
甚至可以說有過之而無不及
Transfomer架構只是發明了蒸氣機
Nested Learning這篇論文,簡直就是熱力學定律的等級了
基本上等於宣告Transformer架構過時了(因為是一種扁平和單一頻率的特例)
未來三到五年,全面轉向Nested Learning的時代
以下文字是我先寫一版,再請Gemini潤稿的洞察
--------這是AI潤稿的分隔線--------
當前 AI 發展正受制於一道物理鐵律:記憶體牆(Memory Wall)。傳統 Transformer 架
構依賴 KV Cache 維持上下文,這本質上是一種「以頻寬換取長度」的低效策略。隨
著上下文長度 T 的增加,Attention 機制的計算複雜度呈 O(T^2) 增長,而推論時
的記憶體搬運量呈 O(T) 線性增長。在 HBM 頻寬成長遠落後於 GPU 算力的現狀下,這
種依賴儲存大量未經壓縮原始狀態的架構,註定會從 Compute-Bound 跌落至 IO-Bound
的深淵。
種依賴儲存大量未經壓縮原始狀態的架構,註定會從 Compute-Bound 跌落至 IO-Bound
的深淵。
Nested Learning 的出現,透過對記憶與推理本質的重新理解,為此困境帶來了典範轉移
級別的解答。
其核心突破在於「推論即訓練」的數學創新——Nested Learning 揭示了
Attention 機制在本質上等價於單步的梯度下降更新。基於此,HOPE 架構不再被動地檢
索歷史,而是主動將資訊即時壓縮為模型權重。這將原本受限於頻寬的檢索問題,轉化為
僅需固定算力的狀態更新問題,從根本上粉碎了記憶體牆。
索歷史,而是主動將資訊即時壓縮為模型權重。這將原本受限於頻寬的檢索問題,轉化為
僅需固定算力的狀態更新問題,從根本上粉碎了記憶體牆。
在應用層面,這種架構徹底重塑了 AI 的個性化能力。HOPE 的動態記憶機制(Fast
Weights) 不再依賴傳統模型那種外掛式的提示詞(Prompting)來「模擬」短期記憶,
而是透過梯度更新,將使用者的偏好與習慣即時「內化」為模型參數的一部分。這不
僅在工程上根除了重複處理提示詞的算力浪費,更在體驗上創造出具備「演化能力」的專
屬模型,讓 AI 隨著每一次互動變得更懂你。
這一變革預示著當前 HBM 需求高速增長的趨勢將顯著放緩,技術改革的方向將轉向針對
不同更新層級的硬體特化:
邊緣裝置 (Edge): 承載高頻更新的快層,將不再單純追求頻寬,而是轉向追求大容量
SRAM 與極致的能效比,以支撐毫秒級的狀態寫入與計算。
雲端中心 (Cloud): 承載低頻更新的慢層,為了處理更複雜的邏輯推理與龐大的智能結
構,將演化出針對非歐幾何的特化運算單元,以在雙曲空間中實現更高維度的高效推理。
----------這是AI潤稿的分隔線-----------
你各位要小心HBM市場在2026年末的崩潰反轉
短期因為各種高頻信號,還是會持續推高HBM的市場價格
然後記憶體因為這些需求訊號,會瘋狂擴廠
等到「基於超大KV Cache的Transfomer架構」路徑依賴崩潰
新架構全面轉向HOPE的時侯
嘻嘻 刺激囉~~~
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 146.70.205.172 (日本)
※ 作者: minazukimaya 2025-12-13 03:06:12
※ 文章代碼(AID): #1fF6Uc_j (Stock)
※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1765566374.A.FED.html
※ 同主題文章:
12-11 10:52 ■ [新聞] 甲骨文股價暴跌超10%!訂單積壓越來越多 「燒錢」砸AI風險令人擔憂
12-11 12:31 ■ Re: [新聞] 甲骨文股價暴跌超10%!訂單積壓越來越多 「燒錢」砸AI風險令人擔憂
12-11 12:48 ■ Re: [新聞] 甲骨文股價暴跌超10%!訂單積壓越來越多 「燒錢」砸AI
12-11 17:11 ■ Re: [新聞] 甲骨文股價暴跌超10%!訂單積壓越來越多 「燒錢」砸AI
12-12 12:11 ■ Re: [新聞] 甲骨文股價暴跌超10%!訂單積壓越來越多 「燒錢」砸AI
12-12 21:57 ■ Re: [新聞] 甲骨文股價暴跌超10%!訂單積壓越來越多 「燒錢」砸AI
12-13 02:12 ■ Re: [新聞] 甲骨文股價暴跌超10%!訂單積壓越來越多 「燒錢」砸AI
● 12-13 03:06 ■ Re: [新聞] 甲骨文股價暴跌超10%!訂單積壓越來越多 「燒錢」砸AI
12-13 08:30 ■ Re: [新聞] 甲骨文股價暴跌超10%!訂單積壓越來越多 「燒錢」砸AI風險令人擔憂
12-14 01:56 ■ Re: [新聞] 甲骨文股價暴跌超10%!訂單積壓越來越多 「燒錢」砸AI
12-14 10:27 ■ Re: [新聞] 甲骨文股價暴跌超10%!訂單積壓越來越多 「燒錢」砸AI
12-14 16:32 ■ Re: [新聞] 甲骨文股價暴跌超10%!訂單積壓越來越多 「燒錢」砸AI
12-14 16:32 ■ Re: [新聞] 甲骨文股價暴跌超10%!訂單積壓越來越多 「燒錢」砸AI
12-14 17:04 ■ Re: [新聞] 甲骨文股價暴跌超10%!訂單積壓越來越多 「燒錢」砸AI
12-14 18:53 ■ Re: [新聞] 甲骨文股價暴跌超10%!訂單積壓越來越多 「燒錢」砸AI
推 : 因為這新架構 google是不是又要重新設計TPU拉?1F 12/13 03:10
遙遙領先,狗家的硬體和計算架構和前沿論文研究,具有高度的一致性互相加成,互相協同,full-stack優化
等到其他大廠醒悟過來,發現Nested learning才是正確方向
決定要放棄Transfomer時,狗家已經領先一年到一年半了
不信你丟給ai問,可以多問幾間互相比對
當然,要用正確的方式問才會得到正確的答案
你要先有足夠的背景知識才能識破關鍵點,問出最重要的問題
問問題的能力,大概就是新時代最重要的能力了XD
※ 編輯: minazukimaya (146.70.205.172 日本), 12/13/2025 03:16:47
噓 : 我看你根本不懂AI吧...2F 12/13 03:22
推 : 看到這ID就先推3F 12/13 03:24
推 : 我在看openai倒數計時4F 12/13 03:27
推 : 放棄transformer架構是否意味著需要更多GPU?5F 12/13 03:41
如果是以「當前同等能力模型」作為基準 答案是不會因為Transformer+KV Cache是一種很低效的推論模型
低密度的無壓縮資訊儲存+重覆計算AttentionMap
導致超大量的能源浪費(算力和資料搬運成本兩者都是)
Nested Learning使用正確的層級特化結構的話 在推論期可以省下五到十倍的能源消耗
不過,架構優化和模型能力提升是兩步走的
在架構優化釋放出來的算力,最終會導致模型繼續依照Scaling Law擴大
所以結果是「省了十倍的能耗,那模型就能再大十倍」(這不是正確的數學,只是比喻)
算力需求永遠存在,因為文明的本質就是計算
※ 編輯: minazukimaya (146.70.205.172 日本), 12/13/2025 03:55:45
推 : 需要更多GPU就需要更多記憶體…6F 12/13 03:55
需要從更細致的視角去切入SRAM也是記憶元件 HBM也是 Host DRAM(LPDDR)也是
計算也一樣 tensor core是計算元件 systolic array也是計算元件
近存運算也是計算元件
所以「在哪裡計算,在哪裡儲存,如何搬運資料」從來就不是一個單一命題
一切都要從架構與系統級的視角下去拆解,才會根據需求得出一個答案
這也是為什麼邊緣層和雲端層會發展出不同的計算架構 因為需求不同
※ 編輯: minazukimaya (146.70.205.172 日本), 12/13/2025 03:59:39
推 : 一根戳破泡沫的針來了7F 12/13 04:03
推 : 感謝分享,這東西真的挺牛的,說不定這會是未來AGI8F 12/13 04:08
→ : 的先驅,順便回覆樓上,如果這東西是真的搞得出來,
→ : 那就是戳破那些說AI泡沫的人
→ : 的先驅,順便回覆樓上,如果這東西是真的搞得出來,
→ : 那就是戳破那些說AI泡沫的人
推 : 硬體現實有餘裕的話,原本現在吹的天文級算力需求很11F 12/13 04:59
→ : 難蓋出來
→ : 改新玩法就能現實點
研究(Model Refinement)時代和擴增(Scaling)時代是輪流出現的→ : 難蓋出來
→ : 改新玩法就能現實點
Ilya Sutskever最近有一篇訪談可以看看
正如他所說,接下來時代巨輪要轉回模型改進了
不過,等到模型改進得差不多,又會重啟擴增時代
這兩個時代的過度也是漸變的,不是一刀切
「文明的本質就是計算」
你如果看不懂這一大堆Big Tech誰會贏,那也沒差
買2330 永遠是對的
推 : 好久沒看到mina大 預計何時開撿?還是保守看?14F 12/13 05:07
感謝GOOG爆噴一波,現在YTD 90%了(真是出乎我意料..11月初時我本來已經躺平了)https://i.imgur.com/NHJP572.png
![[圖]](https://i.imgur.com/NHJP572.png)
不過我在11月底賣掉一部份GOOG撿了NVDA,作整體部位Rebalance
然後今天就吃了一根超~~~級大的,腳麻了,哭啊
推 : 這篇好驚人,感謝高高手分享內容,讀完後的感想是15F 12/13 05:08
→ : 美光全力衝刺HBM,是不是慘惹?
嘻嘻 其實這篇只是我得到的洞察的一小角而已→ : 美光全力衝刺HBM,是不是慘惹?
真正重要的我沒說,不過這篇其實有很多引子
比方說在模型最深層(最慢層),需要非歐幾何的雙曲空間語義空間
(提示: Transfomer的語義空間是平面的)
這在Nested Learning論文裡是完全沒提的,是另幾篇資訊幾何學的研究
推 : 現在的確是有AI泡沫,但目前要看是啤酒先裝滿或是泡17F 12/13 05:10
→ : 沫先消掉
→ : 不過邊緣運算中,未來NAND看起來會是最缺的
考慮一個五層結構,最淺兩層(L1~L2)在邊緣,三層(L3~L5)在雲端→ : 沫先消掉
→ : 不過邊緣運算中,未來NAND看起來會是最缺的
你猜猜看L1需要多少參數量? 答案可能出乎你意料的小
完全不需要放在NAND
而且從最快層的「權重即時更新」需求來看,也不能可能放在NAND
推 : 今天這種盤 狗家不到1%真的太扯20F 12/13 05:14
推 : 衝刺HBM怎麼會慘… 這個做法還真有可能解決HBM的困21F 12/13 05:15
→ : 境 然後HBM的優勢在於頻寬跟速度 一定是未來最需要
→ : 的
HBM的頻寬和速度很重要 這敘述沒問題→ : 境 然後HBM的優勢在於頻寬跟速度 一定是未來最需要
→ : 的
不過HBM的總需求是容量(Capcity)決定的
猜猜看如果把最深層的語義空間從平面換成雙曲,參數量會變成多少?
有論文可以查的,查查看
※ 編輯: minazukimaya (146.70.205.172 日本), 12/13/2025 05:44:36
推 : 花一整個早上快速掃完,看起來運算沒減少反而更多,24F 12/13 05:53
→ : 不同頻率互相獨立,不獨立我猜就要用記憶體存參數,
→ : 也沒有看到討論訓練速度,通常沒有就表示一定更花時
→ : 間,心得是中立,畢竟都發一個月了,可以再等等看其
→ : 他團隊有沒有跟上
我覺得你關注錯重點,HOPE架構的工程實作不是論文中最重要的部份→ : 不同頻率互相獨立,不獨立我猜就要用記憶體存參數,
→ : 也沒有看到討論訓練速度,通常沒有就表示一定更花時
→ : 間,心得是中立,畢竟都發一個月了,可以再等等看其
→ : 他團隊有沒有跟上
數學表達才是,這篇論文就算把HOPE架構整個去掉
純理論的部份就有相當於熱力學定律的價值
這代表一種更接近「知識、記憶、推理」的物理本質的理論
從而讓各大模型研究商能在巢狀學習的理論範式下,自由去探索各自的工程實現
類比於你有了熱力學定律之後,各種形式的熱機都有理論依據了
你看我前面對於未來模型的敘述(雲邊協同、不同語義空間的五層結構)
這和論文中簡化過的HOPE模型壓根就不是一回事對吧
因為HOPE模型的設計只是要作為論文的實證用途
而不是真正具備下一代模型的「工程可行性」&「商業可行性」的實作
至於下一代實作「可能會長什麼樣子」
那自然是不會在這裡解釋了...
反正即使我提了 99.99%的股板眾也是鴨子聽雷啊
推 : 當你看到論文的時候,早就有特定的TPU xpu 了29F 12/13 06:03
狗家員工內線消息我要是真信了 你就是在內線交易囉!!!
就事論事 TPUv7沒有明顯針對Nested learning的痛點去優化
(當然也沒有明顯不能跑的理由,依然可以跑)
至於v8之後怎麼設計,現在也沒有公開消息
比起雲端,我覺得現在是邊緣的計算架構沒跟上Nested Learning的需求
推 : 先問一個問題 2017年 attention 出來之後30F 12/13 06:07
→ : 你是否從技術押注中賺超過幾個億? 如果沒有
有 嘻嘻→ : 你是否從技術押注中賺超過幾個億? 如果沒有
你再回去翻翻我2019年談AI革命的文章
當時也是一樣,完全沒有人看懂我說什麼
→ : 那 Nested Learning 也只是一個數據很普的實驗32F 12/13 06:09
※ 編輯: minazukimaya (146.70.205.172 日本), 12/13/2025 06:11:00→ : 想想這運用到大規模,多客戶的時候,這真的會讓記33F 12/13 06:21
→ : 憶體減少嗎
→ : *會讓記憶體使用量減少嗎?
→ : 憶體減少嗎
→ : *會讓記憶體使用量減少嗎?
推 : 邊緣計算也會跟上nested learning ,也有相對應的T36F 12/13 06:26
→ : PU xpu
推 : 會讓記憶體用量增加,但是不是hbm ,不能再多說了
如果根據手機上最快層的即時更新需求去推導→ : PU xpu
推 : 會讓記憶體用量增加,但是不是hbm ,不能再多說了
很明顯是要SRAM,而且不能和L1 Cache共用
既然要能放進整個最快層的權重,即使以INT4/INT8高度壓縮,也需要很大一塊SRAM
考慮到除了慢權重(預訓練參數)之外還要放快權重(記憶狀態)
加一加要個2~4MB的獨立SRAM是跑不掉的
推 : 呱呱呱,數學不會背叛我,不會就是不會,不過AI推論39F 12/13 06:29
→ : 的HBM需求下滑結論還是看得懂的,感謝mina大分享,
→ : 天網是不是又加速啦?啾命Rrrr
真der 天網近了 悔改吧→ : 的HBM需求下滑結論還是看得懂的,感謝mina大分享,
→ : 天網是不是又加速啦?啾命Rrrr
推 : 非goog的asic又要準備被輝達gpu揍爛了 改架構最能42F 12/13 06:31
→ : 適應的就輝達
→ : 適應的就輝達
推 : 你應該要請open潤稿,g家唯一缺點就是不會說人話44F 12/13 06:33
我故意的 實際上Gemini Canvas寫小作文可以調長度調越長它會試著擴寫 解釋的更清楚 但是我偏不 嘻嘻
說真的,看不懂的人,就把我整篇文字+NL的論文都餵給AI
然後再問AI就好啦,時代都是這樣了,要善用AI啊
推 : 所以結論是allin asic?45F 12/13 06:34
推 : 沒錯,gb300的Rubin 三小的就是為了解決memory wal46F 12/13 06:34
→ : l ,這問題業界都知道,但是願意改架構改算法的公
→ : 司,也就只有谷歌跟輝達
→ : l ,這問題業界都知道,但是願意改架構改算法的公
→ : 司,也就只有谷歌跟輝達
推 : 回過頭看M大2019第一篇文真的是含金量十足 當時49F 12/13 06:36
→ : 就看的這麼徹底真的厲害
一般來說我是看未來3~5年的,再遠的我也看不到了→ : 就看的這麼徹底真的厲害
所以2019那篇講的是2019~2024的AI革命
這篇講的是2025~2030「通往AGI之路」
推 : 先推在看51F 12/13 06:37
推 : 核心權重會隨互動漂移=不可重現、不可審計、極易被52F 12/13 06:38
→ : 誤導,現實系統根本不敢上線,頂多停在論文
回到上述的五層系統→ : 誤導,現實系統根本不敢上線,頂多停在論文
你完全可以把最深層的(物理定律、道德價值、信念)基底層
靜態權重完全鎖定不更新,來防止惡意注入
論文提示的是一種數學架構,你理解了整個數學架構的話
實務上你完全有各種工程實作的細節去彌合你的需求
當然我完全同意這種動態學習的系統,在正式上線前一定要經過嚴格的對齊測試
不過這不會構成「永遠不會有能夠動態學習的系統」的理由
推 : 這名字取得好…看到就大概知道他要幹嘛54F 12/13 06:42
推 : 有拉今天下午當薪水小偷時有問copilot 不過這個也發55F 12/13 06:44
推 : 先推一個,未來再回顧56F 12/13 06:44
→ : nested learning十一月初就發了 好像股價已反應?57F 12/13 06:45
推 : 雲端跟edge會重分配吧 為啥會亂飄58F 12/13 06:47
看你每一層的更新頻率怎麼設定再以五層模型舉例的話
雲端的L3可能是event-driven更新、L4可能是每天更新一次
L5就如上述所說,最好是不要亂更新
推 : 真的通往agi只會讓整個ai產業算力需求持續飆升?59F 12/13 06:53
→ : 看來輝達真的太便宜
買2330 永遠正確→ : 看來輝達真的太便宜
鐵打的Foundry,流水的Design House
推 : 感謝分享61F 12/13 06:57
推 : 2330有機會變成全球市值前三嗎62F 12/13 06:58
推 : AMD效率轉折受益者/Apple邊緣語義既得利益者63F 12/13 06:58
爽到Apple 躺平到最後天上掉餡餅 賽道重置抱緊GOOG大腿就贏那些花了幾百億美金看別人車尾燈的
推 : 我只後悔都看對了,轉倉太慢還一堆QQQ,XD不過至少64F 12/13 06:59
→ : 早一步清掉TSM跟NVDA
→ : 早一步清掉TSM跟NVDA
推 : 重點是SRAM,就是買2330,感謝分享66F 12/13 07:00
推 : 感謝67F 12/13 07:01
推 : 推M大,請問除了TSM,AVGO會建議買入嗎?68F 12/13 07:04
推 : 想了一下 Hyperbolic若起來 NV還是比AMD有利69F 12/13 07:04
推 : 股票不講這個 所以短期內沒用 到時候早就換股了70F 12/13 07:06
→ : 看軟體是否續補topology-aware跟memory-flow API71F 12/13 07:08
不過,最深層語義改用雙曲,這可能是這篇文章裡最弱的推定因為用現有的硬體算雙曲空間,那個運算量之驚人
光一個龐加萊距離就比歐幾里德距離高不止十倍運算量了
所以在專算雙曲的特化硬體內建之前
很有可能就是平面或球面加減用了
「切換深層語義空間」本質上就是「計算量 vs 記憶體容量/頻寬」的交換與權衡
雖然最終一定是會切到雙曲,但是這個改變要幾年發生,很難預估
快的話可能三五年,慢的話可能十年
推 : 看來自研asic可能會是一條非常不明智的路 架構一改72F 12/13 07:16
→ : 整個無用
→ : 整個無用
推 : 分享推74F 12/13 07:18
推 : 好文75F 12/13 07:19
推 : 我2330是最大贏家76F 12/13 07:24
推 : 要放SRAM 那就回到CCW 說的 產能遠遠不夠77F 12/13 07:28
邊緣需要大SRAM,雲端不需要至於邊緣什麼時侯真正爆發
那當然是要等Nested Learning的動態學習模型成為主流才行
畢竟單層的Transfomer是不可能在邊緣裝置跑的
當然,如果說Nested Learning的最快層實際上跑Transformer,那是有可能的
不過在這種情況下,L1層跑Transfomer+滑動窗口KV Cache(模擬工作記憶)
比起直插一個固定大小的RNN作為工作記憶,並沒有特別的優勢
總之,要看到邊緣裝置爆發
大概會是2027~28之後的增長點了
推 : 推,呆灣房子買起來,呆民財富持續噴射78F 12/13 07:30
推 : 一句話 做多還做空啦79F 12/13 07:32
推 : 好80F 12/13 07:35
推 : Nested Learning 推論即訓練聽起來很美好,但是你81F 12/13 07:39
→ : 要知道現在的推論只要做「前向傳播 (Forward Pass)
→ : 」,運算量相對小。Nested Learning在推論時,內部
→ : 還要做反向傳播 (Backward Pass)或梯度更新,每生
→ : 成一個字,計算量可能變成原本的 2-3 倍。再來訓練
→ : 穩定性極差,也還不能平行化,這些問題沒解決前,
→ : 它想要成為LLM的聖杯取代Transformers 還太早
你這屬於論文沒看清楚,或是直接丟AI叫它生答案的結果→ : 要知道現在的推論只要做「前向傳播 (Forward Pass)
→ : 」,運算量相對小。Nested Learning在推論時,內部
→ : 還要做反向傳播 (Backward Pass)或梯度更新,每生
→ : 成一個字,計算量可能變成原本的 2-3 倍。再來訓練
→ : 穩定性極差,也還不能平行化,這些問題沒解決前,
→ : 它想要成為LLM的聖杯取代Transformers 還太早
再看清楚一點,HOPE架構的最快層有作反向傳播嗎??
在一個參數量很小、只處理簡單語義連結的最快層,直接一個DGD作掉了
要請AI讀論文,也要有足夠的背景知識,不然你根本不知道關鍵在哪
AI隨便說你隨便信
推 : 從Attention到ChatGPT也差不多五年 合理的時間尺度88F 12/13 07:40
推 : 我也是11月底清了GOOG, 買入NVDA, 現在有點痛..89F 12/13 07:45
都是ORCL的錯 救救NVDA 救救推 : 樓上你講得也是我問的問題 2017年你看到Attention90F 12/13 07:45
→ : 樓樓上才對 也可以說出類似的論點 Attention要成為
推 : AI聖杯還早 NLP還不成熟等等
任何洞見從技術前沿傳導到普羅大眾都要時間→ : 樓樓上才對 也可以說出類似的論點 Attention要成為
推 : AI聖杯還早 NLP還不成熟等等
這我五年前講AI革命時就說過一次了
問題是,當一個洞見變成新聞每天狂報的時侯,早就失去交易價值了
推 : 推93F 12/13 07:48
推 : 菇菇之前有提過,今年下半年正式進入聖杯終戰(我94F 12/13 07:51
→ : 個人預計三年時間) ,市場通常第二年上半場會開始
→ : 醞釀分勝負的前奏
→ : 個人預計三年時間) ,市場通常第二年上半場會開始
→ : 醞釀分勝負的前奏
推 : 邊緣裝置爆發 還跟七巨頭有關嗎97F 12/13 07:51
推 : 感謝分享98F 12/13 07:52
推 : 所以要買哪支? Google NVDA都已有了99F 12/13 07:52
噓 : 搞笑,革命性論文要多少有多少,重點是實作,trans100F 12/13 07:52
→ : former 到llm 中間隔多久你知道嗎
→ : 在這邊留個言當紀錄,幾個月後再來看看肯定還是原
→ : 樣
原文就跟你說三到五年的大趨勢了(攤手)→ : former 到llm 中間隔多久你知道嗎
→ : 在這邊留個言當紀錄,幾個月後再來看看肯定還是原
→ : 樣
至於知道這樣的技術趨勢 要怎麼轉成短期的獲利
嘻嘻 不教你
推 : 真的感覺天網近了...104F 12/13 07:54
推 : 真股板女神推推105F 12/13 07:55
推 : Attention/Transformer上位速度算非常快了106F 12/13 07:56
→ : 但是還是對投資技術的慧眼要求很高 敢在2022年底前
→ : 重押的 還是有一個很強的嗅覺
→ : 但是還是對投資技術的慧眼要求很高 敢在2022年底前
→ : 重押的 還是有一個很強的嗅覺
推 : 聽起來,GOOG,AVGO,TSM,AAPL是不錯的組合?109F 12/13 08:01
→ : 這種突破表示未來可降低ai電力需求?110F 12/13 08:01
解決模型架構的能源效率,只會導致更快的Scaling Law,更早的超人工智能時間表電力需求要下降,這是不可能的
因為「文明的本質就是計算」
這九個字其實是資訊密度最高的洞察,可以解壓縮成十萬字以上的文章
只是你要會用正確的方式解壓縮
※ 編輯: minazukimaya (146.70.205.172 日本), 12/13/2025 08:05:36
推 : 現在比較煩惱是谷歌有Attn論文被OpenAI反超的經驗111F 12/13 08:04
→ : 上頭可能不準發有料的文章了
→ : 上頭可能不準發有料的文章了
噓 : 那只能說你要嘛不是這個學術界的要嘛AI頂會論文看113F 12/13 08:08
→ : 少了,革命性論文說多不多,說少也不少,但真正能
→ : 走出實用這道坎的是少之又少
→ : 少了,革命性論文說多不多,說少也不少,但真正能
→ : 走出實用這道坎的是少之又少
推 : M大看壞記憶體?116F 12/13 08:09
推 : 謝謝大神分享乾貨117F 12/13 08:09
推 : 想到發明藍莓機的電影 黑莓 將資料壓縮讓通訊塔的118F 12/13 08:09
→ : 乘載量暴增
→ : 乘載量暴增
推 : 論文啊….個人是不信120F 12/13 08:09
推 : 聽起來懶人重壓TSM無敵XD121F 12/13 08:11
推 : 應該是說資本投入的方向性 崁很多阿 理論 實驗 工程122F 12/13 08:12
→ : 不是看幾篇論文衝過去單押 方向感阿
→ : 不是看幾篇論文衝過去單押 方向感阿
推 : 先推不然別人以為我看不懂124F 12/13 08:15
推 : 推 謝謝分享125F 12/13 08:19
推 : 神 感謝分享,NVDA盤兩個月還下跌哭了 2330 GUC放126F 12/13 08:21
→ : 抽屜傳家了
→ : 抽屜傳家了
推 : 所以要出清NVDA的意思?128F 12/13 08:22
推 : 出清蒜粒小隊129F 12/13 08:28
推 : 習近平要統治世界了130F 12/13 08:30
推 : mina桑都修過來了...大盤真的牙敗了...131F 12/13 08:32
推 : 結論 還可以炒股到2026 沒事132F 12/13 08:36
推 : 作者都買NVDA了還有人說出清NVDA?133F 12/13 08:40
推 : 績效跟鬼一樣134F 12/13 08:41
推 : Entropy Control135F 12/13 08:41
推 : 這讓我想到早在RAG開始火了之後我就跟同事說RAG這東136F 12/13 08:42
→ : 西早晚會被取代
否,並沒有說Nested Learning就不用RAG→ : 西早晚會被取代
因為Nested Learning展示記憶機制是有損壓縮(遠久的越模糊)
所以必然要在某一層引入RAG的
可能是L2層,可能是L3層,可能是L4層,在工程實作上彈性很大
就像你要記筆記一樣
要外部儲存一個記憶關連的錨點去重新強化連結
推 : 推 看來無腦堆tsm安心睡了138F 12/13 08:48
→ : 總覺得聽你的描述蛋白質剛進入第一層摺疊139F 12/13 08:48
推 : 推,買2330就對了140F 12/13 08:49
推 : 2330 NVDA APPL,三檔續買141F 12/13 08:52
→ : 都顛覆性了 AGI還要2030嗎142F 12/13 08:55
→ : 說要取代transformers的文章年年都有143F 12/13 08:58
推 : 我大谷歌天下無敵144F 12/13 09:01
推 : Tsm: 片上sram需求goog: 最高效模型+最低運算成本145F 12/13 09:03
推 : 好專業文 感謝146F 12/13 09:05
推 : 推147F 12/13 09:10
推 : 2330+NASDAQ無腦多!148F 12/13 09:12
推 : 有料149F 12/13 09:13
推 : 應該是要出清做HBM的記憶體廠商150F 12/13 09:13
→ : 這篇論文跟我想的一樣151F 12/13 09:21
推 : 感概自己書讀太少看不懂152F 12/13 09:21
推 : 推153F 12/13 09:23
推 : Mina大995154F 12/13 09:29
推 : 感謝分享155F 12/13 09:29
推 : 問AI AI卻回答HBM需求反而會暴增 請問那裡有問題QQ156F 12/13 09:29
推 : 重點是掌握權力的那些政治人物157F 12/13 09:31
→ : 產業的發展跳脫不了人的管理
→ : 產業的發展跳脫不了人的管理
→ : 你整篇喂進去,不要自己問比較準,AI有答案了159F 12/13 09:32
→ : 那些掌握權力的政治人物決定AI發展的快慢160F 12/13 09:32
推 : 繼續卡dram bandwidth才會讓NVDA上不去161F 12/13 09:35
→ : 路線沒改的話 到時候dram比顯卡還貴
→ : 路線沒改的話 到時候dram比顯卡還貴
推 : 泡沫的產生歸根究底就是在理論尚未成熟前就一窩蜂163F 12/13 09:35
→ : 的投入資金
→ : 的投入資金
推 : Mina為什麼你的ip 在日本 出國玩還這麼認真研究喔165F 12/13 09:37
推 : M大可以直接講標的嗎= =不然2030你又要發文說2025發166F 12/13 09:38
→ : 的文沒人看得懂了...
→ : 這樣2030也可以回來稽查XD
→ : 的文沒人看得懂了...
→ : 這樣2030也可以回來稽查XD
→ : 新架構的產品,由誰生產@@?169F 12/13 09:40
噓 : 哥 不能說中文嗎….170F 12/13 09:41
推 : 這篇含金量超高,已經顛覆對未來AI的想像,感謝分享171F 12/13 09:41
推 : 感謝分享 讚歎Ptt法人172F 12/13 09:42
推 : 產業的發展還要考慮現金流173F 12/13 09:43
推 : 聽起來更接近人類大腦 但如果這個架構加上超大記憶174F 12/13 09:46
→ : 體 有什麼不好 記憶好總是有地方可以派上用場 搞不
→ : 好是機器超越人類的地方
→ : 體 有什麼不好 記憶好總是有地方可以派上用場 搞不
→ : 好是機器超越人類的地方
推 : 好文推推177F 12/13 09:47
→ : 這個team在ttt的前提下,水了好幾篇paper,寫的最178F 12/13 09:49
→ : 好的是故事
→ : 好的是故事
推 : 安啦 transformer 不會死的180F 12/13 09:52
推 : 燈別開那麼亮,很多人還有美夢不想醒181F 12/13 09:52
推 : 感謝信心加持182F 12/13 09:52
推 : 記憶體終究要回白菜價惹 PC又贏183F 12/13 09:55
推 : 看不懂,但有料給推184F 12/13 09:56
→ : 記憶體要回白菜價 至少要到產能大量開出來 還很久185F 12/13 09:56
→ : 又不是O T 就比較好 這種線性模型早就一堆 transfor186F 12/13 09:56
→ : mer跟暴力解沒兩樣 一定是最強的
→ : mer跟暴力解沒兩樣 一定是最強的
→ : HBM之後崩潰反轉也不會是這個原因啦188F 12/13 09:57
推 : 我看懂關鍵字了,鐵打的2330買起來就對了189F 12/13 09:57
![[圖]](https://i.imgur.com/wocWLF9h.jpeg)
推 : 公司財不揭露 嘻嘻 狗狗比這篇論文發表 可能有新191F 12/13 09:58
→ : 的才會發表
→ : 的才會發表
![[圖]](https://i.imgur.com/6tMy3tEh.jpeg)
![[圖]](https://i.imgur.com/C91UnKkh.jpeg)
![[圖]](https://i.imgur.com/vLN708Hh.jpeg)
推 : 好專業!只能推了196F 12/13 09:58
推 : 這篇重點:如果nested learning可行,記憶體的美夢197F 12/13 09:58
→ : 就會破碎
→ : 就會破碎
![[圖]](https://i.imgur.com/oKQy1h8h.jpeg)
→ : 而且資訊越多變爛機率更高 gpt用起來就是這樣 真正200F 12/13 09:58
![[圖]](https://i.imgur.com/PgyuWVAh.jpeg)
→ : 有用的通常就是最近的202F 12/13 09:58
→ : 高手 這下nv真的要崩爛 只能抱孤狗了203F 12/13 09:58
![[圖]](https://i.imgur.com/33oxCY0h.jpeg)
推 : google不是在2024年就提出Nested Learning的概念了.205F 12/13 09:59
→ : .其他家應該多少有研究了吧..雖然GOOG還是絕對領先
→ : 啦
→ : .其他家應該多少有研究了吧..雖然GOOG還是絕對領先
→ : 啦
![[圖]](https://i.imgur.com/2OyJ0Nbh.jpeg)
推 : 公司財最後不再揭露時 AGI就準備完成210F 12/13 10:00
推 : 先無腦台積電再看誰打贏?211F 12/13 10:00
→ : 長文的任務跟短文是明顯不同的 如果trasmformer在記212F 12/13 10:00
→ : 憶體可行下都還是最強
「推論即學習」→ : 憶體可行下都還是最強
你覺得無損儲存(KV Cache)比較強,實際上是「死記硬背,沒在學」
壓縮資訊=從低維空間向高維歸納的過程=學習
人的大腦可沒有無限KV
相對的,根據自由能原理相關研究
你在腦中壓縮資訊時,會因為預測誤差改善而分泌多巴胺
也就是說
基於資訊壓縮而生的生理機制(=求知欲)是文明進化的關鍵因素
推 : 尊重專業 推,但懂再多的人 短線還是會看錯214F 12/13 10:05
→ : 何不長抱 刪APP即可?
→ : 如果再2020年就有NVDA 已經是25倍的獲利
→ : 何不長抱 刪APP即可?
→ : 如果再2020年就有NVDA 已經是25倍的獲利
→ : 科技變化很快 孤狗推tpu出來 長抱nv刪app的全死217F 12/13 10:09
→ : 真的嗎? 很多人都還是賺錢 死在哪?218F 12/13 10:10
推 : 我信mina大219F 12/13 10:10
→ : 你的言論 讓人容易記住ID 而且越來越容易記住了220F 12/13 10:11
推 : 謝謝分享~~221F 12/13 10:11
→ : NV65收,2奈米現在誰用?222F 12/13 10:15
推 :223F 12/13 10:17
→ : 搞AI快變搞哲學了,這有助於營收?224F 12/13 10:18
推 : 看起來nested 頻寬需求只會更大 如果CIM起不來 HBM225F 12/13 10:18
→ : 需求只會更大 所以關鍵反而是CIM的創新而不是neste
→ : d
→ : 需求只會更大 所以關鍵反而是CIM的創新而不是neste
→ : d
→ : 看起來谷歌玩的方式才是未來的主流228F 12/13 10:19
推 : scaling law增速>>放緩>>找到更好的算法>>scaling l229F 12/13 10:19
→ : aw增速 LOOP
→ : 不需質疑scaling law,除非你相信人類科技停滯
→ : aw增速 LOOP
→ : 不需質疑scaling law,除非你相信人類科技停滯
推 : 現在還沒有nested learning 劃時代發明的感覺232F 12/13 10:21
推 : Scaling law不是聖經捏233F 12/13 10:22
推 : 質疑scaling law大概就是覺得人類科技現在就是頂了234F 12/13 10:24
→ : ,不會再更好,破台了,你覺得可能嗎,宇宙那麼大尺
→ : ,不會再更好,破台了,你覺得可能嗎,宇宙那麼大尺
推 : 應該是HBM下降,但一般LPDDR上升.因為不需要一直搬236F 12/13 10:24
→ : ,而且餐數量下降
→ : ,而且餐數量下降
推 : 推~238F 12/13 10:25
推 : 宇宙那麼大尺度,你覺得人類文明就這樣見頂了,人生239F 12/13 10:25
→ : 真無趣
→ : 真無趣
推 : 定期定額買進,做好隔代沖241F 12/13 10:27
推 : 先推242F 12/13 10:28
推 : 你對scaling law的理解是整個文明算力需求會上升243F 12/13 10:29
→ : 但這玩意說的是隨著模型規模增長 他就會表現得更
→ : 有智慧
→ : 但這玩意說的是隨著模型規模增長 他就會表現得更
→ : 有智慧
推 : 你的最後假設是記憶體會因為需求擴廠.結論會崩盤?246F 12/13 10:30
→ : 但現在看到的是記憶體寧願裁掉消費性也不擴產.
一般來說記憶體會有長鞭效應→ : 但現在看到的是記憶體寧願裁掉消費性也不擴產.
不過你說的也沒錯,如果市場很快就納入長期信號
不再瘋狂推高HBM價格,三大記憶體廠也沒有因瘋狂的短期價格訊號擴廠的話
最終的曲線可能會更平淡一點
泡沫有多大,破的時侯就有多刺激
我文中說2026年末要小心的前提是
明年上半HBM繼續以每季+20%~30%的價格增速瘋漲
如果現在就是HBM價格高點,稀缺性炒作停止,那反而不會有後面刺激故事
→ : 文明能量 算力需求或許會上升 但這和模型說的scal248F 12/13 10:30
→ : ing law是兩件事
→ : ing law是兩件事
推 : 我看不懂 是不是注定當韭菜了250F 12/13 10:31
→ : 另外 地球尺度夠大了吧 從第一個生命誕生到現在 生251F 12/13 10:31
→ : 命體的智慧走的一直是更有效率而非更大
→ : 命體的智慧走的一直是更有效率而非更大
推 : 美光究竟是不是先知253F 12/13 10:33
推 : 單細胞生物也很有效率,始終了展不了科技,就是要堆254F 12/13 10:37
→ : ,有效率只是堆更快,還是要堆
→ : ,有效率只是堆更快,還是要堆
推 : mina大大回來了!先推先推!256F 12/13 10:38
推 : 我只是認為架構永遠優先於規模257F 12/13 10:39
推 : 99公公258F 12/13 10:40
推 : all in TSMC or GOOG NVDA TSMC AAPL?259F 12/13 10:40
推 : 2樓噓的好懂 發表一下低見如何260F 12/13 10:42
推 : 講到人家看不懂就贏了261F 12/13 10:50
→ : 想買鴨 但看到macd就先等惹262F 12/13 10:50
推 : 2年我看大家也是說transformer完蛋了 是mamba得天下263F 12/13 10:51
→ : 可是現在主流還是都用Transformer
→ : 看起來真的很厲害 不過在看看
Mamba只有一層更新頻率→ : 可是現在主流還是都用Transformer
→ : 看起來真的很厲害 不過在看看
你套用在Nested learning的框架下去理解各種對Transfomer的改進
會發現他們都共享同一套數學表達
所以才說真正重要的不是HOPE架構,而是論文前半的那套數學
推 : 只有中國要擴廠 你哪邊資訊看到其他要擴的?266F 12/13 10:54
推 : 優文推推真有趣,言簡意賅,感謝信心加持267F 12/13 10:56
推 : 買半導體ETF應該不會輸吧268F 12/13 10:57
噓 : 你不如說量子電腦統一世界269F 12/13 10:59
→ : 最後針對邊緣裝置跟雲端的論述,是不是代表通訊又噴270F 12/13 11:00
推 : 我看起來他跟qkv結構沒甚麼關聯ㄟ 他是一種新的梯度271F 12/13 11:00
→ : 度更新方式
→ : 論文確實很厲害 不過跟記憶體好像沒啥關聯
→ : 度更新方式
→ : 論文確實很厲害 不過跟記憶體好像沒啥關聯
推 : 記憶體那邊省下來的錢,會轉去計算晶片,這樣講大家274F 12/13 11:02
→ : 懂了嗎
→ : 懂了嗎
推 : 不要吵買google就好276F 12/13 11:07
推 : 推277F 12/13 11:08
推 : 計概還老師了….努力回憶中278F 12/13 11:08
→ : 軟體,硬體會發展,需求不會像你想的那樣提升,top279F 12/13 11:15
→ : player手上的錢也是要從投資變回收,聽不懂也沒辦
→ : 法
→ : player手上的錢也是要從投資變回收,聽不懂也沒辦
→ : 法
推 : 怎麼會沒關聯 同等級算力用的記憶體變少 所以資源282F 12/13 11:15
→ : 要先轉去撐高算力 之後算力高了變成存儲能力遇瓶頸
→ : 就要再把資源拿去擴充記憶體 這是個正向的景氣循環
→ : 要先轉去撐高算力 之後算力高了變成存儲能力遇瓶頸
→ : 就要再把資源拿去擴充記憶體 這是個正向的景氣循環
推 : 所以買NVDA、TSM、GOOG、AVGO、AMD、APPL對吧285F 12/13 11:17
推 : 大規模路線肯定是會有用的286F 12/13 11:17
推 : 買半導體etf好了 基金會自動幫我們研究287F 12/13 11:22
→ : 要怎麼證明紀憶體不重要了?288F 12/13 11:25
推 : 以fab而言,記憶體御三家營收會典範轉移到TSMC,然後289F 12/13 11:27
→ : 我的AGI一定要比你強,所以開始瘋狂捲算力
→ : 現在大家在捲小孩子的學歷,以後大家改捲誰家的機器
→ : 人比較聰明比較能打
→ : 我的AGI一定要比你強,所以開始瘋狂捲算力
→ : 現在大家在捲小孩子的學歷,以後大家改捲誰家的機器
→ : 人比較聰明比較能打
推 : 跟AI聊完,如果要在NL以及BCI上投資,AI建議TSM、293F 12/13 11:42
→ : GOOG、ISRG
→ : GOOG、ISRG
![[圖]](https://i.imgur.com/jc7HXbfh.jpeg)
推 : 就是台積電繼續吃肉 韓廠挫賽296F 12/13 11:47
推 : 看不懂但先推再說297F 12/13 11:49
推 : 就是N變log N 這不是大一就學過的東西嗎298F 12/13 11:56
推 : 記憶體需求不會下降 只是增速回到線性而已299F 12/13 11:58
對,因為要解的問題又從IO bound變回compute bound了推 : 趨勢是AI用記憶體扶正 除非谷歌成功顛覆硬體界「300F 12/13 12:03
→ : 算力愈高 記憶體永遠不夠用」的基礎觀念
→ : 計概的東西是最難撼動的
是Compute intensity改變了→ : 算力愈高 記憶體永遠不夠用」的基礎觀念
→ : 計概的東西是最難撼動的
推 : 感謝大大的分享 與我想的差不多303F 12/13 12:06
推 : 感謝大大無私分享304F 12/13 12:11
推 : 從一個學習AI新架構的角度,我把minazukimaya大的305F 12/13 12:12
→ : 意見和Google nested learning paper放到NotebookL
→ : M上,先做了這份Deep Research報告,大家可以看一
→ : 下 (http://bit.ly/497jV9T)
→ : 意見和Google nested learning paper放到NotebookL
→ : M上,先做了這份Deep Research報告,大家可以看一
→ : 下 (http://bit.ly/497jV9T)
推 : 快搞死記憶體吧 想組電腦了309F 12/13 12:13
→ : 小看華爾街財技310F 12/13 12:16
推 : 結果下一世代最後還是靠Google...311F 12/13 12:24
推 : 還沒到最後的物理AI,一切都難說312F 12/13 12:25
→ : 半導體ETF買起來
→ : 半導體ETF買起來
推 : 所以nested learning架構的出現會加速AGI的出現嗎?314F 12/13 12:28
真正的AI產業領導者 aka. Sir Demis Hassabis他說我們離AGI還差一到兩次的關鍵技術突破
Nested Learning高機率是其中一個(用統一的數學語言重新描述知識與學習的本質)
剩下一個,我不知道 等Google Researh研究出來我再跟你說
推 : 看不懂但是感謝分享 大GG天下無敵315F 12/13 12:30
推 : 感謝大大無私分享316F 12/13 12:30
推 : 要爆了嗎?317F 12/13 12:33
推 : 有什麼好刺激的?記憶體已經好幾次這樣了318F 12/13 12:37
每一次記憶體週期都很刺激好嗎XD推 : 感謝分享 終於懂目前AI模型語言一堆限制的邏輯了319F 12/13 12:37
推 : 領先技術的,現在誰新手機沒用AI ?320F 12/13 12:38
推 : 推321F 12/13 12:43
推 : GSIT先躺一票人進去了322F 12/13 12:47
推 : 老鐵牛逼 我要好好複習我的數學了323F 12/13 12:49
推 : 那台積要回房間喝酒了嗎 奪門而出啥時回來?324F 12/13 13:12
推 : 看完推325F 12/13 13:14
推 : 還真的是2330無腦多326F 12/13 13:19
推 : 重壓TSMX,再加上七巨頭槓桿ETF,應該可以應對後面327F 12/13 13:22
→ : AI的發展
→ : AI的發展
推 : 甲骨文丸辣329F 12/13 13:22
→ : 囊括代工、算力、模型、應用330F 12/13 13:23
※ 編輯: minazukimaya (146.70.205.172 日本), 12/13/2025 13:23:49推 : 賀出桶!還馬上熱心分享QQ331F 12/13 13:23
推 : 關於接下來幾年學習推理運算所用的晶片,會朝更客332F 12/13 13:23
→ : 製化,記憶體需求與架構也將改變,由於NL是Google
→ : 開發也正積極落實應用,可想見內部有更多相應硬體
→ : 架構的研發,也有相對領先的優勢。粗淺的Deep Rese
→ : arch報告第二則分享給大家看看(https://bit.ly/4rVv1X3)
→ :
→ : 製化,記憶體需求與架構也將改變,由於NL是Google
→ : 開發也正積極落實應用,可想見內部有更多相應硬體
→ : 架構的研發,也有相對領先的優勢。粗淺的Deep Rese
→ : arch報告第二則分享給大家看看(https://bit.ly/4rVv1X3)
→ :
推 : m大厲害!希望後續持續幫忙暗示(或明示XD)救一下338F 12/13 13:25
→ : 我們這些小菜雞XD
→ : 我們這些小菜雞XD
推 : 推mina大,謝謝分享資訊340F 12/13 13:34
推 : 前幾天才看到TSMC釋出的N7到未來A14的效能演進,再341F 12/13 13:37
→ : 加上架構模型持續架化,兩者相輔相成實在很難想像未
→ : 來的AI世界會有多可怕@@
→ : *持續進化
→ : 加上架構模型持續架化,兩者相輔相成實在很難想像未
→ : 來的AI世界會有多可怕@@
→ : *持續進化
→ : 這是可以免費看的嗎www345F 12/13 13:38
TSMC claims 4.2X efficiency gain over a decade from N7 to A14 fabrication process | Tom's Hardware TSMC clarifies A14 specifications: Even more performance, but better tools might be needed to extract the full potential of the latest process technol ...
推 : 感謝分享348F 12/13 13:48
推 : 看不懂,先推349F 12/13 13:49
推 : 看起來像Transformer+RL?350F 12/13 13:58
推 : mina大一定知道數學猜想也在靠AI解決中,菇菇我等351F 12/13 14:01
→ : 躺在科學家塵封盒子的做不下去的論文登場,AI的第
→ : 三篇章聖杯是黑科技。
不止是數學,包含社會科學和經濟學,這種傳統上歸到文組的領域→ : 躺在科學家塵封盒子的做不下去的論文登場,AI的第
→ : 三篇章聖杯是黑科技。
實際上也是需要AI研究的
因為數學語言是有普世擴展性的
所以從Nested Learning的起點出發,再多幾步推導
就能得出「文明的本質就是計算」
延伸出L6與L7的計算層,發展出一套用來描述文明、制度的數學語言
https://reurl.cc/6bK3Q5
我提供一個引子給對這方面研究有興趣的人去讀
老樣子,如果讀不懂,就丟去問AI吧
※ 編輯: minazukimaya (146.70.205.172 日本), 12/13/2025 14:15:06
推 : NL=控制理論 Transformer=引擎 HOPE=會變形的引擎354F 12/13 14:11
→ : 會變形的引擎在飛機來說很恐怖 但模型訓練不一定
→ : 熱力學定律還是至高無上 很難有什麼技術可比喻為之
→ : 熱力學定律是不可被比喻的
你小看了Nested learning這篇論文的背後擴展潛力→ : 會變形的引擎在飛機來說很恐怖 但模型訓練不一定
→ : 熱力學定律還是至高無上 很難有什麼技術可比喻為之
→ : 熱力學定律是不可被比喻的
它不單單只是一篇關於AI的論文,它「正好是熱力學定律的反面理論」
熱力學是關於「宇宙的熵增」
Nested learning是關於「文明的熵減」
剛好是對偶關係
→ : 剛睡醒就看了好人名單文 刷了兩小時的手機358F 12/13 14:16
→ : 別想太多 一篇優化效率 現在ai就像是國土擴張,遲359F 12/13 14:22
→ : 早會有新算法,需要這些資源
※ 編輯: minazukimaya (146.70.205.172 日本), 12/13/2025 14:24:18→ : 早會有新算法,需要這些資源
推 : AI的飛輪效應要來了,算法-硬體 相互改善,直到物理361F 12/13 14:25
→ : 化學的窮盡
→ : 化學的窮盡
推 : 睡醒看到Mina大的文必推! (mina怎麼好像不用睡覺)363F 12/13 14:30
推 : SRAM太貴太佔die size且面向用戶,不用太低延遲364F 12/13 14:38
→ : DRAM應該更適合
→ : DRAM應該更適合
→ : 文明熵減是局部熵減 很難跟全域對偶 但是人致富關鍵366F 12/13 14:57
推 : CUDA 才是那個聖杯 ,ASIC只能做edge的367F 12/13 14:59
噓 : 想太多了368F 12/13 15:01
推 : 怎麼看google還是最大贏家,跟台廠有結盟的基本上369F 12/13 15:08
→ : 都不用擔憂太多
→ : 都不用擔憂太多
推 : 再推一次!看完覺得自己對AI的發展拔高了不只一層!371F 12/13 15:15
推 : 宇宙和文明還是有對偶 但沒有野蠻和文明那麼明顯372F 12/13 15:23
推 : 當初大家覺得Mamba能取代transformer 是MoE+mamba或373F 12/13 15:32
→ : 其他的架構 當然不可能只有一層ssm的架構啊
→ : 這東西感覺是一種特別的fine turing
→ : 能不能成功 要再多做一點實驗
→ : 現在主要還是覺得大模型比較強
→ : 這是想要做些中模型 就能有很好的適應能力吧
→ : 很特別 請google再多做一點實驗
→ : CMS這種更新方式 其實跟一般 先凍結一些層 然後慢慢
→ : 打開 不是很像嗎?
→ : 然道主要是那optimizer有貢獻嗎
→ : 好像也沒這麼簡單 要再研究一下
→ : 其他的架構 當然不可能只有一層ssm的架構啊
→ : 這東西感覺是一種特別的fine turing
→ : 能不能成功 要再多做一點實驗
→ : 現在主要還是覺得大模型比較強
→ : 這是想要做些中模型 就能有很好的適應能力吧
→ : 很特別 請google再多做一點實驗
→ : CMS這種更新方式 其實跟一般 先凍結一些層 然後慢慢
→ : 打開 不是很像嗎?
→ : 然道主要是那optimizer有貢獻嗎
→ : 好像也沒這麼簡單 要再研究一下
→ : NL像是聯合國憲章 HOPE是機構+流程 Transformer美國384F 12/13 15:52
→ : Mamba就是另一國 但看起來沒有成氣候
→ : Mamba就是另一國 但看起來沒有成氣候
推 : 總歸一句 2330是最大贏家 任何新技術都繞不開它386F 12/13 16:02
推 : 以為買了AI Pro就能一直使用Gemini思考型,結果還387F 12/13 16:10
→ : 是有次數限制…
→ : 是有次數限制…
推 : Mamba有沒有成氣候 還不知道吧....389F 12/13 16:24
→ : 每次新架構出來 基本都會吹一下 要經過檢驗
推 : 說實在 我個人是覺得沒有到當初看Transformer那種
→ : 神奇感 就是等看接下來發展
→ : 每次新架構出來 基本都會吹一下 要經過檢驗
推 : 說實在 我個人是覺得沒有到當初看Transformer那種
→ : 神奇感 就是等看接下來發展
→ : 感恩啊 謝謝分享專業知識 對我幫助蠻大的393F 12/13 16:40
推 : 想問2019是哪一篇394F 12/13 16:50
推 : 要五層參數 不就要一大坨人幫忙 fine tune嗎 這個395F 12/13 16:51
→ : 五年內就出來 是不是有點樂觀
五層不是五個模型好嗎,它是同一個模型的巢狀表達→ : 五年內就出來 是不是有點樂觀
在快層傳到慢層時,傳遞的是「語義向量」
這就表示L2傳給L3的語義向量要是同義的
也就是說,整個模型是要五層一起聯合訓練的
預訓練時不可能分散佈署
是訓練完才把L1/L2的初始靜態參數(慢權重)佈署到邊緣端
推 : 我g天下無敵還有人有疑問?397F 12/13 17:12
推 : 只能推了398F 12/13 17:17
推 : 意思是記憶卡現在風聲水起 隨著技術更新 擴廠=負債399F 12/13 17:29
→ : 虧損 暴死
→ : 虧損 暴死
推 : 看不懂所以問AI, 它建議是Goog/AAPL/AVGO/QCOM/ARM/401F 12/13 17:35
→ : TSMC/聯發科 , Nvidia有其護城河且他具備訓練功能不
→ : 至於死掉但要分散風險不重倉。
推 : TSM是絕對防禦
→ : TSMC/聯發科 , Nvidia有其護城河且他具備訓練功能不
→ : 至於死掉但要分散風險不重倉。
推 : TSM是絕對防禦
推 : AI回答我是SRAM IP 跟 ASIC 事核心受益者 咦?405F 12/13 17:40
![[圖]](https://i.imgur.com/vcaDUXgh.jpeg)
![[圖]](https://i.imgur.com/1tqlePEh.jpeg)
![[圖]](https://i.imgur.com/bMImfC4h.jpeg)
![[圖]](https://i.imgur.com/l4R5a7Fh.jpeg)
→ : 我菜雞還是QQQ和mega 7就好,神仙打架我沒資格參加410F 12/13 17:52
推 : 推411F 12/13 17:58
※ 編輯: minazukimaya (146.70.205.172 日本), 12/13/2025 18:07:13推 : 行業護城河問gpt你會很慘喔,每間護城河都是在增加412F 12/13 18:06
→ : 的要看的是未來布局
→ : 的要看的是未來布局
推 : Active Entropy Control Model414F 12/13 18:28
推 : 我沒問行業護城河欸我直接給論文它自己寫的415F 12/13 18:28
→ : 重點不在第四張在前三張
→ : 反正AI沒回要買Nividia 是建議前三張的標的
→ : 重點不在第四張在前三張
→ : 反正AI沒回要買Nividia 是建議前三張的標的
推 : 謝謝提供非常好的素材418F 12/13 19:00
推 : 此篇重點在未來AI世界的描繪,虛擬與現實的雙耦,虛419F 12/13 19:06
→ : 擬的入口(GOOG,APPL),物理的極限(TSM,CEG)
→ : 擬的入口(GOOG,APPL),物理的極限(TSM,CEG)
→ : 通用型怎麼什麼都不精怎麼和ASIC比421F 12/13 21:03
推 : 你各位還是想想最終消費者會選擇從哪個入口去付費A422F 12/13 21:16
→ : I
→ : I
推 : 這篇不是github還沒開源嗎?424F 12/13 21:28
推 : 不懂Nested Learning如何降低vram用量,不過先推了!425F 12/13 22:49
→ : 謝謝mina大的分享引起很多大大的討論,跪學中……426F 12/13 23:16
推 : asic每次換算法都要重新設計來取得最佳效能啊427F 12/13 23:39
※ avans:轉錄至看板 AI_Art 12/14 00:12推 : 這用TPU跑一定悲劇,GPU勉強可以,ASIC有得等428F 12/14 02:00
→ : 不過NL不會太快取代現有的LLM,即使硬體充分支援
→ : 每個人都雲端學習自己的AI model,學出來還都不同
→ : 太不可控了
→ : 可以考慮邊緣端的應用,不過風險還是很高,容易被告
→ : 不過NL不會太快取代現有的LLM,即使硬體充分支援
→ : 每個人都雲端學習自己的AI model,學出來還都不同
→ : 太不可控了
→ : 可以考慮邊緣端的應用,不過風險還是很高,容易被告
→ : 太唬爛,這要甚麼時候商轉,甚麼時候價格降下來433F 12/14 13:43
→ : 如果可行的話,採購第一個轉過來買這個
→ : 如果可行的話,採購第一個轉過來買這個
推 : 這是股版目前最有料的一篇435F 12/14 14:59
推 : 9月的時候要減碼TSM,現在要趕快補回來了嗎
推 : 9月的時候要減碼TSM,現在要趕快補回來了嗎
--
※ 看板: Stock 文章推薦值: 0 目前人氣: 0 累積人氣: 352
作者 minazukimaya 的最新發文:
- 最後一次更新華邦電,因為我大部份都回補了 之後就不再發文追蹤 未到目標價就回補的主因是總空單曝險水位控管 結合另一篇旺宏的標的文,兩檔的風報比持續拉大 下定決心的因素是今天旺宏漲停,我小量進場五月期 …50F 33推 4噓
標的: 2337.TW 旺宏 分類:空 分析/正文: 基本面 2026 Q1樂觀預估1.2~1.5元 主因為三月營收顯著成長,不過成本項不好估計 2027全年EPS,依凱基預估為107,EPS成長率 …90F 51推 1噓- 終於回臺灣啦~~來更新一下標的近況 基本面 過年之後,呈現近期轉強而長期轉弱的變化 主要是長鑫IPO之後擴產搶市佔以及力積電產能加入等因素 預期DDR4報價將在2026下半年開始轉弱 EPS預估 2 …106F 55推 12噓
- 2/2~2/6 籌碼分析總結 這也是本系列最後一篇文章了,過去幾篇文章 從長線分析(股權分散表)、短線分析(每日券商分點進出)、 與盤中分析(分檔內外盤結合盤勢)的內容 都涵蓋在裡面了,剩下的就是讓 …76F 48推 4噓
我知道很多人不想看到這串文了 不過還是更新一下2/4的籌碼追蹤 首先,今日成交量明顯降溫,高頻交易商退場,籌碼變得乾淨容易判斷 2/3作為主要買盤的 凱基-城中 統一-城中 再加上凱基-台北 今天明 …89F 66推
點此顯示更多發文記錄
→
guest
回列表(←)
分享

