顯示廣告
隱藏 ✕
Disp BBS guest 註冊 登入(i)
※ 本文轉寄自 ptt.cc 更新時間: 2026-04-07 10:03:04
看板 Stock
作者 neo5277 (I am an agent of chaos)
標題 [心得] 終端AI的時代來臨了
時間 Tue Apr  7 00:37:00 2026





有影片好讀版
https://reurl.cc/7EkLDD


GOOGLE 真的做了一件很可怕的事情。

可怕的地方,不是它又發了一個更大的模型,也不是再蓋一座更大的資料中心,而是它正
在把生成式 AI 的主戰場,從雲端慢慢搬到終端。Google AI Edge Gallery 已經公開把
「離線、在裝置上、直接跑開源模型」這件事做成可下載、可體驗、可驗證的產品展示;
Google AI Edge 的 LLM Inference API 也明確把「完全在裝置上執行 LLM」列為正式能
力,Gemma 4 與 Gemma 3n 則持續朝手機、平板、筆電這類 everyday devices 最佳化。
這代表方向已經不是概念驗證,而是平台層、模型層、工具鏈三條線一起往前推。


我自己的判斷,是這個趨勢已經過了「會不會發生」的階段,進入「什麼時候大規模落地
」的階段。我使用 2015 年的 Lenovo Y700、16GB RAM、GTX 960 4GB,實測 Gemma 4
E2B / E4B 在量化後仍有不差的推論速度;另一邊,用 Samsung S24 Ultra 測試(有NPU
,12g記憶體) Google AI Edge Gallery,體感速度如影片我沒有使用影片加速。

這兩個測試的共同訊號很清楚:只要模型夠小、量化夠深、執行框架夠貼近硬體,很多過

賴雲端 GPU 的任務,現在已經能在消費級終端本地完成。S24 Ultra 這類手機本身也已
經把 NPU 作為賣點之一,Google 端則直接提供 on-device generative AI 的展示與
API,這不是單點突破,而是供應鏈上下游開始對齊。

模型蒸餾技術相當成熟,剪接嫁支能力,基本不是難事,這也是模型雖然小,卻一定程度
上可以五臟俱全,不是五技而窮的結果。

以現代科技的迭代速度,我會說三年內終端隨身 AI 助理幾乎是必然,因為經濟誘因已
經足夠強。七巨頭過去兩年把 AI 的資本支出拉到前所未有的水位:Meta 2025 年全年資
本支出達 722.2 億美元;Microsoft 在 2025 會計年度第四季單季資本支出就達 242 億
美元;Alphabet 已預告 2026 年資本支出將落在 1750 億到 1850 億美元;Amazon 也已
公開表示 2025 年資本支出提高到 1000 億美元,且絕大部分投入 AI 資料中心。


這些數字說明,雲端推理需求確實還在暴增;但也正因為暴增,雲端才更需要把一部分工
作卸載到用戶手上的裝置。只要能把摘要、意圖辨識、OCR、翻譯、個人知識整理、UI 操
作代理這類高頻任務切到本地端,雲端就能把昂貴算力留給更長上下文、更大模型、

更複雜的多代理工作。

從資金回收角度看,終端 AI 不是雲端的對手,而是雲端資本支出的緩衝器。
這也是 Google 這一步真正厲害的地方。它不是只做模型,而是同時做模型、裝置端推論
框架、展示應用與開發入口。

對使用者來說,AI Edge Gallery 把「本地模型其實已經能用」這件事直接變成體感;
對開發者來說,LLM Inference API 與 LiteRT-LM 把部署門
檻往下壓。當工具鏈成形,真正的競爭就不再只是誰的基礎模型分數高,而是誰能更快把
能力下放到手機、平板、筆電、車機、眼鏡、工控設備與家用裝置。

如果有認識台灣谷歌的人可以內推我嗎? XD 我可以去打雜

再看技術面,量化技術正在把這件事推到更現實的階段。前面提到的本地測試之所以成立
,核心就在量化。低 bit 權重早已不是新題目,但現在更值得注意的是 KV cache 壓縮
。Google Research 今年公開的 TurboQuant,主打在幾乎不損失精度的前提下,大幅壓
縮模型大小與 KV cache;官方直接把它定位為支援 KV cache compression 與向量搜尋
的高效率壓縮方法。


若這類方法進一步成熟並被主流推論框架吸收,終端裝置的瓶頸就不再只是權重能不能塞
進去,而是長上下文能不能維持、記憶體能不能撐住、延遲能不能壓
低。這會直接改寫本地 AI 的可用範圍。過去手機本地 AI 常常只能做短任務,接下來則
可能走向真正的常駐式助理。
想像一下,你有像銀河飛龍 star trek 畢凱艦長胸前的裝置(這樣會不會有點暴露年紀?
或是 HALO CORTANA 真正能透過裝置上感測器,然後本地運行的AI模型,只有特殊高算力
場景才要連上大腦。那可以幫你處理多少事情?


股點來了

從硬體演進來看,未來三到五年最值得注意的不是單純「GPU 更大」,而是記憶體階層會
被重新設計。手機 SoC、NPU、記憶體、封裝內高頻寬記憶體、PC 端更高容量 LPDDR /
CAMM2、邊緣裝置上的低功耗加速器,會逐漸圍繞同一件事最佳化:如何讓 2B、4B、8B
級別模型在可接受的功耗內常駐,並且支援多模態輸入。

Gemma 3n 已經明確強調per-layer parameter caching 與 MatFormer 這類降低計算與
記憶體需求的設計,代表模型架構本身也開始為終端設備重寫。未來不是只有硬體堆料
,而是模型、量化、runtime、記憶體控制器、OS 調度一起往「本地可常駐」靠攏。


技術正在濃縮,精煉,可以說是進入真正軟硬整合的蒸餾狀態。

因此,邊緣 AI 不只會落在旗艦手機。樹莓派、FPGA、低功耗工控板,甚至各種專用
MCU + NPU 模組,都有機會承接某一層 AI 任務。這裡要分清楚:它們未必適合跑完整的
通用聊天模型,但非常適合承接「前處理、本地偵測、事件判斷、語音喚醒、OCR、簡單
代理、短上下文推理」等工作。Google AI Edge 目前已把生成式 AI、視覺、文字、音訊
都納入同一套邊緣開發敘事;而裝置端增量訓練也已經出現在官方文件中。


這代表邊緣設備未來不只是推理端,還可能具備有限度的個人化能力,也意味著統用標準
格式傳遞的出現,早期的xml,網路時代的json,或是二進位的msgpack,甚至更新的規格都
會快速出現。


如果把資金回收與實際應用放在一起看,未來最合理的投資方向,不是再追一輪只服務資
料中心的單一敘事,而是轉往終端整合。原因很簡單:終端 AI 比雲端 AI 更接近現金流
。手機、PC、車機、工業設備、醫療終端、零售裝置、安防攝影機、穿戴設備,每一個品
類都能把 AI 變成實際賣點,進而帶動晶片、記憶體、模組、作業系統、應用軟體與服務
訂閱。


雲端是必要基礎設施,但終端才是最容易把模型能力轉成大量出貨與長期黏著的地
方。這不是說資料中心不重要,而是下一輪回收率更高的競爭,很可能發生在誰能把 AI
變成「隨身、離線、低延遲、可私有化」的日常能力。這一點,Google 現在其實已經先
走了。



我的推論很直接:三年內,本地端隨身 AI 助理大規模出現,機率極高;五年內,終端裝
置的 AI 能力會像相機 ISP、神經網路引擎、5G modem 一樣,從加分項變成標配。真正
值得看的公司與產品,不會只是在資料中心買到最多 GPU 的那一批,而是能把模型壓縮
、記憶體管理、功耗控制、端雲協同與實際場景整合在一起的那一批。在老筆電和旗艦手
機上看到的體感,不是例外,而是前兆。



從模型,到服務,到裝置GOOGLE 現在這一步跟把安卓放出去是一樣....

以我們開發者來說,終端可以應用的場景太多太多了。
但我還是會覺得會有大修正,因為目前從上到下,可以整合所有的

只有GOOGLE 他只有輸B端應用跟服務,待在業界的都知道,GOOGLE最近很用力再衝這塊

真的是不得不佩服老巴跟他的團隊.....


--
WHY SO SERIOUS???



--
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.162.142.99 (臺灣)
※ 作者: neo5277 2026-04-07 00:37:00
※ 文章代碼(AID): #1fq-4nqY (Stock)
※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1775493425.A.D22.html
tamama000   : 可以請AI幫我總結10字以內嗎1F 04/07 00:38
※ 編輯: neo5277 (1.162.142.99 臺灣), 04/07/2026 00:39:52
賣掉其他六巨頭,等崩盤後全力買GOOGLE
台灣就買可以拿到他代工的跟GG
※ 編輯: neo5277 (1.162.142.99 臺灣), 04/07/2026 00:40:47
s8911090    : 內文都在講google 但語氣卻是chatgpt2F 04/07 00:41
Brioni      : PC黃金時代再錄音?3F 04/07 00:42
Brioni      : 再臨
benen       : google最近很勤勞啊,不是還大力推薦自家若有老電5F 04/07 00:44
benen       : 腦,可以改用chrome os再戰幾年
perlone     : 記憶體又要缺貨了7F 04/07 00:45
sdbb        : 歐印GGLL最快8F 04/07 00:46
miloisgood  : 這樣機器人會先飛天吧9F 04/07 00:47
基本上用一個還可以得有NPU的旗艦機可以寫app 來拓展的話
或著pi系列 做核心不難,難的是電機持久度,跟瞬時反應
bcismylove  : 總結 歐印GOOGLE10F 04/07 00:49
niniko      : 好,買GOOX11F 04/07 00:49
※ 編輯: neo5277 (1.162.142.99 臺灣), 04/07/2026 00:50:57
ga278057    : 有終端機器人嗎12F 04/07 00:52
offstage    : 可以請AI告訴我明天要買漲還是買跌嘛13F 04/07 00:53
brightest   : 問題是壹般人還是不知道ai除了能看廢片能幹嘛14F 04/07 00:53
jack55777100: 總結就是google是神要歐印15F 04/07 00:54
JoeyChen    : 照AI社群的開發熱情 所有的可能性都會比預測的快吧16F 04/07 00:55
bobboy8755  : 可以離線畫色圖吃到飽的意思嗎?(興奮17F 04/07 01:00
生成圖還要一下下 擴散模型比較麻煩
kuninaka    : 又是AI生成的文章18F 04/07 01:01
※ 編輯: neo5277 (1.162.142.99 臺灣), 04/07/2026 01:02:38
SodaMan     : 夢裏都有,成本不是消失是轉嫁到其他費用19F 04/07 01:06
bollar7     : google要漲了嗎,好像沒...20F 04/07 01:06
SodaMan     : 如果你理解AI 架構,就不會寫出這種結論21F 04/07 01:07
純推論應該還好 終端版本跟OS一樣持續更新釋出就好
BC0710      : 可以考慮一下GPU+WEKA/VAST 只能說都還未必誰贏 但22F 04/07 01:08
BC0710      : 餅越來越大是一定
aloness     : 終端應用,尤其手持產品的天敵就是耗電量24F 04/07 01:09
(鼓掌
※ 編輯: neo5277 (1.162.142.99 臺灣), 04/07/2026 01:11:29
aloness     : 下一個問題則是權限,誰會喜歡背景程式吃掉一大堆25F 04/07 01:12
aloness     : 資源,跟BT下載不會給手持3C一樣概念
※ 編輯: neo5277 (1.162.142.99 臺灣), 04/07/2026 01:17:01
Obama19     : 想太多了 終究只是個chatbot27F 04/07 01:15
openclaw可以做到的,我都可以開發後在手機上做到一樣的事情,光是Google AI edge
garlley就開放了下面這些給你體驗了
https://i.mopix.cc/1cdBfD.jpg
[圖]
連控制裝置都有
介接local api就好
※ 編輯: neo5277 (42.71.96.172 臺灣), 04/07/2026 01:21:49
strlen      : 第一天就載了 以一般消費者能裝的版本 基本沒屁用28F 04/07 01:29
strlen      : 又不是人人標配5090 就算是5090 模型也跟腦殘一樣
這跟5090沒有關係啊
光是 s24u 也滿普通的
strlen      : 更別說agent功能 想太多 再等5年30F 04/07 01:29
SodaMan     : 推論的基礎是背後的參考資料,你無法帶著龐大的資31F 04/07 01:30
SodaMan     : 料落地,那就是假像而已

蒸餾跟微調剪枝以後的slm完全就是本體
....哪裡需要什麼參考資料,這跟RAG不一樣
這是已經訓練好,蒸餾各種功能的模型
,你不會在手機上做微調的,手機上要實作
RAG也不會難,以我這支手機512g的硬碟空間可以放專屬的KM了,終端場景需要什麼龐大
的資料,還是沒有辦法想像,最多做個即時聯網或是連網的資料存取api透過網路加載
跟google地圖一樣而已....
※ 編輯: neo5277 (1.162.142.99 臺灣), 04/07/2026 01:39:32
xzero0911   : 5090跑31B VRAM還不夠用 掛OLLAMA要64G33F 04/07 01:37
xzero0911   : 26B效果倒是真的不錯回應又快
70%的商業應用場景其實不需要模型的多數能力啊,這點終端上本來有的能力結合起來這
個AI核心就好了。
yunf        : 浪費時間寫那麼多廢話幹嘛?35F 04/07 01:37
因為玩的滿興奮的
※ 編輯: neo5277 (1.162.142.99 臺灣), 04/07/2026 01:41:56
yunf        : 續航力問題沒辦法解決講再多你也只是空談36F 04/07 01:40
furture84   : 有消息稱google的演算法是抄襲某研究生,而研究生37F 04/07 01:48
furture84   : 的演算法是開源的
furture84   : Rabbit
furture84   : RabitQ
SodaMan     : 不要離題了,模型蒸餾目的是節省算力成本,這不代41F 04/07 01:49
SodaMan     : 表著可以用低成本建置地端的AI ,知識蒸餾只是走了
SodaMan     : 捷徑並不是捨去成本
lnonai      : MTK:44F 04/07 01:52
magic543    : 實際測試過 小模型沒多大屁用  直接用線上AI就可以45F 04/07 02:00
magic543    : 真的要辦公 還是需要PC 唯一重點是記憶體真的被錯殺
haley80208  : 整天吹 所以發布會的即時翻譯什麼時後能做好47F 04/07 02:03
waitrop     : 為何會提到蒸餾?谷歌這技術跟edge 端AI 跟蒸餾完48F 04/07 02:04
waitrop     : 全沒有關係,簡單說就是模型小到能在edge 執行,效
waitrop     : 能又超強,跟蒸餾無關
前兩代都是蒸餾的啊...
都是從teacher學習部分能力啊..
hc20016     : 結論就是 需要很多很多的記憶體51F 04/07 02:06
hc20016     : 記憶卡蛙團結強大 一張不賣
※ 編輯: neo5277 (1.162.142.99 臺灣), 04/07/2026 02:08:53
qoojo2002   : 現在買甲骨文很便宜53F 04/07 02:29
saito2190   : 我覺得邊緣裝置AI重點會在Agent能力跟指令服從性,54F 04/07 02:35
saito2190   : 他本身不用太聰明沒關係,反正Skill時代都是拿已經
saito2190   : 寫好的Skill給他跑,他只要能在正確的時間調用正確
saito2190   : 的工具,那就能完成大部分的任務,真正需要深度思
saito2190   : 考+研究的再去調用外部大模型就好
holysong    : 一隻手機20萬?59F 04/07 02:43
nineflower  : 終端AI現在就能做阿,很佔地方而已,手機終端還要等60F 04/07 02:51
nineflower  : 硬體奇異點突破
bala045     : 不是oooo 而是xxxx 可不可以讓你AI 不要再生這種句62F 04/07 02:52
bala045     : 子
zero790425  : 在吹估狗卻用別家AI填充內文 bad64F 04/07 03:07
sonatafm2   : 所以沒那麼快落實到手持裝置的65F 04/07 03:15
TameFoxx    : 無論怎搞  你的電費都還是比雲端API還貴66F 04/07 03:28
budaixi     : == 消費性電子股價都跌爛了,就你在吹67F 04/07 03:44
kingofsdtw  : 增加手機耗電嗎? apple笑而不語68F 04/07 04:08
space20021  : 你這篇也是AI寫的69F 04/07 04:22
CH1SIR      : 置板凳!70F 04/07 04:35
CH1SIR      : 五年後再回來這篇
kkman2      : 覺得遲早的事情72F 04/07 04:56
mtmmy       : Mac Mini 16G RAM跑Gemma 4還是好吃力73F 04/07 05:16
breathair   : 谷歌這版本基本就是給開發者玩的,看能玩出什麼花樣74F 04/07 05:23
breathair   : ,有人調整權重讓他接受一些惡意指令(駭客攻擊),
breathair   : 有人把它拿進公司封閉環境裡面做工作流自動化,綁定
breathair   : 開發者生態,目的是為了搶佔開發者生態為目的
breathair   : 日後終端算力肯定越來越高,模型越做越小。那個時候
breathair   : 這東西就有機會成為可以裝在所有終端的安卓2.0(絕
breathair   : 對不是現在,現在在手機上還不如免費版的Gemini)
breathair   : 我買了許多谷歌,但谷歌現階段真不看這東西,他最重
breathair   : 要的業務一樣是廣告跟大模型能力來保護自己的搜索業
breathair   : 務,這只是眾多佈局中的一個細分賽道
cy168       : 沒有open ai,google 當初並不想推llm ai,因為商84F 04/07 05:36
cy168       : 業獲利整個被侵蝕。現在又準備建構讓大家離不開的
cy168       : 生態鏈了。
alice1967   : 共享的資源還是最經濟實惠的,終端只是最後輸出跟顯87F 04/07 05:37
alice1967   : 示工具,別想太多!
guanting886 : SLM配點RAG最多只能做到志工媽媽角色89F 04/07 06:13
guanting886 : 能做小就幾個方向 縮小參數量、量化精度損失的部分
guanting886 : 就你看你調效的取捨
guanting886 : 上下文的能吃的量就決定他能做的事很有限了
vovovolibear: 你的眼光很棒,只是目前我們連夏天有沒有油可以發電93F 04/07 06:55
vovovolibear: 都不知道
zenixls2    : meta的llama當初被吹多高,你真的覺得本地端模型炒95F 04/07 07:14
zenixls2    : 得起來?
zenixls2    : esp32接大模型表現比Mac m3,4跑本地端模型好時,你
zenixls2    : 還想用本地端嗎?
mdkn35      : 早就有了吧 就準確率問題99F 04/07 07:24
efkfkp      : 所以google到底還能不能買?有翻倍的可能嗎?還是股100F 04/07 07:31
efkfkp      : 價就這樣了
wed1979     : 算力中心一直建,是有什麼應用已經落地需要大算力..102F 04/07 07:34
wed1979     : .sora不是燒完了
CYL009      : 之前豆包手機就是了 只不過會被其他大企業抵制 看谷104F 04/07 07:38
CYL009      : 歌怎麼玩
gaussjordan : 你哪位106F 04/07 07:45
solarpower  : 感謝分享與測試~謝謝107F 04/07 07:47
john801110  : 阿斯拉?108F 04/07 07:52
roiop710    : 好的看來壓身家衝記憶體了109F 04/07 07:52
fajita      : 吹成這樣,看了都覺得好笑,跟那個死臉AI一樣110F 04/07 07:54
jas258      : 這種 這不是…而是的文體是不是都是AI啊111F 04/07 07:59
secrectlife : 好像廢話太多了112F 04/07 08:11
ahg         : 普遍消費者用與不用的差別?這滲透率跟商轉能這麼113F 04/07 08:12
ahg         : 樂觀?
CCH2022     : 要多久才能twitch YouTube直播做到即時翻譯115F 04/07 08:18
alice1967   : 你要知道公司靠什麼收費,是廣告不是手機,既然如此116F 04/07 08:26
alice1967   : ,搞終端就是傻子,沒有收入搞個屁!不要淨用AI寫幻
alice1967   : 想文
ikariamman  : 台灣早有啦119F 04/07 08:33
Porops      : 有夠AI的文章,業內的根本不可能有這樣的結論120F 04/07 08:45
ma721       : 電池沒解決前都不可能121F 04/07 08:53
FatFatQQ    : https://i.verb.tw/gjJ5d3SO.jpg122F 04/07 08:56
[圖]
orange7986  : 我用 Mac Mini m4 pro 跑8B 模型很快但很笨 30B跑123F 04/07 09:15
orange7986  : 超慢…還是用雲端好
joygo       : 沒噴就是跑起來其實還好125F 04/07 09:22
joygo       : 出了之後就下載的心得是 如果你拿去買顯卡的錢 調
joygo       : 閱應該很夠了 老黃越出token只會越便宜
dhm520      : 廢話太多128F 04/07 09:50
xiemx       : 好吧先看看129F 04/07 09:55

--
※ 看板: Stock 文章推薦值: 0 目前人氣: 1 累積人氣: 65 
作者 neo5277 的最新發文:
點此顯示更多發文記錄
分享網址: 複製 已複製
guest
x)推文 r)回覆 e)編輯 d)刪除 M)收藏 ^x)轉錄 同主題: =)首篇 [)上篇 ])下篇