顯示廣告
隱藏 ✕
※ 本文轉寄自 ptt.cc 更新時間: 2023-12-28 12:57:13
看板 PC_Shopping
作者 oopFoo (3d)
標題 Re: [閒聊] 現在橫空出世的NPU
時間 Thu Dec 28 08:05:36 2023


※ 引述《wahaha99 (我討厭人類)》之銘言:
: 以這個評測為例, 讓我有點霧裡看花, 不是很能明白:
: Intel Ultra 7 155H
: CPU分數 67
: GPU分數 413
: NPU分數 282
: 嗯....這NPU看起來沒比較厲害?
: 所以我的疑問就是:
: 1. NPU 表現還不如 GPU, 這也許可以理解為最佳化還沒到位,
:    不過即使未來能小贏, 為什麼不拿去做GPU就算了, 還可以增加3D性能。
npu/matrix/tensor其實不能增加傳統的3d性能。增加的是dlss/ray tracing的性能。
但這是個好問題,現在的情況,npu(matrix)如果併入gpu或cpu其實是更好的選擇。

: 2. NPU 能執行通用計算嗎? 如果可以, NPU 只是神經網路運算特化
:    的 GPU?
npu是matrix(systolic array)特異化的超簡易cpu。不適合通用計算

: 3. 如何調用 NPU? 是視為 OpenCL / DirectML 裝置?
:    還是又整出新的方法跟API了?
:    又或只是在GPU下的子集? (調用核顯運算時指示調用NPU?)
目前就是另一個黑盒子運算機,不需要opencl/directml,可以直接從程式使用,如果os有開放出來。

gpu/avx,是simd,是1d array的運算

npu/amx/tensor是systolic array,是2d array的運算。

simd也可以matrix運算,但比較沒有效率,因為要一直切換資料。

gpu+tensor/cpu+amx,就是把傳統的1d暫存器擴張到2d暫存器(systolic array),把切換資料的時間省下來。效率可以2x~8x或更多。

現在影像的ai運用,npu是足夠的,這是當初設計npu的目的。就算是現在很紅的diffusion model,NPU也是很適合的,因為不需要即時反應。

現在的問題是,LLM(Large language Model),現在ai炒作其實就是講這個。

LLM吃記憶體吃記憶體頻寬吃運算能力。只用npu來暴力運算是行不通的。

N家的inference optimization文章
https://developer.nvidia.com/blog/mastering-llm-techniques-inference-optimization/
Mastering LLM Techniques: Inference Optimization | NVIDIA Technical Blog
[圖]
Stacking transformer layers to create large models results in better accuracies, few-shot learning capabilities, and even near-human emergent abilitie ...

 
https://reurl.cc/37Nd7V
基本上,LLM的資料其實很鬆散,但很龐大,所以必須要想辦法做各種記憶體的規劃跟重組。

一個壓縮過,重組記憶體排列方法的Model,可以有10x以上的效能提昇,以後可能可以有100x的 提昇。

一個很有趣的例子,intel剛買下的Numenta
https://technews.tw/2023/10/16/intel-xeon-numenta/
Hot Chips 2023》英特爾 Xeon 執行近似人類大腦推論的 Numenta | TechNews 科技新報
[圖]
可曾想過人為什麼會有「意識」?理解世界的「智能」又從何而來?這和處理器業界的年度盛事 Hot Chips 又有什麼千絲萬縷的關係? 被譽為世界科幻文學三巨頭之一的羅伯特· 海萊恩(Robert Anson Heinlein),1961 年出版的《異鄉異客》(Stranger in a Strange  ...

 
他把Sparse的matrix重組成Compressed Sparse Row,然後運用cpu能力去解開到AMX再來運算,就達到10x~20x的提昇。
這個再加各種caching跟attention的優化,100x提昇是很有可能達到的。

趨勢來講,ai還在演變,cpu+amx或gpu+tensor還是會是短期發展的趨勢。

--
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 219.70.128.119 (臺灣)
※ 作者: oopFoo 2023-12-28 08:05:36
※ 文章代碼(AID): #1bZBlMK6 (PC_Shopping)
※ 文章網址: https://www.ptt.cc/bbs/PC_Shopping/M.1703721942.A.506.html
avans: 推 專業見解說明1F 42.79.173.45 台灣 12/28 08:23
hyde1arc: 推2F 42.73.76.248 台灣 12/28 08:49
sbL: 推3F 36.224.221.45 台灣 12/28 08:51
tsaigi: 推4F 211.78.39.171 台灣 12/28 08:53
pinghg: 推 以免人家說我看不懂5F 125.229.155.20 台灣 12/28 08:57
labiron: 推 應該沒人發現我看不懂6F 114.137.214.99 台灣 12/28 09:13
mtc5566: 推 這篇難得沒吹intel7F 27.51.98.34 台灣 12/28 09:19
smallreader: 所以GPU/NPU都還是疏鬆矩陣整個吞下8F 114.27.25.210 台灣 12/28 09:46
smallreader: 去硬幹? 囧
hidalgo22976: 他應該是針對LLM而已 attention本10F 1.171.169.121 台灣 12/28 09:51
hidalgo22976: 來就是sparse matrix
hidalgo22976: 不過這東西看起來就只是要做user端
hidalgo22976: 而已吧,有要取代gpu的意思嗎
hidalgo22976: 現在attention後期的研究幾乎就是
hidalgo22976: 想辦法不要整個matrix吞下去
lpoijk: mtl跑ai 我bug還在解 嗚嗚嗚16F 111.196.243.14 中國 12/28 09:56
hidalgo22976: 他提到的compressed sparse matrix17F 1.171.169.121 台灣 12/28 09:59
hidalgo22976:  應該就是其中一種,反正各種方式
hidalgo22976: 想辦法不要算那個大矩陣的演算法一
hidalgo22976: 堆
oopFoo: 大矩陣一定要算的,現在就是合併運算不要21F 36.224.253.196 台灣 12/28 10:06
oopFoo: 來回重複讀取大矩陣。另一個方向就是改變
oopFoo: 讀取的方式,更有效利用L2/L3快取。最後就
aegis43210: model pruning是未來演算法及設計的重24F 223.140.137.89 台灣 12/28 10:09
aegis43210: 要一環,但現在不是重點
oopFoo: 是看運算法有沒突破,但這比較難26F 36.224.253.196 台灣 12/28 10:09
hidalgo22976: 反正後期就是想辦法不算那個大矩陣27F 1.171.169.121 台灣 12/28 10:23
hidalgo22976: ,幾乎也沒什麼特別突出的想法,每
hidalgo22976: 個都在簡化attention matrix的計算
hidalgo22976: 不過他提的npu好像跟你想像的不一
hidalgo22976: 樣,他應該是用在user端吧
hidalgo22976: user端不會遇到記憶體問題啦,你要
hidalgo22976: 幾百張gpu做真‘’L"LM才要考量記
hidalgo22976: 憶體頻寬
wahaha99: 推專業說明 感謝35F 118.169.11.48 台灣 12/28 10:29
qwe78971: 太專業 看不太懂36F 27.53.137.26 台灣 12/28 10:57
bw212: 太專業了只能看戲37F 111.246.150.41 台灣 12/28 11:06
bw212: 不過突然有個想法 FPGA能拿來搞AI嗎
chang1248w: 長見識39F 223.137.131.26 台灣 12/28 11:14
pmes9866: 推40F 42.73.179.134 台灣 12/28 11:15
twinkleAshed: 會不會到最後變回加速卡的形式, 用41F 223.136.225.199 台灣 12/28 11:22
twinkleAshed: PCIE介面去擴充?
stlinman: 好奇NPU算圖的做到什麼程度? 一樣吃Vram43F 150.116.129.113 台灣 12/28 11:36
stlinman: a87?
mayolane: @bw212 我不知道技術上怎樣不過XDNA是X45F 223.136.236.223 台灣 12/28 11:43
mayolane: ilinx整合進來的結果
tomsawyer: 看到systolic 頭好痛 想到用verilog47F 1.200.97.106 台灣 12/28 11:44
tomsawyer: 硬幹systolic MAC的作業 有夠折騰
oppoR20: 推49F 60.198.151.4 台灣 12/28 11:49
CircusWorld: 推50F 123.205.143.107 台灣 12/28 12:06
canandmap: 推51F 36.228.134.182 台灣 12/28 12:42
palapalanhu: 好專業52F 59.115.186.234 台灣 12/28 12:50

--
※ 看板: PC_Shopping 文章推薦值: 0 目前人氣: 0 累積人氣: 333 
分享網址: 複製 已複製
guest
x)推文 r)回覆 e)編輯 d)刪除 M)收藏 ^x)轉錄 同主題: =)首篇 [)上篇 ])下篇