Re: [閒聊] 現在橫空出世的NPU - PC_Shopping板

首頁(home) 上頁(↑) 下頁(↓) 末頁(end)

※ 本文轉寄自 ptt.cc 更新時間: 2023-12-28 12:57:13

看板 PC_Shopping

作者 oopFoo (3d)
標題 Re: [閒聊] 現在橫空出世的NPU
時間 Thu Dec 28 08:05:36 2023

※ 引述《wahaha99 (我討厭人類)》之銘言：
: 以這個評測為例, 讓我有點霧裡看花, 不是很能明白:
: Intel Ultra 7 155H
: CPU分數 67
: GPU分數 413
: NPU分數 282
: 嗯....這NPU看起來沒比較厲害?
: 所以我的疑問就是:
: 1. NPU 表現還不如 GPU, 這也許可以理解為最佳化還沒到位,
: 不過即使未來能小贏, 為什麼不拿去做GPU就算了, 還可以增加3D性能。
npu/matrix/tensor其實不能增加傳統的3d性能。增加的是dlss/ray tracing的性能。
但這是個好問題，現在的情況，npu(matrix)如果併入gpu或cpu其實是更好的選擇。

: 2. NPU 能執行通用計算嗎? 如果可以, NPU 只是神經網路運算特化
: 的 GPU?
npu是matrix(systolic array)特異化的超簡易cpu。不適合通用計算

: 3. 如何調用 NPU? 是視為 OpenCL / DirectML 裝置?
: 還是又整出新的方法跟API了?
: 又或只是在GPU下的子集? (調用核顯運算時指示調用NPU?)
目前就是另一個黑盒子運算機，不需要opencl/directml，可以直接從程式使用，如果os有開放出來。

gpu/avx，是simd，是1d array的運算

npu/amx/tensor是systolic array，是2d array的運算。

simd也可以matrix運算，但比較沒有效率，因為要一直切換資料。

gpu+tensor/cpu+amx，就是把傳統的1d暫存器擴張到2d暫存器(systolic array)，把切換資料的時間省下來。效率可以2x~8x或更多。

現在影像的ai運用，npu是足夠的，這是當初設計npu的目的。就算是現在很紅的diffusion model，NPU也是很適合的，因為不需要即時反應。

現在的問題是，LLM(Large language Model)，現在ai炒作其實就是講這個。

LLM吃記憶體吃記憶體頻寬吃運算能力。只用npu來暴力運算是行不通的。

N家的inference optimization文章
https://developer.nvidia.com/blog/mastering-llm-techniques-inference-optimization/

Mastering LLM Techniques: Inference Optimization | NVIDIA Technical Blog

Stacking transformer layers to create large models results in better accuracies, few-shot learning capabilities, and even near-human emergent abilitie ...

https://reurl.cc/37Nd7V
基本上，LLM的資料其實很鬆散，但很龐大，所以必須要想辦法做各種記憶體的規劃跟重組。

一個壓縮過，重組記憶體排列方法的Model，可以有10x以上的效能提昇，以後可能可以有100x的提昇。

一個很有趣的例子，intel剛買下的Numenta
https://technews.tw/2023/10/16/intel-xeon-numenta/

Hot Chips 2023》英特爾 Xeon 執行近似人類大腦推論的 Numenta | TechNews 科技新報

可曾想過人為什麼會有「意識」？理解世界的「智能」又從何而來？這和處理器業界的年度盛事 Hot Chips 又有什麼千絲萬縷的關係？被譽為世界科幻文學三巨頭之一的羅伯特· 海萊恩（Robert Anson Heinlein），1961 年出版的《異鄉異客》（Stranger in a Strange ...

他把Sparse的matrix重組成Compressed Sparse Row，然後運用cpu能力去解開到AMX再來運算，就達到10x~20x的提昇。
這個再加各種caching跟attention的優化，100x提昇是很有可能達到的。

趨勢來講，ai還在演變，cpu+amx或gpu+tensor還是會是短期發展的趨勢。

--

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 219.70.128.119 (臺灣)
※ 作者: oopFoo 2023-12-28 08:05:36
※ 文章代碼(AID): #1bZBlMK6 (PC_Shopping)
※ 文章網址: https://www.ptt.cc/bbs/PC_Shopping/M.1703721942.A.506.html

※ 同主題文章:

● 12-28 08:05 oopFoo. ■ Re: [閒聊] 現在橫空出世的NPU

　 12-29 06:44 oopFoo. ■ Re: [閒聊] 現在橫空出世的NPU

推 avans: 推專業見解說明1F 42.79.173.45 台灣 12/28 08:23

推 hyde1arc: 推2F 42.73.76.248 台灣 12/28 08:49

推 sbL: 推3F 36.224.221.45 台灣 12/28 08:51

推 tsaigi: 推4F 211.78.39.171 台灣 12/28 08:53

推 pinghg: 推以免人家說我看不懂5F 125.229.155.20 台灣 12/28 08:57

→ labiron: 推應該沒人發現我看不懂6F 114.137.214.99 台灣 12/28 09:13

推 mtc5566: 推這篇難得沒吹intel7F 27.51.98.34 台灣 12/28 09:19

推 smallreader: 所以GPU/NPU都還是疏鬆矩陣整個吞下8F 114.27.25.210 台灣 12/28 09:46
→ smallreader: 去硬幹? 囧

推 hidalgo22976: 他應該是針對LLM而已 attention本10F 1.171.169.121 台灣 12/28 09:51
→ hidalgo22976: 來就是sparse matrix
→ hidalgo22976: 不過這東西看起來就只是要做user端
→ hidalgo22976: 而已吧，有要取代gpu的意思嗎
推 hidalgo22976: 現在attention後期的研究幾乎就是
→ hidalgo22976: 想辦法不要整個matrix吞下去

推 lpoijk: mtl跑ai 我bug還在解嗚嗚嗚16F 111.196.243.14 中國 12/28 09:56

推 hidalgo22976: 他提到的compressed sparse matrix17F 1.171.169.121 台灣 12/28 09:59
→ hidalgo22976: 應該就是其中一種，反正各種方式
→ hidalgo22976: 想辦法不要算那個大矩陣的演算法一
→ hidalgo22976: 堆

→ oopFoo: 大矩陣一定要算的，現在就是合併運算不要21F 36.224.253.196 台灣 12/28 10:06
→ oopFoo: 來回重複讀取大矩陣。另一個方向就是改變
→ oopFoo: 讀取的方式，更有效利用L2/L3快取。最後就

推 aegis43210: model pruning是未來演算法及設計的重24F 223.140.137.89 台灣 12/28 10:09
→ aegis43210: 要一環，但現在不是重點

→ oopFoo: 是看運算法有沒突破，但這比較難26F 36.224.253.196 台灣 12/28 10:09

推 hidalgo22976: 反正後期就是想辦法不算那個大矩陣27F 1.171.169.121 台灣 12/28 10:23
→ hidalgo22976: ，幾乎也沒什麼特別突出的想法，每
→ hidalgo22976: 個都在簡化attention matrix的計算
→ hidalgo22976: 不過他提的npu好像跟你想像的不一
→ hidalgo22976: 樣，他應該是用在user端吧
→ hidalgo22976: user端不會遇到記憶體問題啦，你要
→ hidalgo22976: 幾百張gpu做真‘’L"LM才要考量記
→ hidalgo22976: 憶體頻寬

推 wahaha99: 推專業說明感謝35F 118.169.11.48 台灣 12/28 10:29

推 qwe78971: 太專業看不太懂36F 27.53.137.26 台灣 12/28 10:57

推 bw212: 太專業了只能看戲37F 111.246.150.41 台灣 12/28 11:06
→ bw212: 不過突然有個想法 FPGA能拿來搞AI嗎

推 chang1248w: 長見識39F 223.137.131.26 台灣 12/28 11:14

推 pmes9866: 推40F 42.73.179.134 台灣 12/28 11:15

→ twinkleAshed: 會不會到最後變回加速卡的形式, 用41F 223.136.225.199 台灣 12/28 11:22
→ twinkleAshed: PCIE介面去擴充?

推 stlinman: 好奇NPU算圖的做到什麼程度? 一樣吃Vram43F 150.116.129.113 台灣 12/28 11:36
→ stlinman: a87?

推 mayolane: @bw212 我不知道技術上怎樣不過XDNA是X45F 223.136.236.223 台灣 12/28 11:43
→ mayolane: ilinx整合進來的結果

→ tomsawyer: 看到systolic 頭好痛想到用verilog47F 1.200.97.106 台灣 12/28 11:44
→ tomsawyer: 硬幹systolic MAC的作業有夠折騰

推 oppoR20: 推49F 60.198.151.4 台灣 12/28 11:49

推 CircusWorld: 推50F 123.205.143.107 台灣 12/28 12:06

推 canandmap: 推51F 36.228.134.182 台灣 12/28 12:42

推 palapalanhu: 好專業52F 59.115.186.234 台灣 12/28 12:50

--

※ 看板: PC_Shopping　文章推薦值: 0 目前人氣: 0 累積人氣: 350　

作者 oopFoo 的最新發文:

+4 Re: [情報] Intel放棄x86S - PC_Shopping 板

作者: oopFoo 58.114.66.74 (台灣) 2024-12-23 23:21:58

69F 11推 7噓
+13 Re: [情報] Intel戰鬥法師顯卡(B580)NDA解禁 - PC_Shopping 板

作者: oopFoo 111.248.101.139 (台灣) 2024-12-13 09:49:02

49F 17推 4噓
[閒聊] 震撼！Intel 18A 良率達到99%+ - PC_Shopping 板

作者: oopFoo 58.114.66.74 (台灣) 2024-12-07 07:22:49

254F 55推 55噓
+43 [情報] Intel B580/B570顯卡 12/3發布 12/12推出 - PC_Shopping 板

作者: oopFoo 58.114.66.74 (台灣) 2024-11-29 07:28:20

Intel 限定板 12/12日 aib 12/13日 B580 12GB/20xe2/192bits/pcie5x8 $249鎂 B570 ??? B580想搶3060 12GB的市場。AI的最佳 …

105F 44推 1噓
+51 [情報] 華擎arc B580 亞馬遜洩露 - PC_Shopping 板

作者: oopFoo 1.164.197.72 (台灣) 2024-11-23 14:29:31

亞馬遜(華擎)不小心把產品上架。目前已下架。 ASRock Intel Arc A580 Steel Legend 12GB OC GDDR6 2800 MHz 19 Gbps 192-bit 65 …

113F 51推