※ 本文轉寄自 ptt.cc 更新時間: 2023-12-28 12:57:13
看板 PC_Shopping
作者 標題 Re: [閒聊] 現在橫空出世的NPU
時間 Thu Dec 28 08:05:36 2023
※ 引述《wahaha99 (我討厭人類)》之銘言:
: 以這個評測為例, 讓我有點霧裡看花, 不是很能明白:
: Intel Ultra 7 155H
: CPU分數 67
: GPU分數 413
: NPU分數 282
: 嗯....這NPU看起來沒比較厲害?
: 所以我的疑問就是:
: 1. NPU 表現還不如 GPU, 這也許可以理解為最佳化還沒到位,
: 不過即使未來能小贏, 為什麼不拿去做GPU就算了, 還可以增加3D性能。
npu/matrix/tensor其實不能增加傳統的3d性能。增加的是dlss/ray tracing的性能。
但這是個好問題,現在的情況,npu(matrix)如果併入gpu或cpu其實是更好的選擇。
: 2. NPU 能執行通用計算嗎? 如果可以, NPU 只是神經網路運算特化
: 的 GPU?
npu是matrix(systolic array)特異化的超簡易cpu。不適合通用計算
: 3. 如何調用 NPU? 是視為 OpenCL / DirectML 裝置?
: 還是又整出新的方法跟API了?
: 又或只是在GPU下的子集? (調用核顯運算時指示調用NPU?)
目前就是另一個黑盒子運算機,不需要opencl/directml,可以直接從程式使用,如果os有開放出來。
gpu/avx,是simd,是1d array的運算
npu/amx/tensor是systolic array,是2d array的運算。
simd也可以matrix運算,但比較沒有效率,因為要一直切換資料。
gpu+tensor/cpu+amx,就是把傳統的1d暫存器擴張到2d暫存器(systolic array),把切換資料的時間省下來。效率可以2x~8x或更多。
現在影像的ai運用,npu是足夠的,這是當初設計npu的目的。就算是現在很紅的diffusion model,NPU也是很適合的,因為不需要即時反應。
現在的問題是,LLM(Large language Model),現在ai炒作其實就是講這個。
LLM吃記憶體吃記憶體頻寬吃運算能力。只用npu來暴力運算是行不通的。
N家的inference optimization文章
https://developer.nvidia.com/blog/mastering-llm-techniques-inference-optimization/
Mastering LLM Techniques: Inference Optimization | NVIDIA Technical Blog
Stacking transformer layers to create large models results in better accuracies, few-shot learning capabilities, and even near-human emergent abilitie ...
Stacking transformer layers to create large models results in better accuracies, few-shot learning capabilities, and even near-human emergent abilitie ...
基本上,LLM的資料其實很鬆散,但很龐大,所以必須要想辦法做各種記憶體的規劃跟重組。
一個壓縮過,重組記憶體排列方法的Model,可以有10x以上的效能提昇,以後可能可以有100x的 提昇。
一個很有趣的例子,intel剛買下的Numenta
https://technews.tw/2023/10/16/intel-xeon-numenta/
Hot Chips 2023》英特爾 Xeon 執行近似人類大腦推論的 Numenta | TechNews 科技新報
可曾想過人為什麼會有「意識」?理解世界的「智能」又從何而來?這和處理器業界的年度盛事 Hot Chips 又有什麼千絲萬縷的關係? 被譽為世界科幻文學三巨頭之一的羅伯特· 海萊恩(Robert Anson Heinlein),1961 年出版的《異鄉異客》(Stranger in a Strange ...
可曾想過人為什麼會有「意識」?理解世界的「智能」又從何而來?這和處理器業界的年度盛事 Hot Chips 又有什麼千絲萬縷的關係? 被譽為世界科幻文學三巨頭之一的羅伯特· 海萊恩(Robert Anson Heinlein),1961 年出版的《異鄉異客》(Stranger in a Strange ...
這個再加各種caching跟attention的優化,100x提昇是很有可能達到的。
趨勢來講,ai還在演變,cpu+amx或gpu+tensor還是會是短期發展的趨勢。
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 219.70.128.119 (臺灣)
※ 作者: oopFoo 2023-12-28 08:05:36
※ 文章代碼(AID): #1bZBlMK6 (PC_Shopping)
※ 文章網址: https://www.ptt.cc/bbs/PC_Shopping/M.1703721942.A.506.html
推 : 推 專業見解說明1F 42.79.173.45 台灣 12/28 08:23
推 : 推2F 42.73.76.248 台灣 12/28 08:49
推 : 推3F 36.224.221.45 台灣 12/28 08:51
推 : 推4F 211.78.39.171 台灣 12/28 08:53
推 : 推 以免人家說我看不懂5F 125.229.155.20 台灣 12/28 08:57
→ : 推 應該沒人發現我看不懂6F 114.137.214.99 台灣 12/28 09:13
推 : 推 這篇難得沒吹intel7F 27.51.98.34 台灣 12/28 09:19
推 : 所以GPU/NPU都還是疏鬆矩陣整個吞下8F 114.27.25.210 台灣 12/28 09:46
→ : 去硬幹? 囧
→ : 去硬幹? 囧
推 : 他應該是針對LLM而已 attention本10F 1.171.169.121 台灣 12/28 09:51
→ : 來就是sparse matrix
→ : 不過這東西看起來就只是要做user端
→ : 而已吧,有要取代gpu的意思嗎
推 : 現在attention後期的研究幾乎就是
→ : 想辦法不要整個matrix吞下去
→ : 來就是sparse matrix
→ : 不過這東西看起來就只是要做user端
→ : 而已吧,有要取代gpu的意思嗎
推 : 現在attention後期的研究幾乎就是
→ : 想辦法不要整個matrix吞下去
推 : mtl跑ai 我bug還在解 嗚嗚嗚16F 111.196.243.14 中國 12/28 09:56
推 : 他提到的compressed sparse matrix17F 1.171.169.121 台灣 12/28 09:59
→ : 應該就是其中一種,反正各種方式
→ : 想辦法不要算那個大矩陣的演算法一
→ : 堆
→ : 應該就是其中一種,反正各種方式
→ : 想辦法不要算那個大矩陣的演算法一
→ : 堆
→ : 大矩陣一定要算的,現在就是合併運算不要21F 36.224.253.196 台灣 12/28 10:06
→ : 來回重複讀取大矩陣。另一個方向就是改變
→ : 讀取的方式,更有效利用L2/L3快取。最後就
→ : 來回重複讀取大矩陣。另一個方向就是改變
→ : 讀取的方式,更有效利用L2/L3快取。最後就
推 : model pruning是未來演算法及設計的重24F 223.140.137.89 台灣 12/28 10:09
→ : 要一環,但現在不是重點
→ : 要一環,但現在不是重點
→ : 是看運算法有沒突破,但這比較難26F 36.224.253.196 台灣 12/28 10:09
推 : 反正後期就是想辦法不算那個大矩陣27F 1.171.169.121 台灣 12/28 10:23
→ : ,幾乎也沒什麼特別突出的想法,每
→ : 個都在簡化attention matrix的計算
→ : 不過他提的npu好像跟你想像的不一
→ : 樣,他應該是用在user端吧
→ : user端不會遇到記憶體問題啦,你要
→ : 幾百張gpu做真‘’L"LM才要考量記
→ : 憶體頻寬
→ : ,幾乎也沒什麼特別突出的想法,每
→ : 個都在簡化attention matrix的計算
→ : 不過他提的npu好像跟你想像的不一
→ : 樣,他應該是用在user端吧
→ : user端不會遇到記憶體問題啦,你要
→ : 幾百張gpu做真‘’L"LM才要考量記
→ : 憶體頻寬
推 : 推專業說明 感謝35F 118.169.11.48 台灣 12/28 10:29
推 : 太專業 看不太懂36F 27.53.137.26 台灣 12/28 10:57
推 : 太專業了只能看戲37F 111.246.150.41 台灣 12/28 11:06
→ : 不過突然有個想法 FPGA能拿來搞AI嗎
→ : 不過突然有個想法 FPGA能拿來搞AI嗎
推 : 長見識39F 223.137.131.26 台灣 12/28 11:14
推 : 推40F 42.73.179.134 台灣 12/28 11:15
→ : 會不會到最後變回加速卡的形式, 用41F 223.136.225.199 台灣 12/28 11:22
→ : PCIE介面去擴充?
→ : PCIE介面去擴充?
推 : 好奇NPU算圖的做到什麼程度? 一樣吃Vram43F 150.116.129.113 台灣 12/28 11:36
→ : a87?
→ : a87?
推 : @bw212 我不知道技術上怎樣不過XDNA是X45F 223.136.236.223 台灣 12/28 11:43
→ : ilinx整合進來的結果
→ : ilinx整合進來的結果
→ : 看到systolic 頭好痛 想到用verilog47F 1.200.97.106 台灣 12/28 11:44
→ : 硬幹systolic MAC的作業 有夠折騰
→ : 硬幹systolic MAC的作業 有夠折騰
推 : 推49F 60.198.151.4 台灣 12/28 11:49
推 : 推50F 123.205.143.107 台灣 12/28 12:06
推 : 推51F 36.228.134.182 台灣 12/28 12:42
推 : 好專業52F 59.115.186.234 台灣 12/28 12:50
--
※ 看板: PC_Shopping 文章推薦值: 0 目前人氣: 0 累積人氣: 347
→
guest
回列表(←)
分享