作者 tint (璇月)
標題 Re: [情報] 傳NV打算推出GD6X版本的3060
時間 Wed Mar  8 11:51:09 2023


※ 引述《hn9480412 (ilinker)》之銘言:
: https://tinyurl.com/bp8zpdj8
: 現在還是乳摸而已,看看就好。不過爆料者是T4C Fantasy(TechPower UP的GPU資料庫編
: 輯者)
: 爆料出來的資料是核心為GA104。VRAM為12GB,頻寬和參數都沒說
: 不過價格多少才是重點吧?

如果RTX3060 12GB GDDR6X版 真的推出上市
除了VRAM等效頻寬提昇之外
(如果使用19Gbps的GDDR6X,等效頻寬為456GB/s)
我覺得這張卡的一個優點可能在專業運算用途上

Ampere架構GPU家族中
GA104以上晶片的IMC才支援GDDR6X
所以RTX3060 12GB GDDR6X版必需使用GA104
將GA104晶片大砍42%的CUDA數
降到標準RTX3060的CUDA數規格

其實之前NV就推出過採用GA104核心的RTX3060
在2021年9月~12月出廠的RTX3060
有不低機率拿到GA104核心的
可參考之前板上文章:
#1XO6noDI (PC_Shopping)
Re: [情報] 3060將改用3070ti 核心 - 看板 PC_Shopping - 批踢踢實業坊
[圖]
[圖]
[圖]
tint (璇月) 使用GA104晶片的RTX3060顯示卡 核心為GA104-150-A1 TechPowerUP GPU資料庫  
https://i.imgur.com/WjkhMeH.png
https://i.imgur.com/w6aI8NQ.jpg
[圖]
 
[圖]
核心是GA104-150-A1,DeviceID為2487
當時華碩、技嘉、微星、EVGA、七彩虹、耕宇...
都有網友回報拿到GA104版的RTX3060

過往X104等級晶片降階給60等級卡使用
因為切到相同CUDA數,遊戲效能不會有明顯差距
但是不同等級晶片中,GPC配置的不同
一些專業運算時可能會有隱藏效能加成
比如RTX2060 TU104版(當時常見EVGA的2060 KO版)
https://i.imgur.com/AGMaARU.jpg
[圖]
可以看到在Blender測試表現下
效能比標準版2060(TU106版)優秀許多
https://youtu.be/mUFRBnJdx3Y
之前2060(TU104版)Gamers Nexus測試

這推測可能是GPC結構差異造成
TU104每組GPC是8個SM單元,共6組GPC(3072個CUDA)
TU106每組GPC是12個SM單元,共3組GPC(2304個CUDA)
TU104要切到2060標準1920個CUDA,勢必無法平均切
所以會有更多組GPC結構被保留


GA104和GA106二者的情形也是類似
GA104每組GPC是8個SM單元,共6組GPC(6144個CUDA)
https://i.imgur.com/8unkVyx.jpg
[圖]
GA106每組GPC是10個SM單元,共3組GPC(3840個CUDA)
https://i.imgur.com/SnokYAH.jpg
[圖]
當GA104要砍到剩28組SM時
最少都還是保留有4組以上的GPC
甚至可能保留到6組GPC(各組GPC平均遮蔽)
這樣仍然比GA106先天結構只有3組GPC多
擁有更多組GPC結構的差異
推測在一些重度thread運算情況時調度上
可能效率會更高一些

之前一些RTX3060 GA106版和GA104版的對比測試
一樣可以看到GA104版在運算渲染上表現更佳
https://tinyurl.com/2292ybnd
Reddit - Dive into anything
[圖]
13 votes, 16 comments. I recently bought an EVGA RTX 3060 XC after winning it in a Newegg Shuffle. After some benchmarking, I noticed that . I'm … ...

 
Reddit討論,3060 GA104版的Blender測試快非常多

https://www.chiphell.com/thread-2426664-1-1.html
對岸網友測試
3060 GA104版在DaVinci Fusion渲染速度可提昇10%

不過當時RTX3060 GA104版存在市面上時間不長
而且通常要上機才能確認核心(各大廠那時混著核心賣)
所以有運算需求的人也不容易挑到GA104核心的3060

這次如果RTX3060 12GB推出GDDR6X版本
核心一定都是GA104,才能支援GDDR6X
不必像之前要挑核心才能拿到GA104版本的3060
雖然用GDDR6X功耗也會增加一些
但採用GA104核心,且又配置12GB VRAM
對於有專業運算需求的人,也許是一個不錯的選擇
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 218.187.100.246 (臺灣)
※ 作者: tint 2023-03-08 11:51:09
※ 文章代碼(AID): #1a20OmLF (PC_Shopping)
※ 文章網址: https://www.ptt.cc/bbs/PC_Shopping/M.1678247472.A.54F.html
※ 同主題文章:
Re: [情報] 傳NV打算推出GD6X版本的3060
03-08 11:51 tint
smallreader: (加入願望清單1F 03/08 11:56
overno: 加價賣2F 03/08 12:01
tagalong1024: 推~3F 03/08 12:21
ayanami00: 但是有專業需求的,不會需要省這個錢在這個價位上買吧4F 03/08 12:32
Arbin: 看你的「專業需求」到哪邊,不過依照本版標準大概會先叫你用colab5F 03/08 12:35
tint: 這張卡主要是一些專業運算有趨近3060Ti表現 且又有12GB VRAM7F 03/08 12:36
oopFoo: 你想的太複雜了。一個是4MB/SM的L2,一個是3MB/SM的L2。某些運算,L2多的贏。
然後rtx40系列,L2加大很多。8F 03/08 12:59
tint: NV它SM的L2會一起砍 之前桌面3050用GA106核心 SM的L2砍到2MB像40系列的4060桌面版 之前的爆料L2從AD107滿規32MB砍到24MBhttps://i.imgur.com/FmIMJmH.png
https://i.imgur.com/Cb3VgTI.jpg11F 03/08 13:12
[圖]
 
[圖]
※ 編輯: tint (218.187.100.246 臺灣), 03/08/2023 13:16:26
leviva: 請問oop大,三倍L2 / 三倍L3, 哪一種cpu跑遊戲更快?15F 03/08 13:17
tint: 像3060 GA104和3050 GA106 它的L2仍是砍成標準的3MB和2MB
NV的刀工是很細膩的 像當年970就是刀法太細膩砍到ROP數量
才會造成後來的3.5GB VRAM爭議事件
https://i.imgur.com/k0gy15Q.jpg 右表是NV承認970實際規格970實際上的規格是56個ROP L2為1.75MB而不是最初宣稱的2MB16F 03/08 13:18
[圖]
oopFoo: 是啊,NV可以砍,但砍下來,性能因為調度而差那麼多?不太可能。現在跑gpu code,基本上等data的時間是最多的,線序再多,幫助有限,卡還是卡資料頻寬。NV跟I家都是增加L2,因為現代硬體跟程式碼的架構,加L2的效果較好。在GPU裡L3有點尷尬,還不如記憶體頻寬加大一點,主要是GPU吞吐資料量實在太大,大L2+大頻寬的效果是目前最好的。
https://tinyurl.com/5n6h4s4x
如何有效利用L2的locality一直是最佳化的問題。加大比較簡單,改程式比較困難。21F 03/08 14:06
Optimizing Compute Shaders for L2 Locality using Thread-Group ID Swizzling | NVIDIA Technical Blog
[圖]
As part of my GDC 2019 session, Optimizing DX12/DXR GPU Workloads using Nsight Graphics: GPU Trace and the Peak-Performance-Percentage (P3) Method… ...

 
wertyorz: 這個3060的12G一出,那個謠傳的4060 8G就真的不用混了30F 03/08 14:34
tint: 當年的2060 TU104版 L2規格一樣砍成3MB 但Blender渲染結果31F 03/08 14:45
leviva: 看到時候實際價錢,如果12490~12990元/等效3060 ti, 4060又會是絕大多數人的首選32F 03/08 14:47
tint: 效率提昇非常多 這其實滿有趣的
當年2060Super的L2完整保留 規格有標出L2是完整4MB
如果2060 TU104版和3060 GA104版 實際上規格是完整L2 4MB
那只能說NV非常佛心了34F 03/08 14:47
wolver: 價格才是重點
皮衣刀客現在沒那麼佛心38F 03/08 14:53
tint: https://tinyurl.com/352kyvk3 2060 TU104版 TPU資料庫規格https://tinyurl.com/ykeftac8 3060 GA104版 TPU資料庫規格40F 03/08 14:55
NVIDIA GeForce RTX 2060 TU104 Specs | TechPowerUp GPU Database
[圖]
NVIDIA TU104, 1680 MHz, 1920 Cores, 120 TMUs, 48 ROPs, 6144 MB GDDR6, 1750 MHz, 192 bit ...

 
NVIDIA GeForce RTX 3060 12 GB GA104 Specs | TechPowerUp GPU Database
[圖]
NVIDIA GA104, 1777 MHz, 3584 Cores, 112 TMUs, 48 ROPs, 12288 MB GDDR6, 1875 MHz, 192 bit ...

 
tint: L2快取都是標示3MB而已 如果實際上是4MB 這就非常有趣了42F 03/08 14:57
oopFoo: 我可能猜錯,但性能差這麼多,如果L2不變,那就是L2的43F 03/08 15:00
sorrojvr: ai當道 老黃只會越來越貴44F 03/08 15:01
oopFoo: latency差很多。但latency差多的話,基本上所有程式都會有改進。所以猜L2的size不一樣是最有可能的。我還是不相信線序調度可以差這麼多。不是不可能,但我想不出怎樣的程式會這樣。45F 03/08 15:02
tint: 如果L2容量沒砍 這樣應該也會反映在遊戲效能上?
當時我幫人裝機 有裝過ASUS和EVGA的3060 GA104版
型號3060 Dual和3060 XC 但和GA106標準版遊戲效能幾乎沒差別https://i.imgur.com/N68NPcr.png49F 03/08 15:11
[圖]
oopFoo: L2沒砍,遊戲影響比較小,compute影響比較大。主要是106的sm/gpc比104的sm/gpc多。理論上反而是106在調度上有優勢,所以我實在想不出需要多跨gpc效能反而高?到底是什麼神奇程式。不然就是L0的設計是不一樣。不管如何我還是盲猜
是Cache的幫助。53F 03/08 15:22
dreamix: 好哦,3060Ti Pro Max 真是太專業滿出來58F 03/08 16:50
ksng1092: 是說他為什麼要在消費級市場出一個可以跑專業運算的東西59F 03/08 16:58
StarHero: 卡是奈米製程,刀工也是奈米等級的
因為晶片還一大遍山頭的庫存60F 03/08 16:58
leo3258: 老黃聽到各位的心聲 這張加價多賣5k很合理62F 03/08 18:56
AreLies: 庫存太多63F 03/09 01:02

--
作者 tint 的最新發文:
點此顯示更多發文記錄