顯示廣告
隱藏 ✕
※ 本文轉寄自 ptt.cc 更新時間: 2022-07-13 21:52:05
看板 PC_Shopping
作者 exeex (人非腎鹹)
標題 [心得] 3080 深度學習 GDDR6X過熱
時間 Wed Jul 13 18:59:43 2022



先講結論:

GDDR6X很燙,燙了就很不穩定

打遊戲沒事,但跑Deep learning訓練會壞掉

Deep learning這種應用建議直上帝版,甚至水冷版




以下是debug經驗分享:


之前從EVGA官網買到了一張便宜的3080

本來想拿去做模型訓練,但很容易模型練沒10分鐘就當掉

這個問題總是100%復現,有時早點掛,有時晚點掛

一開始以為是卡壞了,但拿去打APEX又都沒事


(2K144真的滿爽的,直到我打了兩周APEX,才想到我原本是買來做Deep learning的)



研究了一下這代卡的技術,通病就是GDDR6X很燙

所以我開始懷疑是顯存問題


所以我我用了一個簡單的訓練腳本來觀察卡的各項參數

(需要請自取
https://github.com/exeex/pytorch-cifar/releases/tag/v1.0)
Release v1.0 porting to windows ·  exeex/pytorch-cifar ·  GitHub
[圖]
95.47% on CIFAR10 with PyTorch, windows support. Contribute to exeex/pytorch-cifar development by creating an account on GitHub. ...

 



訓練剛開始,顯存頻率會直接拉滿到9200MHz上下

然後開始爆熱,接著就掛掉。


於是我用Afterburner將頻率下修200MHz,就不會掛了



但是跑大約10分鐘後 他就會自動降頻到5000MHz...

此時訓練都不會出現當機的問題,但是訓練速度也變成原本的2/3

有夠虧


Afterburner設定如圖:
https://imgur.com/aTHIPs4
[圖]

降頻示意圖
https://imgur.com/yvawLe3
[圖]


現在在研究,看有沒有可以長時間讓他保持高頻的方法..
比如用8000MHz,至少沒那麼虧


或是有沒有帝版的同學可以跑看看我這份code

看是不是丐版散熱太爛的問題


PS. 為什麼不用Ubuntu
因為不能打Apex和我只會用Afterburner(ubuntu沒有)





--
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.169.178.29 (臺灣)
※ 文章代碼(AID): #1YpgMYj4 (PC_Shopping)
※ 文章網址: https://www.ptt.cc/bbs/PC_Shopping/M.1657709986.A.B44.html
tyl510288: 因為你不是拿ROG1F 07/13 19:01
oppoR20: 結論:丐版散熱爛2F 07/13 19:02
oppoR20: 問題就是丐版
oppoR20: 這就跟挖礦一樣道理
annboy: 懷疑你買到卡皇 以前3080ti  XC沒碰到這問題5F 07/13 19:04
a8312116: 這就是為什麼不推薦3080以上拿丐版的原因6F 07/13 19:06
harry886901: 建議風扇拉滿 Auto最高也只會跑到50%而已7F 07/13 19:06
zone0016: 換散熱貼,風扇轉到最快8F 07/13 19:10
zone0016: 散熱貼用利民或是萊爾德
AAAWhoAmI: 3080丐版+1 直接PL鎖在250以下比較不會降頻10F 07/13 19:11
harry886901: 還有你temperature limit拉高一點11F 07/13 19:16
otosaka: 丐版散熱爛 你可以學學上面那位仁兄改裝散熱貼12F 07/13 19:17
mrme945: power limit拉105%比較不會降頻,但你還是得去換散熱貼,13F 07/13 19:25
mrme945: 甚至是改銅片,板上之前有人分享
steven33107: 我猜是背板的記憶體過熱啦,畢竟只有導熱貼沒接觸散15F 07/13 19:25
steven33107: 熱器
steven33107: 之前有看過礦老闆背板也改風扇的
aaron5555: 以後直接賭一把買水冷的吧18F 07/13 19:27
a27417332: 這篇是認真的嗎,大家的留言是認真的嗎?19F 07/13 19:28
sdbb: 樓下支語警察20F 07/13 19:28
harry886901: 3080沒有背面記憶體吧 = =21F 07/13 19:29
a27417332: 都沒看到錯誤訊息的內容,然後冒出了過熱的實驗跟結論22F 07/13 19:29
a27417332: 這前因後果完全是鬼轉耶
Zenryaku: 丐板就是只能拿來打遊戲用ok而已24F 07/13 19:35
tropotato: 開側板用電風扇吹啊==25F 07/13 19:38
tropotato: 不然拿卡去挖礦
tropotato: 用colab pro訓練16gb batch size 可以設大點
stepnight: 為什麼不直接找EVGA去信詢問==28F 07/13 19:43
wahaha99: 自己改散熱啊29F 07/13 19:43
lolpklol0975: 三星製程 + 美光6X不換 就不買30F 07/13 19:45
TuCH: 錯誤訊息是什麼31F 07/13 19:45
exeex: 錯誤訊息就是cuda 讀資料無回應 整個掛掉32F 07/13 19:46
exeex: 螢幕黑屏 顯卡自動重啟
SaberMyWifi: 照這測試、只打遊戲拿丐版就非常足夠了阿34F 07/13 19:47
exeex: 我的經驗這種都是顯存錯誤居多35F 07/13 19:48
a27417332: 如果卡出廠有小超,說不定是核心時脈的問題呀36F 07/13 19:48
exeex: 顯存降頻跑就沒事 那87%是顯存問題37F 07/13 19:50
joefaq: 你風扇調成100%看看38F 07/13 19:51
blackway0226: 你先測個溫度吧39F 07/13 19:52
a27417332: 那你可以試試看不降頻進行顯存正確性的測試40F 07/13 19:53
harry886901: 然後你git沒公開 沒辦法幫你測41F 07/13 19:53
Bujo: 冷氣房加風扇直吹,下班繼續訓練通常惠關冷氣,但風扇一定要42F 07/13 19:54
Bujo: 開
exeex: https://github.com/exeex/pytorch-cifar44F 07/13 19:57
exeex: 有人要幫測嗎? 感謝
exeex: 有道理 可以測一下@a27417332
GitHub - exeex/pytorch-cifar: 95.47% on CIFAR10 with PyTorch, windows support
[圖]
95.47% on CIFAR10 with PyTorch, windows support. Contribute to exeex/pytorch-cifar development by creating an account on GitHub. ...

 
winiel559: core也可以降頻啊 散熱器是共用的47F 07/13 20:09
a27417332: 有沒有原始的完整錯誤訊息可以貼一下48F 07/13 20:10
winiel559: 預設100%TDP是320W-350W 拉到70-80%試試看?49F 07/13 20:13
tomsawyer: 深度學習(X eth學習(O 會不會你去隔壁還比較多人懂50F 07/13 20:15
blackway0226: 降頻吧 挖礦都沒滿功率跑了51F 07/13 20:15
kevin1221: 不會用QQ52F 07/13 20:28
lostkimo: 用浸泡式散熱?53F 07/13 20:28
click2258: 3090Ti 聽說不熱?54F 07/13 20:49
ericinttu:   口袋不深 學習效果打折55F 07/13 21:01
mrme945: 也不是說不熱,是因為單面配置相對3090雙面配置來說比較56F 07/13 21:03
mrme945: 容易散熱,所以溫度表現好一點
www11454: 不能一邊打Game一邊練…….58F 07/13 21:03
creepy: 去買水冷套件 3000可以解決的事情59F 07/13 21:27
amos30627: Ubuntu 可以打Apex了吧60F 07/13 21:28
Fww: 不想降頻跑的話,就找類似EK的水冷套件吧61F 07/13 21:46

--
※ 看板: PC_Shopping 文章推薦值: 0 目前人氣: 0 累積人氣: 93 
分享網址: 複製 已複製
guest
x)推文 r)回覆 e)編輯 d)刪除 M)收藏 ^x)轉錄 同主題: =)首篇 [)上篇 ])下篇