※ 本文轉寄自 ptt.cc 更新時間: 2022-07-13 21:52:05
看板 PC_Shopping
作者 標題 [心得] 3080 深度學習 GDDR6X過熱
時間 Wed Jul 13 18:59:43 2022
先講結論:
GDDR6X很燙,燙了就很不穩定
打遊戲沒事,但跑Deep learning訓練會壞掉
Deep learning這種應用建議直上帝版,甚至水冷版
以下是debug經驗分享:
之前從EVGA官網買到了一張便宜的3080
本來想拿去做模型訓練,但很容易模型練沒10分鐘就當掉
這個問題總是100%復現,有時早點掛,有時晚點掛
一開始以為是卡壞了,但拿去打APEX又都沒事
(2K144真的滿爽的,直到我打了兩周APEX,才想到我原本是買來做Deep learning的)
研究了一下這代卡的技術,通病就是GDDR6X很燙
所以我開始懷疑是顯存問題
所以我我用了一個簡單的訓練腳本來觀察卡的各項參數
(需要請自取
https://github.com/exeex/pytorch-cifar/releases/tag/v1.0)
Release v1.0 porting to windows · exeex/pytorch-cifar · GitHub
95.47% on CIFAR10 with PyTorch, windows support. Contribute to exeex/pytorch-cifar development by creating an account on GitHub. ...
95.47% on CIFAR10 with PyTorch, windows support. Contribute to exeex/pytorch-cifar development by creating an account on GitHub. ...
訓練剛開始,顯存頻率會直接拉滿到9200MHz上下
然後開始爆熱,接著就掛掉。
於是我用Afterburner將頻率下修200MHz,就不會掛了
但是跑大約10分鐘後 他就會自動降頻到5000MHz...
此時訓練都不會出現當機的問題,但是訓練速度也變成原本的2/3
有夠虧
Afterburner設定如圖:
https://imgur.com/aTHIPs4
降頻示意圖
https://imgur.com/yvawLe3
現在在研究,看有沒有可以長時間讓他保持高頻的方法..
比如用8000MHz,至少沒那麼虧
或是有沒有帝版的同學可以跑看看我這份code
看是不是丐版散熱太爛的問題
PS. 為什麼不用Ubuntu
因為不能打Apex和我只會用Afterburner(ubuntu沒有)
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.169.178.29 (臺灣)
※ 文章代碼(AID): #1YpgMYj4 (PC_Shopping)
※ 文章網址: https://www.ptt.cc/bbs/PC_Shopping/M.1657709986.A.B44.html
推 : 因為你不是拿ROG1F 07/13 19:01
推 : 結論:丐版散熱爛2F 07/13 19:02
→ : 問題就是丐版
→ : 這就跟挖礦一樣道理
→ : 問題就是丐版
→ : 這就跟挖礦一樣道理
推 : 懷疑你買到卡皇 以前3080ti XC沒碰到這問題5F 07/13 19:04
推 : 這就是為什麼不推薦3080以上拿丐版的原因6F 07/13 19:06
推 : 建議風扇拉滿 Auto最高也只會跑到50%而已7F 07/13 19:06
推 : 換散熱貼,風扇轉到最快8F 07/13 19:10
→ : 散熱貼用利民或是萊爾德
→ : 散熱貼用利民或是萊爾德
推 : 3080丐版+1 直接PL鎖在250以下比較不會降頻10F 07/13 19:11
推 : 還有你temperature limit拉高一點11F 07/13 19:16
推 : 丐版散熱爛 你可以學學上面那位仁兄改裝散熱貼12F 07/13 19:17
推 : power limit拉105%比較不會降頻,但你還是得去換散熱貼,13F 07/13 19:25
→ : 甚至是改銅片,板上之前有人分享
→ : 甚至是改銅片,板上之前有人分享
推 : 我猜是背板的記憶體過熱啦,畢竟只有導熱貼沒接觸散15F 07/13 19:25
→ : 熱器
→ : 之前有看過礦老闆背板也改風扇的
→ : 熱器
→ : 之前有看過礦老闆背板也改風扇的
→ : 以後直接賭一把買水冷的吧18F 07/13 19:27
→ : 這篇是認真的嗎,大家的留言是認真的嗎?19F 07/13 19:28
推 : 樓下支語警察20F 07/13 19:28
推 : 3080沒有背面記憶體吧 = =21F 07/13 19:29
→ : 都沒看到錯誤訊息的內容,然後冒出了過熱的實驗跟結論22F 07/13 19:29
→ : 這前因後果完全是鬼轉耶
→ : 這前因後果完全是鬼轉耶
→ : 丐板就是只能拿來打遊戲用ok而已24F 07/13 19:35
→ : 開側板用電風扇吹啊==25F 07/13 19:38
→ : 不然拿卡去挖礦
→ : 用colab pro訓練16gb batch size 可以設大點
→ : 不然拿卡去挖礦
→ : 用colab pro訓練16gb batch size 可以設大點
噓 : 為什麼不直接找EVGA去信詢問==28F 07/13 19:43
→ : 自己改散熱啊29F 07/13 19:43
→ : 三星製程 + 美光6X不換 就不買30F 07/13 19:45
推 : 錯誤訊息是什麼31F 07/13 19:45
→ : 錯誤訊息就是cuda 讀資料無回應 整個掛掉32F 07/13 19:46
→ : 螢幕黑屏 顯卡自動重啟
→ : 螢幕黑屏 顯卡自動重啟
推 : 照這測試、只打遊戲拿丐版就非常足夠了阿34F 07/13 19:47
→ : 我的經驗這種都是顯存錯誤居多35F 07/13 19:48
→ : 如果卡出廠有小超,說不定是核心時脈的問題呀36F 07/13 19:48
→ : 顯存降頻跑就沒事 那87%是顯存問題37F 07/13 19:50
推 : 你風扇調成100%看看38F 07/13 19:51
推 : 你先測個溫度吧39F 07/13 19:52
→ : 那你可以試試看不降頻進行顯存正確性的測試40F 07/13 19:53
推 : 然後你git沒公開 沒辦法幫你測41F 07/13 19:53
推 : 冷氣房加風扇直吹,下班繼續訓練通常惠關冷氣,但風扇一定要42F 07/13 19:54
→ : 開
→ : 開
GitHub - exeex/pytorch-cifar: 95.47% on CIFAR10 with PyTorch, windows support
95.47% on CIFAR10 with PyTorch, windows support. Contribute to exeex/pytorch-cifar development by creating an account on GitHub. ...
95.47% on CIFAR10 with PyTorch, windows support. Contribute to exeex/pytorch-cifar development by creating an account on GitHub. ...
→ : core也可以降頻啊 散熱器是共用的47F 07/13 20:09
→ : 有沒有原始的完整錯誤訊息可以貼一下48F 07/13 20:10
→ : 預設100%TDP是320W-350W 拉到70-80%試試看?49F 07/13 20:13
→ : 深度學習(X eth學習(O 會不會你去隔壁還比較多人懂50F 07/13 20:15
推 : 降頻吧 挖礦都沒滿功率跑了51F 07/13 20:15
推 : 不會用QQ52F 07/13 20:28
推 : 用浸泡式散熱?53F 07/13 20:28
推 : 3090Ti 聽說不熱?54F 07/13 20:49
推 : 口袋不深 學習效果打折55F 07/13 21:01
→ : 也不是說不熱,是因為單面配置相對3090雙面配置來說比較56F 07/13 21:03
→ : 容易散熱,所以溫度表現好一點
→ : 容易散熱,所以溫度表現好一點
→ : 不能一邊打Game一邊練…….58F 07/13 21:03
推 : 去買水冷套件 3000可以解決的事情59F 07/13 21:27
推 : Ubuntu 可以打Apex了吧60F 07/13 21:28
推 : 不想降頻跑的話,就找類似EK的水冷套件吧61F 07/13 21:46
--
※ 看板: PC_Shopping 文章推薦值: 0 目前人氣: 0 累積人氣: 93
→
guest
回列表(←)
分享