回看板
Disp BBS
作者
qazwsd147
(LCC)
標題
[請益] 跑llama 顯卡選擇
時間
Sun Oct 13 10:50:52 2024
因為最近有再跑llama sakura翻譯
目前都是用日常用機的7900XTX來跑
想要多買一張卡放在另一台電腦跑
目前使用的模型是
sakura-14b-qwen2beta-v0.9.2-iq4xs
7900XTX速度是63 t/s
https://i.imgur.com/xKmQ5N3.png
目前在2張卡中選擇
4060ti 16G
7800XT 16G
以AI泛用性來講可能是N卡
但是目前來看ROCM的版本速度也不輸N卡
以跑llama的情況下是否7800XT略勝一籌?
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 122.116.75.164 (臺灣)
※ 作者:
qazwsd147
2024-10-13 10:50:52
※ 文章代碼(AID): #1d2pME00 (PC_Shopping)
※ 文章網址:
https://www.ptt.cc/bbs/PC_Shopping/M.1728787854.A.000.html
推
gameguy
: A6000 ads不用謝我
1F 114.136.255.153 台灣 10/13 10:54
推
sachialanlus
: 建議試試看用 ollama + ainiee 來翻
譯, 不要用 sakurallm 自己的 back
end。
如果是 llama.cpp 的話記得把 promp
t_cache 打開,不用每次都重跑 syst
em prompt。
另外 inference 完全是 memory boun
d,可以直接按照 vram bandwidth 來
選卡即可,速度基本上就是 "模型大
小/頻寬" = n token/s。
2F 111.248.203.51 台灣 10/13 11:06
所以跑llama只跟頻寬有關? 與核心算力沒關?
→
sachialanlus
: 啊對了 sakurallm 14b 出 v1.0 的模
型了
12F 111.248.203.51 台灣 10/13 11:08
※ 編輯: qazwsd147 (122.116.75.164 臺灣), 10/13/2024 11:20:25
→
hHolic
: AI應用 瓶頸都在VRAM 吞吐跟不上運算
14F 118.232.28.161 台灣 10/13 11:26
→
sachialanlus
: 輸入的部分 也就是 prompt eval 和
算力有關 而生成的部分 token gener
ation 則和 memory bandwidth 有關
主因是現在顯卡的算力遠大於頻寬 通
常瓶頸都是卡在 token generation
現在出的很多加速手段底層原理都有
用到 recompute 就是寧願重新計算也
要省 vram 傳輸量 藉此來提高速度
15F 111.248.203.51 台灣 10/13 11:27
所以頻寬來講 7800xt 624.1gb/s > 4060ti 288gb/s
所以上7800XT比較好
※ 編輯: qazwsd147 (122.116.75.164 臺灣), 10/13/2024 11:40:53
推
chang1248w
: 長見識
23F 140.115.212.91 台灣 10/13 11:57
推
sxing6326
: 4張V100
24F 223.139.216.85 台灣 10/13 12:21
推
yesheyman
: 請問rocm是指6.2最新那版?
25F 70.95.16.251 美國 10/13 12:30
推
jhjhs33504
: 至少挑Qwen2.5或llama3.1之後比較聰明
之前的必須進行一番提示工程才達能用
借串問一下UALink有下文嗎?
26F 104.28.156.246 台灣 10/13 14:16
→
soulgem
: 14b 用 16G VRAM 真的可以跑嗎?
印象中不見得就是 1:1, 可能要實驗...
7900XTX 是 24G VRAM...
29F 140.112.30.188 台灣 10/13 14:44
推
YukilinnMigu
: 買兩張3090 nvlink
32F 101.8.46.184 台灣 10/13 14:55
→
sachialanlus
: sakurallm 14b 只有釋出 iq4 的量化
版本 大概要 9G 左右的 vram
33F 111.248.203.51 台灣 10/13 15:07
推
chang1248w
: 跑半精度吧
這麼狠
35F 42.72.182.147 台灣 10/13 15:44
→
dogluckyno1
: 4070 TiS 呢?
37F 106.64.97.240 台灣 10/13 15:54
推
speed7022
: 這個東西翻譯出來的效果怎麼樣?
38F 223.137.239.51 台灣 10/13 16:59
→
sachialanlus
: 我自己使用下來效果感覺滿好的 至少
已經是能用的地步了 但人名還是不可
避免的會有不同翻譯的問題
39F 111.248.203.51 台灣 10/13 17:17
推
yymeow
: 不就主要看VRAM有多大,再來就看有沒有會
使用到CUDA,這兩個條件來決定
42F 114.25.210.39 台灣 10/13 17:32
推
march55237
: 有預算直上二手3090
44F 125.229.194.48 台灣 10/13 19:07
推
CLisOM
: 看過sakura翻譯小說,優點是輕小說特化所
以相關奇幻異世界字彙甚至比出版社菜鳥翻
的好,文筆流暢,問題是人名如果是假名拼
音可能會一段文章翻成三個不同人名,男角
稱呼常常用她,然後句子省略的主詞人名會
亂猜
45F 220.141.5.220 台灣 10/13 22:47
推
AmigoSin
: 買NV的還有機會用QLoRA微調
51F 111.250.192.15 台灣 10/14 00:28
推
Ghosts
: N卡裝VLLM走非同步request可以很快
不過A卡沒試過,也許也有效果
52F 36.228.231.44 台灣 10/14 00:58
→
mtc5566
: ROCm如果速度不錯就上78XT阿 支持一下AMD
54F 39.15.24.39 台灣 10/14 01:50
推
jhjhs33504
: 有需要用到Nsight?
55F 104.28.156.244 台灣 10/14 02:35
--
作者 qazwsd147 的最新發文:
+17
[請益] 跑llama 顯卡選擇 - PC_Shopping 板
作者:
qazwsd147
122.116.75.164
(台灣)
2024-10-13 10:50:52
55F 17推
+7
[分享] Q50 Hybrid 平衡軸安全性召回 - car 板
作者:
qazwsd147
42.73.169.239
(台灣)
2024-08-06 11:45:37
10F 7推
+18
[心得] Q50淘寶安卓機分享 - car 板
作者:
qazwsd147
122.116.75.164
(台灣)
2024-07-11 00:29:05
50F 18推
+24
[心得] INFINITI Q50油電保養分享 - car 板
作者:
qazwsd147
122.116.75.164
(台灣)
2024-06-24 22:42:42
接手Q50油電大約也過了半年 開了4000公里左右 看了車主手冊 台灣 半年/10000KM 美國 半年/5000Mils 日本 半年/10000KM 日產是不是都是半年保養一次 想想5油3水我也都 …
42F 24推
+48
[問題] Jet S引擎大修 - biker 板
作者:
qazwsd147
59.124.166.120
(台灣)
2024-05-20 10:16:01
《廠牌型號》 2020 Jet S 7期 《時間地點》 2024/5/18 《該車現況》 2萬公里 凸輪磨損下引擎 之前有再版上問過 引擎下來後 老闆說是凸輪培林壞了 直接轉聲音超大 然後有2隻汽門 …
124F 48推
點此顯示更多發文記錄