網頁

2026年1月2日 星期五

DGX Spark 使用 LLM 經歷

同一模型使用 TRT LLM 比使用 vLLM 好, 不論有無轉成 nvfp4

10GB 以下 Qwen2.5-Coder-7B
10GB 以下 Qwen2.5-Coder-32B-Instruct
30GB 以下 gpt-oss-20b
30GB 以下 Llama-3.1-8B-Instruct
上述模型耗記憶體和反應速度都不錯,只是 Qwen2.5-Coder-7B 對話不行

gpt-oss-120b 耗記憶體,速度有些慢

Llama-3.3-70B-Instruct 耗記憶體,速度超慢
# 原本應該從 meta-llama/Llama-3.3-70B-Instruct 下載模型,再轉成 nvfp4
# 但是下載的模型不只無法轉成 nvfp4, 也無法執行
# 發現有 nvidia/Llama-3.3-70B-Instruct-NVFP4 直接下載使用

沒有留言:

張貼留言