生活紀錄: DGX Spark 使用 LLM 經歷

2026年1月2日星期五

同一模型使用 TRT LLM 比使用 vLLM 好, 不論有無轉成 nvfp4

10GB 以下 Qwen2.5-Coder-7B

10GB 以下 Qwen2.5-Coder-32B-Instruct

30GB 以下 gpt-oss-20b

30GB 以下 Llama-3.1-8B-Instruct

上述模型耗記憶體和反應速度都不錯，只是 Qwen2.5-Coder-7B 對話不行

gpt-oss-120b 耗記憶體，速度有些慢

Llama-3.3-70B-Instruct 耗記憶體，速度超慢

# 原本應該從 meta-llama/Llama-3.3-70B-Instruct 下載模型，再轉成 nvfp4

# 但是下載的模型不只無法轉成 nvfp4, 也無法執行

# 發現有 nvidia/Llama-3.3-70B-Instruct-NVFP4 直接下載使用

生活紀錄