生活紀錄: DGX Spark 上的 vLLM 和 TRT LLM

2025年12月24日星期三

DGX Spark 上的 vLLM 和 TRT LLM

NVFP4 Quantization 支援度不好，目前成功的如下:

DeepSeek-R1-Distill-Llama-8B

Qwen3-4B-Instruct-2507

chatgpt 說 Qwen3-xB-AxxB 的都不行, 不能有 AxxB

比較 gpt-oss-20b 和 gpt-oss-120b

trtllm 確實比 vllm 省記憶體，且速度快

沒有留言:

張貼留言

訂閱：張貼留言 (Atom)