網頁

2025年12月24日 星期三

DGX Spark 上的 vLLM 和 TRT LLM

NVFP4 Quantization 支援度不好,目前成功的如下:
DeepSeek-R1-Distill-Llama-8B
Qwen3-4B-Instruct-2507
chatgpt 說 Qwen3-xB-AxxB 的都不行, 不能有 AxxB

比較 gpt-oss-20b 和 gpt-oss-120b
trtllm 確實比 vllm 省記憶體,且速度快

沒有留言:

張貼留言