生活紀錄
網頁
首頁
2025年12月24日 星期三
DGX Spark 上的 vLLM 和 TRT LLM
NVFP4 Quantization 支援度不好,目前成功的如下:
DeepSeek-R1-Distill-Llama-8B
Qwen3-4B-Instruct-2507
chatgpt 說 Qwen3-xB-AxxB 的都不行, 不能有 AxxB
比較 gpt-oss-20b 和 gpt-oss-120b
trtllm 確實比 vllm 省記憶體,且速度快
沒有留言:
張貼留言
較舊的文章
首頁
訂閱:
張貼留言 (Atom)
沒有留言:
張貼留言