生活紀錄: DGX Spark 使用 vLLM server

2025年12月30日星期二

經測試發現 vLLM 在記憶體和功耗上都比 TRT LLM差

$ sudo mount -t nfs 192.168.0.107:/mnt/Data/LangGraph/HuggingFace/models /mnt/models

$ export MODEL_HANDLE="/mnt/models/gpt-oss-20b" # 0.8:96.9GB 43W 148s | 0.4:49.4GB 39W 120s

$ export MODEL_HANDLE="/mnt/models/gpt-oss-120b" # 0.8:97.9GB 41W 75s | 0.7:86.5GB 40W 104s

$ docker run --rm --name vllm_server -it --gpus all \

-p 8000:8000 \

-v /mnt/models:/models \

nvcr.io/nvidia/vllm:25.11-py3 \

vllm serve "/models/gpt-oss-20b" \

--trust_remote_code \

--max-num-seqs 2 \

--quantization mxfp4 \

--gpu-memory-utilization 0.3 \

--served-model-name llm_chat \

--api-key token-abc123

若執行失敗，可清除記憶體，再試一遍

$ sudo sh -c 'sync && echo 3 > /proc/sys/vm/drop_caches'

生活紀錄