網頁

2025年12月30日 星期二

DGX Spark 使用 vLLM server

經測試發現 vLLM 在記憶體和功耗上都比 TRT LLM差

$ sudo mount -t nfs 192.168.0.107:/mnt/Data/LangGraph/HuggingFace/models /mnt/models

$ export MODEL_HANDLE="/mnt/models/gpt-oss-20b"    # 0.8:96.9GB 43W 148s | 0.4:49.4GB 39W 120s
$ export MODEL_HANDLE="/mnt/models/gpt-oss-120b"   # 0.8:97.9GB 41W  75s | 0.7:86.5GB 40W 104s

$ docker run --rm --name vllm_server -it --gpus all \
-p 8000:8000 \
-v /mnt/models:/models \
nvcr.io/nvidia/vllm:25.11-py3 \
vllm serve "/models/gpt-oss-20b" \
--trust_remote_code \
--max-num-seqs 2 \
--quantization mxfp4 \
--gpu-memory-utilization 0.3 \
--served-model-name llm_chat \
--api-key token-abc123

若執行失敗,可清除記憶體,再試一遍
$ sudo sh -c 'sync && echo 3 > /proc/sys/vm/drop_caches'

沒有留言:

張貼留言