本地Qwen模型版本升级

参考 https://huggingface.co/Qwen/Qwen3.6-27B 的benchmark,并查了 https://artificialanalysis.ai/ 发现新的Qwen3.6虽然只放出了27B的模型,但是性能还是挺强的。
准备从Qwen3.5-122B-A10B升级一下。上下文长度也可以放到更大。

hf download Qwen/Qwen3.6-27B --local-dir /home/nvidia/models/Qwen3.6-27B 
docker run --rm -it --runtime nvidia --gpus all \
  --shm-size=8g \
  -p 8000:8000 \
  -v /home/nvidia/models/Qwen3.6-27B:/model_workspace/Qwen3.6-27B \
  ghcr.io/nvidia-ai-iot/vllm:latest-jetson-thor \
  python3 -m vllm.entrypoints.openai.api_server \
  --model /model_workspace/Qwen3.6-27B \
  --served-model-name Qwen/Qwen3.6-27B \
  --reasoning-parser qwen3 \
  --default-chat-template-kwargs '{"enable_thinking": false}' \
  --enable-auto-tool-choice \
  --tool-call-parser qwen3_coder \
  --max-model-len 256000 \
  --gpu-memory-utilization 0.9 \
  --host 0.0.0.0 \
  --port 8000

跑了一下稠密模型在jetson thor上还是太慢了。

接下来换了个量化版本,并增加了MTP。(对于之前3.5的moe的mtp有一些问题,虽然qwen自带了参数,也可以看到mtp有挺高的成功率,但是并不怎么能提速)。

hf download sakamakismile/Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP --local-dir /home/nvidia/models/Qwen3.6-27B-NVFP4
  docker run --rm -it --runtime nvidia --gpus all \
  --shm-size=8g \
  -p 8000:8000 \
  -v /home/nvidia/models/Qwen3.6-27B-NVFP4:/model_workspace/Qwen3.6-27B-NVFP4 \
  ghcr.io/nvidia-ai-iot/vllm:latest-jetson-thor \
  python3 -m vllm.entrypoints.openai.api_server \
  --model /model_workspace/Qwen3.6-27B-NVFP4 \
  --served-model-name Qwen/Qwen3.6-27B-NVFP4 \
  --trust-remote-code \
  --quantization modelopt \
  --reasoning-parser qwen3 \
  --default-chat-template-kwargs '{"enable_thinking": false}' \
  --speculative-config '{"method":"qwen3_5_mtp","num_speculative_tokens":2}' \
  --enable-auto-tool-choice \
  --tool-call-parser qwen3_coder \
  --max-model-len 262144 \
  --gpu-memory-utilization 0.9 \
  --host 0.0.0.0 \
  --port 8000

大约能跑到20tokens/s。实际试用了一下,很慢,但是大约能达到 kilo code plan的 auto balanced 的水平。

类似文章

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注