本地Qwen模型版本升级
参考 https://huggingface.co/Qwen/Qwen3.6-27B 的benchmark,并查了 https://artificialanalysis.ai/ 发现新的Qwen3.6虽然只放出了27B的模型,但是性能还是挺强的。
准备从Qwen3.5-122B-A10B升级一下。上下文长度也可以放到更大。
hf download Qwen/Qwen3.6-27B --local-dir /home/nvidia/models/Qwen3.6-27B
docker run --rm -it --runtime nvidia --gpus all \
--shm-size=8g \
-p 8000:8000 \
-v /home/nvidia/models/Qwen3.6-27B:/model_workspace/Qwen3.6-27B \
ghcr.io/nvidia-ai-iot/vllm:latest-jetson-thor \
python3 -m vllm.entrypoints.openai.api_server \
--model /model_workspace/Qwen3.6-27B \
--served-model-name Qwen/Qwen3.6-27B \
--reasoning-parser qwen3 \
--default-chat-template-kwargs '{"enable_thinking": false}' \
--enable-auto-tool-choice \
--tool-call-parser qwen3_coder \
--max-model-len 256000 \
--gpu-memory-utilization 0.9 \
--host 0.0.0.0 \
--port 8000
跑了一下稠密模型在jetson thor上还是太慢了。
接下来换了个量化版本,并增加了MTP。(对于之前3.5的moe的mtp有一些问题,虽然qwen自带了参数,也可以看到mtp有挺高的成功率,但是并不怎么能提速)。
hf download sakamakismile/Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP --local-dir /home/nvidia/models/Qwen3.6-27B-NVFP4
docker run --rm -it --runtime nvidia --gpus all \
--shm-size=8g \
-p 8000:8000 \
-v /home/nvidia/models/Qwen3.6-27B-NVFP4:/model_workspace/Qwen3.6-27B-NVFP4 \
ghcr.io/nvidia-ai-iot/vllm:latest-jetson-thor \
python3 -m vllm.entrypoints.openai.api_server \
--model /model_workspace/Qwen3.6-27B-NVFP4 \
--served-model-name Qwen/Qwen3.6-27B-NVFP4 \
--trust-remote-code \
--quantization modelopt \
--reasoning-parser qwen3 \
--default-chat-template-kwargs '{"enable_thinking": false}' \
--speculative-config '{"method":"qwen3_5_mtp","num_speculative_tokens":2}' \
--enable-auto-tool-choice \
--tool-call-parser qwen3_coder \
--max-model-len 262144 \
--gpu-memory-utilization 0.9 \
--host 0.0.0.0 \
--port 8000
大约能跑到20tokens/s。实际试用了一下,很慢,但是大约能达到 kilo code plan的 auto balanced 的水平。
