本地安装部署vllm并运行大模型
一、前置条件1、NVIDIA 独立显卡笔记本 / 台式都行2、显存 ≥ 4GB能跑小模型3、安装python参考我的文章用Python生成二维码4、可以进入Windows下的WSL2参考我的文章小龙虾OpenClaw本地部署一前置软件安装中的三二、在 WSL2 内安装 Miniconda简介Miniconda 是 Anaconda 的轻量级发行版核心作用是跨平台、跨语言的包与环境管理器专为 Python 等项目设计主打环境隔离与依赖解析。目的创建并激活虚拟环境避免python版本带来的冲突1、进入WSL2命令窗口输入下面命令# 1. 下载Miniconda安装包Linux版 mkdir -p ~/miniconda3 wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh -O ~/miniconda3/miniconda.sh # 2. 执行安装全程默认最后输入yes确认 bash ~/miniconda3/miniconda.sh -b -u -p ~/miniconda3 # 3. 初始化conda让终端识别conda命令 source ~/miniconda3/bin/activate conda init bash # 4. 重启终端或执行source命令生效 source ~/.bashrc2、验证Miniconda是否安装成功conda --version3、创建并激活虚拟环境①先接受服务条款避免报错conda tos accept --override-channels --channel https://repo.anaconda.com/pkgs/main conda tos accept --override-channels --channel https://repo.anaconda.com/pkgs/r②创建vllm 的python环境vLLM 仅支持 Python 3.9 ~ 3.113.10和3.11最稳定、兼容性最好conda create -n vllm python3.10 -y③激活环境如果成功你会看到前面的提示符变成(vllm)这就表示环境创建成功。conda activate vllm三、在 WSL2 内安装 WSL2 专用 CUDA 12.1和 自己的Windows 版本对应注这里可以参考我的文章llama.cpp部署deepseek-r1-8b模型查看一下自己Windows可以安装的版本cmd命令nvidia-smi1、在wsl2中执行下面的命令下载WSL2 Ubuntu专用CUDA 12.1 repo包# 下载 CUDA 12.1 的安装源文件 wget https://developer.download.nvidia.com/compute/cuda/12.1.0/local_installers/cuda-repo- wsl-ubuntu-12-1-local_12.1.0-1_amd64.deb # 把刚才下载的文件安装进系统 sudo dpkg -i cuda-repo-wsl-ubuntu-12-1-local_12.1.0-1_amd64.deb # 安装安全密钥让系统信任 NVIDIA 的安装源不报错、不拦截。 sudo cp /var/cuda-repo-wsl-ubuntu-12-1-local/cuda-*-keyring.gpg /usr/share/keyrings/ # 刷新软件列表告诉系统“更新一下我现在能装 CUDA 12.1 了”。 sudo apt-get update # 真正安装 CUDA 12.1 工具包这一步执行完你的 WSL2 就有 CUDA 了nvcc 就能用了。 sudo apt-get -y install cuda-toolkit-12-12、这里第五步出现了依赖缺失报错不需要解决输入nvidia-smi出现下面截图内容那就代表成功了 WSL2 已经完美接管了你的显卡。nvidia-smi四、安装 vLLM1、回到 vllm 虚拟环境conda activate vllm2、一键安装 vLLM安装最新版 vLLMvLLM 会自动自带匹配的 PyTorch不需要额外安装下面两个安装源任选一个安装另一个备用。# 使用清华源加速 pip install vllm -U -i https://pypi.tuna.tsinghua.edu.cn/simple --trusted-host pypi.tuna.tsinghua.edu.cn # 阿里云源安装 pip install vllm -U -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host mirrors.aliyun.com3、安装完成后执行以下命令验证环境# 验证 vLLM python -c import vllm; print(✅ vLLM 安装成功版本, vllm.__version__) # 验证 PyTorch CUDA python -c import torch; print(PyTorch 版本, torch.__version__); print(CUDA 版本, torch.version.cuda); print(CUDA 是否可用, torch.cuda.is_available())五、用vllm运行大模型我选择了国内的魔搭社区1、安装魔搭工具pip install modelscope -i https://pypi.tuna.tsinghua.edu.cn/simple2、从魔搭下载模型到你的电脑我选了一个Qwen3.5-08B的模型注意模型必须下载为 HF 格式pytorch_model.bin 系列vLLM 只认 Hugging Face 格式不认其他格式。网址https://www.modelscope.cn/models/Qwen/Qwen3.5-0.8Bpython -c from modelscope import snapshot_download snapshot_download( model_idQwen/Qwen3.5-0.8B, local_dir/mnt/d/software/vllm/models/Qwen3.5-0.8B, revisionmaster ) 3、用vllm启动模型文件python -m vllm.entrypoints.openai.api_server \ --model /mnt/d/software/vllm/models/Qwen3.5-0.8B \ --trust-remote-code \ --gpu-memory-utilization 0.9 \ --host 0.0.0.0 \ --port 8000 \ --served-model-name Qwen3.5-0.8B4、测试是否成功在wsl2的Ubuntu中输入下面的命令curl http://localhost:8000/v1/chat/completions \ -H Content-Type: application/json \ -d { model: Qwen3.5-0.8B, messages: [{role: user, content: 你好}] }回复内容说明成功了