在 Debian 上用 Ollama 跑 Qwen3.5（RTX 4070）

适用环境：Debian Linux + NVIDIA RTX 4070（12GB 显存）

第一步：确认 NVIDIA 驱动正常

nvidia-smi

正常输出应显示 NVIDIA GeForce RTX 4070 和 12288MiB 显存。

如果报错，先安装驱动：

sudo apt update
sudo apt install -y nvidia-driver firmware-misc-nonfree
sudo reboot

curl -fsSL <https://ollama.com/install.sh> | sh

验证安装：

ollama --version
systemctl status ollama   # 确认服务在运行

RTX 4070（12GB）推荐版本：

# 首选：9b（约 6.6GB，12GB 显存轻松跑）
ollama run qwen3.5:9b

# 或者 4b（更快，效果也不错）
ollama run qwen3.5:4b

qwen3.5:latest 默认为 9b，支持 256K 超长上下文，支持文字和图片输入。

第一次运行会自动下载模型，请保持网络畅通。

另开一个终端运行：

watch -n 1 nvidia-smi

对话时看到 GPU 利用率上升、显存占用约 6-7GB，说明正在使用 GPU。

Qwen3.5 支持深度思考模式，在对话中直接输入：

text
/think      # 开启深度推理（慢但更准）
/no_think   # 关闭思考模式（快速回复）

Ollama 默认在 localhost:11434 提供 API：

curl <http://localhost:11434/api/chat> \\
  -d '{
    "model": "qwen3.5:9b",
    "messages": [{"role": "user", "content": "你好，介绍一下你自己"}]
  }'

# 查看已下载的模型
ollama list

# 停止运行中的模型
ollama stop qwen3.5:9b

# 删除模型
ollama rm qwen3.5:9b

# 查看运行日志
journalctl -u ollama -f

system

#system

在 Debian 上用 Ollama 跑 Qwen3.5（RTX 4070）

https://blog.fullsize.cn/2026/03/23/notion/zai-debian-shang-yong-ollama-pao-qwen3-5-rtx-4070/

作者

fullsize

发布于

2026年3月23日

许可协议