[ Content contribution] deepin 25 部署 Ollama + Intel NPU 加速 并开放局域网 API 调用完整教程
Tofloor
poster avatar
猫老邪
deepin
3 hours ago
Author

本教程基于 deepin 25(Debian 12 内核) + Intel Core Ultra 系列 NPU,全程使用国内可用源、无过期链接、无冲突配置,实测可复现。

重要说明:经实际测试,无法通过 systemctl 服务配置启动 NPU 模式下的 Ollama,会出现启动失败(status=2)的问题,因此本教程全程采用手动启动方式,确保 NPU 加速正常生效。

一、环境说明

  • 系统:deepin 25
  • 硬件:Intel Core Ultra(Meteor Lake 及以上,带 NPU)
  • 目标:
    • 安装 Intel NPU 驱动
    • 安装 Ollama 并启用 NPU 硬件加速
    • 开放局域网 API 供其他设备调用
    • 对接 Cherry 等 OpenAI 兼容客户端

二、安装 Intel NPU 驱动(必须先做)

1. 安装依赖

sudo apt update && sudo apt install -y libtbb12 libudev1 libssl3 intel-gpu-tools

2. 安装 Level-Zero 运行库

wget https://ppa.launchpadcontent.net/kobuk-team/intel-graphics/ubuntu/pool/main/l/level-zero-loader/libze1_1.27.0-1~24.04~ppa2_amd64.deb
wget https://ppa.launchpadcontent.net/kobuk-team/intel-graphics/ubuntu/pool/main/l/level-zero-loader/libze-dev_1.27.0-1~24.04~ppa2_amd64.deb

sudo dpkg -i libze1_1.27.0-1~24.04~ppa2_amd64.deb
sudo dpkg -i libze-dev_1.27.0-1~24.04~ppa2_amd64.deb

3. 安装 Intel NPU 官方驱动

wget https://github.com/intel/linux-npu-driver/releases/download/v1.32.0/linux-npu-driver-v1.32.0.20260402-23905121947-ubuntu2404.tar.gz

tar -xf linux-npu-driver-v1.32.0.20260402-23905121947-ubuntu2404.tar.gz
cd linux-npu-driver-v1.32.0.20260402-23905121947-ubuntu2404

sudo dpkg -i *.deb
sudo apt -f install -y

4. 加载驱动并赋予权限

sudo modprobe intel_vpu
sudo usermod -aG render $USER
sudo udevadm control --reload-rules
sudo udevadm trigger
sudo ldconfig

5. 验证 NPU 是否识别

出现 accel0 即为成功:

ls /dev/accel/

三、安装 Ollama(国内加速版)

1. 下载并安装

curl -fsSL https://ollama.com/install.sh -o ollama_install.sh
chmod +x ollama_install.sh
sudo sh ollama_install.sh

2. 验证安装

ollama --version

四、手动启动 Ollama + NPU 加速(唯一稳定方案)

核心说明:经实际测试,systemctl 服务与 NPU 环境变量存在冲突,无法正常启动 Ollama(会报 status=2 错误),因此必须采用手动启动方式,且启动终端需保持打开,不可关闭。

1. 清理可能的冲突进程

先终止所有 Ollama 相关进程,避免冲突:

pkill -f ollama

2. 一键启动(NPU 加速 + 局域网全开放)

复制以下完整命令,粘贴到终端运行,此终端必须保持打开(关闭终端会导致 Ollama 停止运行):

GGML_OPENVINO_DEVICE=NPU OLLAMA_HOST=0.0.0.0 OLLAMA_ORIGINS=* ollama serve

出现以下内容即代表启动成功(NPU 加速已启用,且开放局域网访问):

server listening on [::]:11434
llama runner started

五、拉取并运行模型

1. 拉取模型(NPU 友好 7B 4bit,适配性最佳)

ollama pull qwen2.5:7b-instruct-q4_K_M

2. 本地终端测试

ollama run qwen2.5:7b-instruct-q4_K_M

输入问题后,能正常返回回答即代表模型运行正常,NPU 加速已生效。

3. API 测试(验证接口可用)

新开一个终端,执行以下命令,能正常返回 JSON 格式回答即代表 API 可用:

curl http://127.0.0.1:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen2.5:7b-instruct-q4_K_M",
    "messages": [{"role": "user", "content": "你好"}]
  }'

六、局域网调用配置

1. 查看本机局域网 IP

hostname -I

示例输出:192.168.1.100(记下来,供其他设备调用)

2. 开放防火墙端口

放行 11434 端口,确保局域网设备能访问:

sudo ufw allow 11434/tcp
sudo ufw reload

3. 局域网 API 地址

其他设备调用时,使用以下地址(替换成你的本机 IP):

http://192.168.1.100:11434/v1/

七、Cherry / OpenAI 兼容客户端配置

重点注意:Cherry 客户端必须在 API 地址末尾加 /,否则会连接失败,其他 OpenAI 兼容客户端可参考此配置。

  • API 地址:http://192.168.1.100:11434/v1/(替换成你的本机 IP,末尾必须带 /
  • API 密钥:留空(Ollama 原生无密钥验证)
  • 模型名称:qwen2.5:7b-instruct-q4_K_M(必须与拉取的模型名完全一致)

八、查看 NPU 负载(确认加速生效)

新开终端,执行以下命令,查看 NPU 占用率,有数值上升即代表 NPU 正在加速工作:

intel_gpu_top

九、常见问题

1. Ollama 启动失败(无报错但无法访问)

检查是否执行了 pkill -f ollama 清理冲突进程,重新运行手动启动命令,确保终端保持打开。

2. /dev/accel 不存在(NPU 未识别)

原因:NPU 驱动未安装成功,或当前用户未加入 render 组。重新执行“加载驱动并赋予权限”步骤,重启电脑后再验证。

3. Cherry 客户端连接失败

核心问题:API 地址末尾未加 /,修正为 http://x.x.x.x:11434/v1/ 即可。

4. 局域网设备无法访问

  • 确认 Ollama 启动命令中包含 OLLAMA_HOST=0.0.0.0(开放所有网卡监听);
  • 确认防火墙已放行 11434 端口,执行 sudo ufw status 查看端口放行状态;
  • 确认局域网设备与 deepin 主机在同一网段(如 192.168.1.x)。

5. 模型运行卡顿、未使用 NPU 加速

确认启动命令中包含 GGML_OPENVINO_DEVICE=NPU,且模型为 4bit 量化版本(如教程中的 qwen2.5:7b-instruct-q4_K_M),NPU 对 4bit 模型适配性最佳。

Reply Favorite View the author
All Replies
kookboy
deepin
2 hours ago
#1

本地部署ollama时我主要遇到两个方面的问题:

  • 下载极其缓慢,甚至经常失败:无论是直接下载 Ollama,还是通过 1Panel 安装后拉取镜像更新,速度都慢得令人抓狂,常常以失败告终。
  • 模型输出卡顿,运行效率受限:模型生成回复时感觉不够流畅,整体运行效率似乎受到了一定的制约。

所以我现在放弃了ollama,改用LM Studio,它在下载、运行设置等方面要比ollama 稍好一些。

Reply View the author
猫老邪
deepin
an hour ago
#2

LM Studio的确很优秀。GPU资源充足的,优先考虑LM。

具不太靠谱消息,LM在部分AI计算的OEM设备中采用大鹏家(Ubunutu)系统,是直接适配了NPU的。

Reply View the author