[ Content contribution] deepin 25 部署 Ollama + Intel NPU 加速并开放局域网 API 调用完整教程

Technology Exchange 427 views · 2 replies ·

猫老邪

deepin

3 hours ago

Author

本教程基于 deepin 25（Debian 12 内核） + Intel Core Ultra 系列 NPU，全程使用国内可用源、无过期链接、无冲突配置，实测可复现。

重要说明：经实际测试，无法通过 systemctl 服务配置启动 NPU 模式下的 Ollama，会出现启动失败（status=2）的问题，因此本教程全程采用手动启动方式，确保 NPU 加速正常生效。

一、环境说明

系统：deepin 25
硬件：Intel Core Ultra（Meteor Lake 及以上，带 NPU）
目标：
- 安装 Intel NPU 驱动
- 安装 Ollama 并启用 NPU 硬件加速
- 开放局域网 API 供其他设备调用
- 对接 Cherry 等 OpenAI 兼容客户端

二、安装 Intel NPU 驱动（必须先做）

1. 安装依赖

sudo apt update && sudo apt install -y libtbb12 libudev1 libssl3 intel-gpu-tools

2. 安装 Level-Zero 运行库

wget https://ppa.launchpadcontent.net/kobuk-team/intel-graphics/ubuntu/pool/main/l/level-zero-loader/libze1_1.27.0-1~24.04~ppa2_amd64.deb
wget https://ppa.launchpadcontent.net/kobuk-team/intel-graphics/ubuntu/pool/main/l/level-zero-loader/libze-dev_1.27.0-1~24.04~ppa2_amd64.deb

sudo dpkg -i libze1_1.27.0-1~24.04~ppa2_amd64.deb
sudo dpkg -i libze-dev_1.27.0-1~24.04~ppa2_amd64.deb

3. 安装 Intel NPU 官方驱动

wget https://github.com/intel/linux-npu-driver/releases/download/v1.32.0/linux-npu-driver-v1.32.0.20260402-23905121947-ubuntu2404.tar.gz

tar -xf linux-npu-driver-v1.32.0.20260402-23905121947-ubuntu2404.tar.gz
cd linux-npu-driver-v1.32.0.20260402-23905121947-ubuntu2404

sudo dpkg -i *.deb
sudo apt -f install -y

4. 加载驱动并赋予权限

sudo modprobe intel_vpu
sudo usermod -aG render $USER
sudo udevadm control --reload-rules
sudo udevadm trigger
sudo ldconfig

5. 验证 NPU 是否识别

出现 accel0 即为成功：

ls /dev/accel/

三、安装 Ollama（国内加速版）

1. 下载并安装

curl -fsSL https://ollama.com/install.sh -o ollama_install.sh
chmod +x ollama_install.sh
sudo sh ollama_install.sh

2. 验证安装

ollama --version

四、手动启动 Ollama + NPU 加速（唯一稳定方案）

核心说明：经实际测试，systemctl 服务与 NPU 环境变量存在冲突，无法正常启动 Ollama（会报 status=2 错误），因此必须采用手动启动方式，且启动终端需保持打开，不可关闭。

1. 清理可能的冲突进程

先终止所有 Ollama 相关进程，避免冲突：

pkill -f ollama

2. 一键启动（NPU 加速 + 局域网全开放）

复制以下完整命令，粘贴到终端运行，此终端必须保持打开（关闭终端会导致 Ollama 停止运行）：

GGML_OPENVINO_DEVICE=NPU OLLAMA_HOST=0.0.0.0 OLLAMA_ORIGINS=* ollama serve

出现以下内容即代表启动成功（NPU 加速已启用，且开放局域网访问）：

server listening on [::]:11434
llama runner started

五、拉取并运行模型

1. 拉取模型（NPU 友好 7B 4bit，适配性最佳）

ollama pull qwen2.5:7b-instruct-q4_K_M

2. 本地终端测试

ollama run qwen2.5:7b-instruct-q4_K_M

输入问题后，能正常返回回答即代表模型运行正常，NPU 加速已生效。

3. API 测试（验证接口可用）

新开一个终端，执行以下命令，能正常返回 JSON 格式回答即代表 API 可用：

curl http://127.0.0.1:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen2.5:7b-instruct-q4_K_M",
    "messages": [{"role": "user", "content": "你好"}]
  }'

六、局域网调用配置

1. 查看本机局域网 IP

hostname -I

示例输出：192.168.1.100（记下来，供其他设备调用）

2. 开放防火墙端口

放行 11434 端口，确保局域网设备能访问：

sudo ufw allow 11434/tcp
sudo ufw reload

3. 局域网 API 地址

其他设备调用时，使用以下地址（替换成你的本机 IP）：

http://192.168.1.100:11434/v1/

七、Cherry / OpenAI 兼容客户端配置

重点注意：Cherry 客户端必须在 API 地址末尾加 /，否则会连接失败，其他 OpenAI 兼容客户端可参考此配置。

API 地址：http://192.168.1.100:11434/v1/（替换成你的本机 IP，末尾必须带 /）
API 密钥：留空（Ollama 原生无密钥验证）
模型名称：qwen2.5:7b-instruct-q4_K_M（必须与拉取的模型名完全一致）

八、查看 NPU 负载（确认加速生效）

新开终端，执行以下命令，查看 NPU 占用率，有数值上升即代表 NPU 正在加速工作：

intel_gpu_top

九、常见问题

1. Ollama 启动失败（无报错但无法访问）

检查是否执行了 pkill -f ollama 清理冲突进程，重新运行手动启动命令，确保终端保持打开。

2. /dev/accel 不存在（NPU 未识别）

原因：NPU 驱动未安装成功，或当前用户未加入 render 组。重新执行“加载驱动并赋予权限”步骤，重启电脑后再验证。

3. Cherry 客户端连接失败

核心问题：API 地址末尾未加 /，修正为 http://x.x.x.x:11434/v1/ 即可。

4. 局域网设备无法访问

确认 Ollama 启动命令中包含 OLLAMA_HOST=0.0.0.0（开放所有网卡监听）；
确认防火墙已放行 11434 端口，执行 sudo ufw status 查看端口放行状态；
确认局域网设备与 deepin 主机在同一网段（如 192.168.1.x）。

5. 模型运行卡顿、未使用 NPU 加速

确认启动命令中包含 GGML_OPENVINO_DEVICE=NPU，且模型为 4bit 量化版本（如教程中的 qwen2.5:7b-instruct-q4_K_M），NPU 对 4bit 模型适配性最佳。

Reply Like 0 Favorite View the author

All Replies

kookboy

deepin

2 hours ago

本地部署ollama时我主要遇到两个方面的问题：

下载极其缓慢，甚至经常失败：无论是直接下载 Ollama，还是通过 1Panel 安装后拉取镜像更新，速度都慢得令人抓狂，常常以失败告终。

模型输出卡顿，运行效率受限：模型生成回复时感觉不够流畅，整体运行效率似乎受到了一定的制约。

所以我现在放弃了ollama，改用LM Studio，它在下载、运行设置等方面要比ollama 稍好一些。

Reply Like 0 View the author

猫老邪

deepin

an hour ago

LM Studio的确很优秀。GPU资源充足的，优先考虑LM。

具不太靠谱消息，LM在部分AI计算的OEM设备中采用大鹏家（Ubunutu）系统，是直接适配了NPU的。

Reply Like 0 View the author

Featured Collection

Change

New Thread

Popular Ranking

Change

Deepin 25.1.0 fresh install problem

Popular Events