kookboy
deepin
2 hours ago 本地部署ollama时我主要遇到两个方面的问题:
- 下载极其缓慢,甚至经常失败:无论是直接下载 Ollama,还是通过 1Panel 安装后拉取镜像更新,速度都慢得令人抓狂,常常以失败告终。
- 模型输出卡顿,运行效率受限:模型生成回复时感觉不够流畅,整体运行效率似乎受到了一定的制约。
所以我现在放弃了ollama,改用LM Studio,它在下载、运行设置等方面要比ollama 稍好一些。
Reply Like 0 View the author


中文 
本教程基于 deepin 25(Debian 12 内核) + Intel Core Ultra 系列 NPU,全程使用国内可用源、无过期链接、无冲突配置,实测可复现。
重要说明:经实际测试,无法通过 systemctl 服务配置启动 NPU 模式下的 Ollama,会出现启动失败(status=2)的问题,因此本教程全程采用手动启动方式,确保 NPU 加速正常生效。
一、环境说明
二、安装 Intel NPU 驱动(必须先做)
1. 安装依赖
2. 安装 Level-Zero 运行库
3. 安装 Intel NPU 官方驱动
4. 加载驱动并赋予权限
5. 验证 NPU 是否识别
出现
accel0即为成功:三、安装 Ollama(国内加速版)
1. 下载并安装
2. 验证安装
四、手动启动 Ollama + NPU 加速(唯一稳定方案)
核心说明:经实际测试,systemctl 服务与 NPU 环境变量存在冲突,无法正常启动 Ollama(会报 status=2 错误),因此必须采用手动启动方式,且启动终端需保持打开,不可关闭。
1. 清理可能的冲突进程
先终止所有 Ollama 相关进程,避免冲突:
2. 一键启动(NPU 加速 + 局域网全开放)
复制以下完整命令,粘贴到终端运行,此终端必须保持打开(关闭终端会导致 Ollama 停止运行):
出现以下内容即代表启动成功(NPU 加速已启用,且开放局域网访问):
五、拉取并运行模型
1. 拉取模型(NPU 友好 7B 4bit,适配性最佳)
2. 本地终端测试
输入问题后,能正常返回回答即代表模型运行正常,NPU 加速已生效。
3. API 测试(验证接口可用)
新开一个终端,执行以下命令,能正常返回 JSON 格式回答即代表 API 可用:
六、局域网调用配置
1. 查看本机局域网 IP
示例输出:
192.168.1.100(记下来,供其他设备调用)2. 开放防火墙端口
放行 11434 端口,确保局域网设备能访问:
3. 局域网 API 地址
其他设备调用时,使用以下地址(替换成你的本机 IP):
七、Cherry / OpenAI 兼容客户端配置
重点注意:Cherry 客户端必须在 API 地址末尾加
/,否则会连接失败,其他 OpenAI 兼容客户端可参考此配置。http://192.168.1.100:11434/v1/(替换成你的本机 IP,末尾必须带/)qwen2.5:7b-instruct-q4_K_M(必须与拉取的模型名完全一致)八、查看 NPU 负载(确认加速生效)
新开终端,执行以下命令,查看 NPU 占用率,有数值上升即代表 NPU 正在加速工作:
九、常见问题
1. Ollama 启动失败(无报错但无法访问)
检查是否执行了
pkill -f ollama清理冲突进程,重新运行手动启动命令,确保终端保持打开。2. /dev/accel 不存在(NPU 未识别)
原因:NPU 驱动未安装成功,或当前用户未加入
render组。重新执行“加载驱动并赋予权限”步骤,重启电脑后再验证。3. Cherry 客户端连接失败
核心问题:API 地址末尾未加
/,修正为http://x.x.x.x:11434/v1/即可。4. 局域网设备无法访问
OLLAMA_HOST=0.0.0.0(开放所有网卡监听);sudo ufw status查看端口放行状态;5. 模型运行卡顿、未使用 NPU 加速
确认启动命令中包含
GGML_OPENVINO_DEVICE=NPU,且模型为 4bit 量化版本(如教程中的 qwen2.5:7b-instruct-q4_K_M),NPU 对 4bit 模型适配性最佳。