kookboy
deepin
2025-09-09 17:29 还有几张图片没能显示~
再传两张给大伙看看吧。
N卡GPU跑AI大模型时测试数据:
在一个终端窗口启动GPU监控:
watch -n 0.3 nvidia-smi
在另一个终端运行Ollama请求:
ollama run llama3 "简短测试GPU性能" --verbose
观察nvidia-smi输出:
查找Processes部分的ollama条目
注意显存使用量的增加(应增加2GB以上)
观察GPU-Util值(应有明显的使用率峰值)
测试数据:
total duration: 17.595060934s
load duration: 1.673757767s
prompt eval count: 8 token(s)
prompt eval duration: 120.21019ms
prompt eval rate: 66.55 tokens/s
eval count: 622 token(s)
eval duration: 15.800621308s
eval rate: 39.37 tokens/s
从以上的测试结果可以明确确认 Ollama 正在使用您的 NVIDIA GPU 进行加速!以下是分析要点:
GPU 运行的关键证据 🔥
-
Token 生成速率 (eval_rate):
39.37 tokens/s
这个速度远高于 CPU 运行- CPU 运行通常只有 5-10 tokens/s
- GPU 运行(尤其是 RTX 4060)通常可以达到 30-100+ tokens/s
-
Prompt 处理速度:
66.55 tokens/s
非常高的提示处理速度- 表明模型参数已经预加载到 GPU 显存
-
显存占用特征:
- 模型加载时间
1.673757767s
较长 - 这是 GPU 运行的典型特征(将模型从内存复制到显存)
- 模型加载时间
-
总体性能表现:
- 处理 8 个输入 token 并生成 622 个输出 token 只用 17.6 秒
- CPU 运行同等量级文本通常需要 1-2 分钟
性能数据分析表
指标 | 数值 | 说明 |
---|---|---|
Token 生成速度 | 39.37 tokens/s | GPU 特征值,远高于 CPU 的 5-10 tokens/s |
总响应时间 | 17.6 秒 | 相当于每秒处理 35 个 token(622/17.6),优秀表现 |
模型加载时间 | 1.67 秒 | 标准 GPU 运行特征(模型加载到显存) |
提示处理速度 | 66.55 tokens/s | 非常高的前向传播速度 |
响应质量 | 622 个 token | 完整、详细的回答,展现 GPU 处理能力 |
RTX 4060 预期性能对比
- ✅ 您的实测性能: 39.37 tokens/s(符合预期)
- 🔄 理论上限: 约 80-120 tokens/s(根据模型复杂度)
- 💡 优化建议: 可尝试更精简的模型(如 deepseek-coder:1.3b)获取 80+ tokens/s
总结
您的 Ollama 已成功使用 NVIDIA RTX 4060 GPU 加速 🎉
您已经完全满足在 1Panel 中部署 GPU 加速的 Ollama 的所有要求。现在可以:
- 在 1Panel 中部署 Ollama
- 运行大型模型(如 llama3:7b)
- 构建各种 AI 应用(文档分析、代码生成等)
Reply Like 1 View the author
一、 硬件配置概览
二、 操作系统现状
我当前采用了 Windows 11 与 Deepin V25 双系统 的配置方案。
Windows 11 子系统应用:
Deepin v25: 安装了1Panel+Halo+Ollama+Cherry Studio
总体目的: 我的想法是最大化硬件性能利用,支持免费 AI 大模型的本地部署运行,并能方便调用各种服务器软件资源,同时也是兴趣使然。
三、 选择双系统的初衷
主要有以下三方面的考虑:
四、为了本地部署和运用AI大模型,N卡驱动和GPU加速的问题得首先解决。当然,得益于Deepin自带的UOS AI,遇到问题直接问它,不是太复杂的技术问题一般是能够解决。
在 Deepin 25 上安装 N 卡官方最新驱动的方法
📦 手动安装官方驱动 [要查看安装过程图片在6楼]
若需要最新驱动,可考虑手动安装。
下载驱动:前往 NVIDIA 官网下载对应 GPU 型号的 Linux 驱动,文件格式为
.run
。卸载旧驱动(推荐):为防止冲突,先卸载可能存在的旧版 N 卡驱动。
禁用开源驱动 Nouveau:
在文件中添加以下内容并保存:
更新初始化ramfs并重启:
重启后验证禁用是否生效(无输出则成功):
部署开发环境(重要):手动安装驱动需要内核头文件等开发环境。
关闭图形界面:按
Ctrl + Alt + F2
进入 TTY 命令行界面,登录后停止显示管理器。安装驱动:进入
.run
文件所在目录,执行安装。安装过程中如遇提示,建议:
xorg.conf
,否则一般建议选 No。安装完成后重启电脑。
✅ 验证安装与双显卡切换
验证驱动:终端执行
nvidia-smi
。若看到显卡信息和驱动版本,说明驱动安装成功。双显卡切换:对于 Intel 和 NVIDIA 双显卡用户,安装驱动后可能需手动切换。Deepin 25 可尝试通过命令安装任务栏显卡切换插件:
安装后需重启。
💡 故障排除
sudo rm /etc/X11/xorg.conf
。sudo apt autoremove nvidia-*
,然后重启。安装NVIDIA Container Toolkit
NVIDIA Container Toolkit 简要解析 NVIDIA Container Toolkit 是一套工具集,核心作用是让容器(如 Docker 容器)能识别并调用 NVIDIA 显卡(GPU)资源,解决了容器环境默认无法直接利用独显进行计算加速的问题,是本地部署 AI 大模型、运行 GPU 密集型任务(如深度学习训练/推理、图形渲染等)的关键组件。 ### 核心功能 1. GPU 资源桥接:在容器启动时,自动配置显卡驱动依赖、设备权限,让容器内的应用(如 AI 模型、CUDA 程序)能像在宿主机一样调用 GPU,发挥硬件加速能力。 2. 适配主流容器生态:支持 Docker、Kubernetes 等主流容器平台,无需手动修改大量配置,降低 GPU 容器化部署的门槛。 ### 与用户场景的关联(结合 Deepin V25 双系统) 用户需在 Deepin 系统部署 AI 大模型(如 Ollama 运行的模型),而 AI 任务依赖 GPU 加速。其安装流程(添加 NVIDIA 官方源→安装 Toolkit→配置 Docker 默认运行时)正是为了: - 让 Docker 容器(如后续部署的 AI 模型容器)能识别 RTX 4060 Max-Q 独显; - 避免因驱动依赖缺失导致容器内 GPU 调用失败,确保 AI 任务高效运行。 ### 关键验证点 安装后通过
which nvidia-ctk
(确认工具存在)、nvidia-ctk --version
(确认版本达标)、docker run ... nvidia-smi
(验证容器内 GPU 可识别),可判断 Toolkit 是否正常工作,是后续 GPU 加速任务的基础。Deepin 需遵循 Debian 的安装指南(需先配置 NVIDIA 官方源,避免依赖冲突),具体步骤如下:
1.安装依赖工具(确保能添加官方源)
2.添加 NVIDIA 官方 GPG 密钥(验证源的合法性)
3. 添加 NVIDIA Container Toolkit 官方源(适配 Debian 11/12,Deepin V25 基于 Debian 11)
注意:Deepin 25 基于 Debian 11,因此使用
debian11
是正确的。如果遇到任何错误,可以将 URL 中的debian11
改为experimental
作为备选方案。4. 安装 NVIDIA Container Toolkit
5.验证安装(关键步骤)
安装完成后,再次执行以下命令,若能输出路径和版本,说明安装成功:
Deepin v25 安装1Panel+Docker + NVIDIA GPU 验证
先关闭磐石系统:
sudo deepin-immutable-writable enable
(执行完命令后,需重启系统才可以生效)一键脚本安装1panel(包含了Docker),根据命令行提示完成安装:
sudo bash -c "$(curl -sSL https://resource.fit2cloud.com/1panel/package/v2/quick_start.sh)"
注册 NVIDIA 运行时
4.设置默认运行时(修复 daemon.json)
5.确认默认运行时
6.验证 GPU 可用
7.镜像留存
镜像仅 ~200 MB,保留供后续复测;磁盘紧张时
docker image prune
清理。*2025年10月5日修正更新了“NVIDIA Container Toolkit”部分 🙂 *