流星追月
deepin
9 hours ago 其实,RX580显卡的速度已经很快了,慢的不是GPU速度,是显存拖了后退,你试试HBM4高带宽显存,性能直接拉满。
个人用户是玩不起大模型的,特别是玩千亿级大模型的个人电脑,电费和token费就已经吃不消了,要去吃土了,强如脸谱公司最近都发声明退出token烧钱游戏。
Reply Like 0 View the author
其实,RX580显卡的速度已经很快了,慢的不是GPU速度,是显存拖了后退,你试试HBM4高带宽显存,性能直接拉满。
个人用户是玩不起大模型的,特别是玩千亿级大模型的个人电脑,电费和token费就已经吃不消了,要去吃土了,强如脸谱公司最近都发声明退出token烧钱游戏。
好多年不用 mint 了,启动个2B这么费事吗,还不如deepin上来的方便
其实,RX580显卡的速度已经很快了,慢的不是GPU速度,是显存拖了后退,你试试HBM4高带宽显存,性能直接拉满。
个人用户是玩不起大模型的,特别是玩千亿级大模型的个人电脑,电费和token费就已经吃不消了,要去吃土了,强如脸谱公司最近都发声明退出token烧钱游戏。
只是体验一下,只要不接入智能体。可以离线使用,其他也没什么优势。2b量化能做的事情也很有局限
好多年不用 mint 了,启动个2B这么费事吗,还不如deepin上来的方便
这个只是一个体验方式,会给喜欢倒腾的人一点思路。
在 RX580 4g 显卡上跑llama.cpp 模型 初级体验,显卡太老了,是基于开源驱动+vulkan
方案是宿主机 我安装的是linux mint mate 21.3 相当于乌帮图22.04 +docker 容器乌帮图24.04 应为24.04好编译
我在宿主机安装的依赖 这个我忘记了。简单一点 假设宿主机是24.04 容器都一样。
模型选择2b的,只有2b的能速度最快 千问3.5 2b gguf 在这里下载模型https://modelscope.cn
先要下载 node js 24 lts 设置环境变量
创建容器 更具你自己手法来就可以 关键参数 --device=/dev/dri --device=/dev/kfd
进入容器
编译源码
启动代码