主要是经验谈。实际上低于官方配置也可以玩一玩大模型。
换了新设备,浅浅记录一下部署过程和体验。

如果对可行性分析不感兴趣,部署教程请跳过“配置要求”部分,直接移步后文。
我的配置:

CPUAMD Ryzen R9-7950x16核32线程
显卡RTX 4070Ti Super16G显存
内存DDR5 32*2G6000MHZ 30c时序

配置要求

官网推荐配置为22GB显存以上,但是无论是deepseek-r1:32b还是qwen2.5:32b均在我的RTX 4070Ti Super(16GB)上在可接受的范围内(速度约为5+ token/s,每秒两个汉字左右)稳定运行。

最开始我的尝试比较保守,选用的是deepseek-r1:14b,速度飞快,可以迅速生成一大段话。彼时没有查看具体速度,估算速度为20~30 token/s,但是没有实际使用价值。而对于22G显存(官方建议4090,岂是我小小4070tis能碰瓷的)实在是令人望而却步。尽管网上的教程并没有这样做过的,我还是打算试一下。

之前在Twitter上有注意到(应该是维术大佬转发的推文,Weishu是KernalSU、太极和两仪的作者),可以利用某种手段将大模型完全加载至内存中运行。当然,速度不会太好看。推测Windows应当是默认支持混合的,当显存不足时借用内存。一些教程也有提到过,速度大打折扣。

为了验证这一点,简单进行了实验。在运行qwen2.5:32b时发现,GPU专用内存占用为15.3G左右,共享内存占用5.8G左右。进行加和后,总共占用约为21G左右,确实做到了显存缺的这块内存给补上,混合显存总大小基本符合官方配置推荐。当然,这肯定是int4量化过的情况。

这个情况不仅存在于qwen,deepseek也是如此。

所以RTX 4070Ti Super是完全可以运行32b大模型的,而且速度可观,可以满足单人使用。考虑到最初打算购买的是4060Ti Super,在这种情况下,可能完全不可使用(速度太慢)。

70b的版本就不自不量力了,估计直接爆。

部署大模型

Ollama傻瓜式部署,但有一些坑。可以参考通过Ollama本地部署DeepSeek R1以及简单使用的教程(超详细)但是先看完我说的。

需要注意Ollama图形化安装不支持更改安装目录,点击安装并不会给你修改安装目录的机会,直接会安装到C盘。记得要命令行安装并且更换安装目录(方法上面的参考教程有讲),不然一个32b大模型就是20G,C盘空间立马消失。

将安装文件夹加入环境变量更方便。

在拉取大模型之前,一定记得设置模型下载目录环境变量。网上的教程并没有提到,安装目录和下载目录完全不在一起。所以即使你按照教程在命令行安装时就修改了安装目录,大模型在拉取时依然会被下载到你的C盘。关于设置什么和如何设置环境变量,上面的参考教程中就有。

部署处理妥当后,就可以拉取模型使用了。关于模型的名称,Ollama官网模型页面有一个一键复制代码。

也可以只拉取不运行,把run换成pull就好。

ollama pull deepseek-r1:32b

利用Page Assist

Page Assist是一个Chrome插件,在edge上也可以使用。直接在Chorme插件商店搜索就可以下载安装。也是傻瓜式操作,自动检测Ollama,提供比较丰富的配置和管理,也可以开箱即用。Page Assist最impressive的一点就是支持联网搜索,虽然实现方式比较简单,但多多少少提升了LLM获取实时信息的能力。