纯cpu跑大模型，linux部署deepseek-r1 70b q4，纯娱乐

2025-2-28

最近在自己服务器上部署了下deepseek-r1 70b q4大模型，不过我肯定是没显卡，就用纯cpu来跑，顺便写个简单的教程。

先科普下上面的名词，deepseek-r1是模型参数，最近火爆的deepseek就是这个模型（以及迭代）；70b指的是参数。b代表亿，说明这个是70亿的参数，参数越大，需要消耗越多算力（还需要更多的存储空间、内存容量）但也更智能；q4指的是量化，有q8 fp16等等，是指的量化，q8也要比q4消耗更多资源同时也更准确。那我这里就直接使用ollama部署了，什么，为什么要使用这个，因为简单，不用动脑子。

一、准备系统

为了性能最大化，建议是直接裸机部署，不过我这里就是在用的lxc部署的，记得系统选择debian这种，如果是alpine就不行，因为不兼容libc，嗯我一开始就是用alpine，下载了半天才发现装不上.....为什么不用windows？因为windows系统本身就要比linux吃性能。

当然也可以选择docker，不过我这是proxmox，不好直接用docker，一般家庭服务器也不太会直接裸机用docker，都是在虚拟机里面，相当于做了次套娃，而跑ai本来就吃性能，所以能裸机部署就裸机部署。

二、部署ollama&运行模型

这个其实没啥好说的，直接输入以下命令，运行就完事了：

curl -fsSL https://ollama.com/install.sh | sh
#安装ollama

ollama run deepseek-r1:70b
#运行模型

第一步安装ollama的时候建议上科技，第二步下载模型并运行就不用了，国内速度很快，最快可以70MB/s，不过后面会降速，结束并重新拉取下载就可以恢复速度了。

结束对话就按ctrl+d结束，需要再次运行就重新输入上面第二条命令，此时不会重新拉取会直接运行。

三、效果

emmmm我要怎么说呢，家庭玩这个纯属图一乐，没高性能设备撑不起来的，我这相当于四通道ddr4内存，16核的cpu，跑70b差不多一秒一个字，谁受得了啊，当然也可以运行更轻量化的模型，例如1.5b，但是我为什么不直接用现成的api呢，除非你家里有十几个卡，那确实可以玩，不然老老实实用现成api。家里有服务器多卡的大佬当我没说。

就光70b内存都要吃掉50g，当然如果上下文越多也越吃内存，不过主要是内存带宽限制了，cpu没都没法跑满。

那就得说一下这个性能需求了，最简单的，高内存带宽，高cpu性能，大内存，特别是671b，内存没到512g的不用看了（我也不知道够不够，应该是够的吧），就算70b也得需要64g；还有最重要的内存带宽，带宽越大越好，12通道ddr5内存安排上，不过需要提醒下，如果是双路epyc，记得调优，不然因为节点问题双路性能还不如单路......。至于最重要的cpu性能不用说都明白。

作者：mymuwu

链接：https://mymuwu.net/?p=2198

文章版权归作者所有，未经允许请勿转载。

THE END