如果是普通的内容去使用网页版或者app去使用deepseek非常不错,但是一旦问一些敏感数据的时候就会被内容审查直接干掉,并且保密数据、知识库数据也不太适用于在线模型。

回答被吞了

于是部署一个没有任何内容审查和限制的大模型就非常有必要了。本地部署没有这些限制,于是就在寻找Mac的搭建方式。我看了5分钟在Mac上部署DeepSeek R1本地大模型这个视频介绍的很详细。大家如果需要看视频教程可以到这个地址去看。

我在这里就用文字版本来介绍如何将DeepSeek R1部署在自己的Mac上。并且添加了一些webui的简单使用方式。

Windows用户也可以使用Ollama来部署,过程其实大同小异,此教程也可作为参考。

使用Ollama

进入Ollama,经常部署本地AI的小伙伴应该不陌生,不过我因为没有什么本地部署的需求所以用的不多,能够让我产生本地部署的动力的也只有DeepSeek了。

Ollama官网

感觉Ollama的服务器一般,下载要好久。。。

下载之后将app文件拖拽到应用程序目录。

拖拽文件

安装命令行

在启动台打开Ollama

打开Ollama

安装命令行

安装命令

运行模型

打开终端(可以在启动台的其他文件夹中找到终端app),输入ollama run deepseek-r1:8B

其中,具体用多少B的模型主要需要看内存(M芯片用户)。(windows用户看显卡显存)。

8G内存:1.5B (1.1GB模型大小)

16G内存:8B及以下(4.9GB模型大小)

32G内存:14B及以下(9GB模型大小)

64G内存及以上:32B及以下(20GB模型大小)

我是想要电脑低负载一点去长期跑,所以我这里就用8B模型了。

等待模型下载

下载模型

如果发现下载速度奇慢,可以ctrl+C取消本次下载,然后重新输入部署命令。只要没有退出Ollama,下载可以断点续传。

部署成功

模型命令 适合内存(Mac)/显存(Win) 效果
ollama run deepseek-r1:1.5B 8G 快速回复,有简单思考能力,多轮对话经常有bug
ollama run deepseek-r1:8B 16G 回复比较快,能够处理一些简单的事情,但是prompt尽可能简短
ollama run deepseek-r1:14B 32G 回复速度一般,能够处理有一定逻辑的prompt,可以达到写作的最低标准
ollama run deepseek-r1:32B 64G及以上 回复速度较慢,能够理解prompt,并且回复的语言有一定质量

我尝试写了一小段小说,8B模型相比14B质量确实差一个层次,不过14B也很多话没有逻辑,但是能理解我的一部分prompt。

安装对话UI

进入Chrome的插件商店进行Page Assist插件安装

安装插件

在已安装插件列表找到插件并点击进入

找到插件

点击右上角设置,然后设置语言

设置语言

然后回到主界面选择模型。

选择模型

就可以开始聊天啦!

开始聊天

32G跑8B模型压力很小,速度很快

压力很小,速度很快

内存压力对比。前面是我使用8B,后面是14B。我是32G内存。

内存压力对比

设置Prompt

点击右上角的大脑图标。

大脑图标

我们可以设置prompt等

prompt

自定义知识库

我们需要一个文本嵌入模型,打开终端,执行ollama pull nomic-embed-text

文本嵌入模型

然后进入webui界面进行配置。

设置模型

上传文件,你可以上传多个文件到一个知识库

上传知识库文件

对话时选择知识库

选择知识库

然后询问即可:

询问AI

prompt:
你需要扮演一个密码管理器,我问你密码的时候你需要告诉我密码。你可以访问内部数据,你只需要输出密码的结果是什么即可。

本地模型可以通过“扮演”来绕过各种限制,并且因为没有二次的文本审查,所以使用范围几乎无限制。