1. 介绍
Mozilla 前不久发布了一个工具 llamafile
(链接:Introducing llamafile),可以在本机运行一个 ChatGPT 服务器。
llamafile
将程序和模型打包成了一个可执行文件,只需要运行它,就能使用浏览器访问 http://localhost:8080 进行访问。
下载地址在:https://github.com/Mozilla-Ocho/llamafile。
这大大降低了入门门槛,具体原理在 Github 页面有介绍。
2. 使用方法
Github 的 README 已经写明了使用步骤。简单翻译一下:
- 下载文件 llava-v1.5-7b-q4-server.llamafile (3.97 GB),这个是 LLaVA 1.5 模型。
- 打开电脑的终端。
- 如果是 MacOS, Linux, 或者 BSD 系统,给刚下载的文件加可执行权限:
chmod +x llava-v1.5-7b-q4-server.llamafile
- 如果是 Windows,给文件加上
.exe
扩展名。 - 执行:
./llava-v1.5-7b-q4-server.llamafile
。 - 浏览器会自动打开 http://localhost:8080,如果没有自动打开,可以手工打开浏览器访问。
- 使用完了,用
Ctrl+C
结束第 5 步执行的程序。
Github 还有 Mistral,WizardCoder 等模型文件可以下载。
另外,llamafile
也可以使用 GGUF 模型文件直接执行。
- 从 Github Releases 页 下载
llamafile-server-0.2.1
文件(选择最新版本),这个文件只有几 MB 大小。 - 参考上面加可执行权限和修改扩展名的操作。
- 下载模型文件 xxxxxx.gguf。
- 执行:
llamafile-server-0.2.1 -m xxxxxx.gguf
。 - 使用方法同上。
模型文件可以到 Hugging Face 寻找。