黑五買了一台 1C1G 的 AMD Ryzen 9 7950X VPS,勉強可以玩玩 LLM 。記錄下如何在這樣的 VPS 上快速安裝和運行 LLM。
硬體配置#
---------------------基礎資訊查詢--感謝所有開源專案---------------------
CPU 型號 : AMD Ryzen 9 7950X 16-Core Processor
CPU 核心數 : 1
CPU 頻率 : 4491.540 MHz
CPU 快取 : L1: 64.00 KB / L2: 512.00 KB / L3: 16.00 MB
AES-NI指令集 : ✔ Enabled
VM-x/AMD-V支持 : ✔ Enabled
記憶體 : 90.74 MiB / 960.70 MiB
Swap : 0 KiB / 2.00 MiB
硬碟空間 : 1.12 GiB / 14.66 GiB
----------------------CPU測試--通過sysbench測試-------------------------
-> CPU 測試中 (Fast Mode, 1-Pass @ 5sec)
1 線程測試(單核)得分: 6402 Scores
---------------------記憶體測試--感謝lemonbench開源-----------------------
-> 記憶體測試 Test (Fast Mode, 1-Pass @ 5sec)
單線程讀測試: 75694.60 MB/s
單線程寫測試: 42458.49 MB/s
軟體配置#
- 選擇推理引擎:由於純 cpu 推理,我們選擇使用 Ollama 作為推理引擎。
- 選擇模型:選擇 Qwen2.5-0.5b 模型 Q4 量化版本,模型大小不到 400MB,適合 1GB 記憶體。
安裝和運行模型#
curl -fsSL https://ollama.com/install.sh | sh
ollama run qwen2.5:0.5b
進行對話#
>>> hello, who are you?
I am Qwen, an AI language model developed by Alibaba Cloud. I was trained using millions of natural language processing (NLP) examples from the internet and my responses are generated through advanced neural network algorithms. My primary goal is to assist with tasks such as text generation, summarization, answering questions, and more. If you have any questions or need further clarification on a topic, feel free to ask!
要退出對話,請輸入 /bye
。
>>> /bye
性能測試#
-
下載測試腳本
wget https://github.com/Yoosu-L/llmapibenchmark/releases/download/v1.0.1/llmapibenchmark_linux_amd64
-
設置腳本權限
chmod +x ./llmapibenchmark_linux_amd64
-
運行性能測試
./llmapibenchmark_linux_amd64 -base_url="http://127.0.0.1:11434/v1" -concurrency=1,2,4 #optional
輸出示例#
################################################################################################################
LLM API Throughput Benchmark
https://github.com/Yoosu-L/llmapibenchmark
Time:2024-12-03 03:11:48 UTC+0
################################################################################################################
Input Tokens: 45
Output Tokens: 512
Test Model: qwen2.5:0.5b
Latency: 0.00 ms
| Concurrency | Generation Throughput (tokens/s) | Prompt Throughput (tokens/s) | Min TTFT (s) | Max TTFT (s) |
|-------------|----------------------------------|-------------------------------|--------------|--------------|
| 1 | 31.88 | 976.60 | 0.05 | 0.05 |
| 2 | 30.57 | 565.40 | 0.07 | 0.16 |
| 4 | 31.00 | 717.96 | 0.11 | 0.25 |
卸載#
# 停止Ollama服務:
sudo systemctl stop ollama
# 禁用Ollama服務:
sudo systemctl disable ollama
# 刪除Ollama服務文件:
sudo rm /etc/systemd/system/ollama.service
# 刪除Ollama二進制文件:
sudo rm /usr/local/bin/ollama
# sudo rm /usr/bin/ollama
# sudo rm /bin/ollama
聲明#
本教程僅供娛樂,0.5b 的 LLM 難以達到生產要求,並且在推理時會造成大量 CPU 及記憶體帶寬佔用,影響鄰居體驗被刪雞。