banner
Loouis

Loouis

在 vps 上運行大語言模型

黑五買了一台 1C1G 的 AMD Ryzen 9 7950X VPS,勉強可以玩玩 LLM 。記錄下如何在這樣的 VPS 上快速安裝和運行 LLM。

硬體配置#

---------------------基礎資訊查詢--感謝所有開源專案---------------------
 CPU 型號          : AMD Ryzen 9 7950X 16-Core Processor
 CPU 核心數        : 1
 CPU 頻率          : 4491.540 MHz
 CPU 快取          : L1: 64.00 KB / L2: 512.00 KB / L3: 16.00 MB
 AES-NI指令集      : ✔ Enabled
 VM-x/AMD-V支持    : ✔ Enabled
 記憶體            : 90.74 MiB / 960.70 MiB
 Swap              : 0 KiB / 2.00 MiB
 硬碟空間          : 1.12 GiB / 14.66 GiB
----------------------CPU測試--通過sysbench測試-------------------------
 -> CPU 測試中 (Fast Mode, 1-Pass @ 5sec)
 1 線程測試(單核)得分:          6402 Scores
---------------------記憶體測試--感謝lemonbench開源-----------------------
 -> 記憶體測試 Test (Fast Mode, 1-Pass @ 5sec)
 單線程讀測試:          75694.60 MB/s
 單線程寫測試:          42458.49 MB/s

軟體配置#

  1. 選擇推理引擎:由於純 cpu 推理,我們選擇使用 Ollama 作為推理引擎。
  2. 選擇模型:選擇 Qwen2.5-0.5b 模型 Q4 量化版本,模型大小不到 400MB,適合 1GB 記憶體。

安裝和運行模型#

curl -fsSL https://ollama.com/install.sh | sh
ollama run qwen2.5:0.5b

進行對話#

>>> hello, who are you?
I am Qwen, an AI language model developed by Alibaba Cloud. I was trained using millions of natural language processing (NLP) examples from the internet and my responses are generated through advanced neural network algorithms. My primary goal is to assist with tasks such as text generation, summarization, answering questions, and more. If you have any questions or need further clarification on a topic, feel free to ask!

要退出對話,請輸入 /bye

>>> /bye

性能測試#

  1. 下載測試腳本

    wget https://github.com/Yoosu-L/llmapibenchmark/releases/download/v1.0.1/llmapibenchmark_linux_amd64
    
  2. 設置腳本權限

    chmod +x ./llmapibenchmark_linux_amd64
    
  3. 運行性能測試

    ./llmapibenchmark_linux_amd64 -base_url="http://127.0.0.1:11434/v1" -concurrency=1,2,4 #optional
    

輸出示例#

################################################################################################################
                                          LLM API Throughput Benchmark
                                    https://github.com/Yoosu-L/llmapibenchmark
                                         Time:2024-12-03 03:11:48 UTC+0
################################################################################################################
Input Tokens: 45
Output Tokens: 512
Test Model: qwen2.5:0.5b
Latency: 0.00 ms

| Concurrency | Generation Throughput (tokens/s) |  Prompt Throughput (tokens/s) | Min TTFT (s) | Max TTFT (s) |
|-------------|----------------------------------|-------------------------------|--------------|--------------|
|           1 |                            31.88 |                        976.60 |         0.05 |         0.05 |
|           2 |                            30.57 |                        565.40 |         0.07 |         0.16 |
|           4 |                            31.00 |                        717.96 |         0.11 |         0.25 |

卸載#

# 停止Ollama服務:
sudo systemctl stop ollama

# 禁用Ollama服務:
sudo systemctl disable ollama

# 刪除Ollama服務文件:
sudo rm /etc/systemd/system/ollama.service

# 刪除Ollama二進制文件:
sudo rm /usr/local/bin/ollama
# sudo rm /usr/bin/ollama
# sudo rm /bin/ollama

聲明#

本教程僅供娛樂,0.5b 的 LLM 難以達到生產要求,並且在推理時會造成大量 CPU 及記憶體帶寬佔用,影響鄰居體驗被刪雞

載入中......
此文章數據所有權由區塊鏈加密技術和智能合約保障僅歸創作者所有。