VPS上で大規模言語モデルを実行する

ブラックフライデーに 1C1G の AMD Ryzen 9 7950X VPS を購入しました。LLM を少し遊ぶことができます。このような VPS 上で LLM を迅速にインストールして実行する方法を記録します。

ハードウェア構成#

---------------------基本情報の照会--すべてのオープンソースプロジェクトに感謝---------------------
 CPU モデル          : AMD Ryzen 9 7950X 16-Core Processor
 CPU コア数        : 1
 CPU 周波数          : 4491.540 MHz
 CPU キャッシュ      : L1: 64.00 KB / L2: 512.00 KB / L3: 16.00 MB
 AES-NI命令セット      : ✔ 有効
 VM-x/AMD-Vサポート    : ✔ 有効
 メモリ              : 90.74 MiB / 960.70 MiB
 スワップ              : 0 KiB / 2.00 MiB
 ハードディスクスペース : 1.12 GiB / 14.66 GiB
----------------------CPUテスト--sysbenchテストに合格-------------------------
 -> CPU テスト中 (ファストモード, 1-パス @ 5秒)
 1 スレッドテスト(単核)スコア:          6402 スコア
---------------------メモリテスト--lemonbenchオープンソースに感謝-----------------------
 -> メモリテスト (ファストモード, 1-パス @ 5秒)
 単スレッド読み取りテスト:          75694.60 MB/s
 単スレッド書き込みテスト:          42458.49 MB/s

ソフトウェア構成#

推論エンジンの選択：純粋な CPU 推論のため、Ollama を推論エンジンとして使用することにしました。
モデルの選択：Qwen2.5-0.5b モデルの Q4 量子化バージョンを選択しました。モデルサイズは 400MB 未満で、1GB メモリに適しています。

モデルのインストールと実行#

curl -fsSL https://ollama.com/install.sh | sh

ollama run qwen2.5:0.5b

対話を行う#

>>> hello, who are you?
私は Qwen です。Alibaba Cloud によって開発された AI 言語モデルです。私はインターネットからの数百万の自然言語処理 (NLP) の例を使用して訓練されており、私の応答は高度なニューラルネットワークアルゴリズムを通じて生成されます。私の主な目標は、テキスト生成、要約、質問応答などのタスクを支援することです。質問がある場合やトピックについてさらに明確にしたい場合は、気軽に聞いてください！

対話を終了するには、/bye と入力してください。

>>> /bye

パフォーマンステスト#

テストスクリプトのダウンロード

wget https://github.com/Yoosu-L/llmapibenchmark/releases/download/v1.0.1/llmapibenchmark_linux_amd64

スクリプトの権限を設定
```
chmod +x ./llmapibenchmark_linux_amd64
```

パフォーマンステストを実行

./llmapibenchmark_linux_amd64 -base_url="http://127.0.0.1:11434/v1" -concurrency=1,2,4 #optional

出力例#

################################################################################################################
                                          LLM API スループットベンチマーク
                                    https://github.com/Yoosu-L/llmapibenchmark
                                         時間：2024-12-03 03:11:48 UTC+0
################################################################################################################
入力トークン: 45
出力トークン: 512
テストモデル: qwen2.5:0.5b
レイテンシ: 0.00 ms

| 同時実行数 | 生成スループット (トークン/秒) |  プロンプトスループット (トークン/秒) | 最小 TTFT (秒) | 最大 TTFT (秒) |
|-------------|----------------------------------|-------------------------------|--------------|--------------|
|           1 |                            31.88 |                        976.60 |         0.05 |         0.05 |
|           2 |                            30.57 |                        565.40 |         0.07 |         0.16 |
|           4 |                            31.00 |                        717.96 |         0.11 |         0.25 |

アンインストール#

# Ollama サービスを停止：
sudo systemctl stop ollama

# Ollama サービスを無効化：
sudo systemctl disable ollama

# Ollama サービスファイルを削除：
sudo rm /etc/systemd/system/ollama.service

# Ollama バイナリファイルを削除：
sudo rm /usr/local/bin/ollama
# sudo rm /usr/bin/ollama
# sudo rm /bin/ollama

宣言#

本チュートリアルは娯楽目的のみであり、0.5b の LLM は生産要件を満たすことが難しく、推論時に大量の CPU およびメモリ帯域幅を消費し、隣人の体験に影響を与える可能性があります~~削除された鶏~~。