ブラックフライデーに 1C1G の AMD Ryzen 9 7950X VPS を購入しました。LLM を少し遊ぶことができます。このような VPS 上で LLM を迅速にインストールして実行する方法を記録します。
ハードウェア構成#
---------------------基本情報の照会--すべてのオープンソースプロジェクトに感謝---------------------
CPU モデル : AMD Ryzen 9 7950X 16-Core Processor
CPU コア数 : 1
CPU 周波数 : 4491.540 MHz
CPU キャッシュ : L1: 64.00 KB / L2: 512.00 KB / L3: 16.00 MB
AES-NI命令セット : ✔ 有効
VM-x/AMD-Vサポート : ✔ 有効
メモリ : 90.74 MiB / 960.70 MiB
スワップ : 0 KiB / 2.00 MiB
ハードディスクスペース : 1.12 GiB / 14.66 GiB
----------------------CPUテスト--sysbenchテストに合格-------------------------
-> CPU テスト中 (ファストモード, 1-パス @ 5秒)
1 スレッドテスト(単核)スコア: 6402 スコア
---------------------メモリテスト--lemonbenchオープンソースに感謝-----------------------
-> メモリテスト (ファストモード, 1-パス @ 5秒)
単スレッド読み取りテスト: 75694.60 MB/s
単スレッド書き込みテスト: 42458.49 MB/s
ソフトウェア構成#
- 推論エンジンの選択:純粋な CPU 推論のため、Ollama を推論エンジンとして使用することにしました。
- モデルの選択:Qwen2.5-0.5b モデルの Q4 量子化バージョンを選択しました。モデルサイズは 400MB 未満で、1GB メモリに適しています。
モデルのインストールと実行#
curl -fsSL https://ollama.com/install.sh | sh
ollama run qwen2.5:0.5b
対話を行う#
>>> hello, who are you?
私は Qwen です。Alibaba Cloud によって開発された AI 言語モデルです。私はインターネットからの数百万の自然言語処理 (NLP) の例を使用して訓練されており、私の応答は高度なニューラルネットワークアルゴリズムを通じて生成されます。私の主な目標は、テキスト生成、要約、質問応答などのタスクを支援することです。質問がある場合やトピックについてさらに明確にしたい場合は、気軽に聞いてください!
対話を終了するには、/bye
と入力してください。
>>> /bye
パフォーマンステスト#
-
テストスクリプトのダウンロード
wget https://github.com/Yoosu-L/llmapibenchmark/releases/download/v1.0.1/llmapibenchmark_linux_amd64
-
スクリプトの権限を設定
chmod +x ./llmapibenchmark_linux_amd64
-
パフォーマンステストを実行
./llmapibenchmark_linux_amd64 -base_url="http://127.0.0.1:11434/v1" -concurrency=1,2,4 #optional
出力例#
################################################################################################################
LLM API スループットベンチマーク
https://github.com/Yoosu-L/llmapibenchmark
時間:2024-12-03 03:11:48 UTC+0
################################################################################################################
入力トークン: 45
出力トークン: 512
テストモデル: qwen2.5:0.5b
レイテンシ: 0.00 ms
| 同時実行数 | 生成スループット (トークン/秒) | プロンプトスループット (トークン/秒) | 最小 TTFT (秒) | 最大 TTFT (秒) |
|-------------|----------------------------------|-------------------------------|--------------|--------------|
| 1 | 31.88 | 976.60 | 0.05 | 0.05 |
| 2 | 30.57 | 565.40 | 0.07 | 0.16 |
| 4 | 31.00 | 717.96 | 0.11 | 0.25 |
アンインストール#
# Ollama サービスを停止:
sudo systemctl stop ollama
# Ollama サービスを無効化:
sudo systemctl disable ollama
# Ollama サービスファイルを削除:
sudo rm /etc/systemd/system/ollama.service
# Ollama バイナリファイルを削除:
sudo rm /usr/local/bin/ollama
# sudo rm /usr/bin/ollama
# sudo rm /bin/ollama
宣言#
本チュートリアルは娯楽目的のみであり、0.5b の LLM は生産要件を満たすことが難しく、推論時に大量の CPU およびメモリ帯域幅を消費し、隣人の体験に影響を与える可能性があります削除された鶏。