大規模言語モデルや生成AI技術の急速な発展に伴い、AI推論サービスはクラウドコンピューティングやデータセンターの中核事業となりつつあります。 本記事では、あるインターネット企業のAI推論プラットフォームのアップグレードプロジェクトを事例として、AIサーバーのストレージ拡張シナリオにおけるLRSV9501-2E PCIe 5.0リタイマー拡張カードの実用的な活用例を紹介し、同様のインフラ課題に直面している企業への参考となる情報を提供します。
あるインターネット企業は、一般消費者向けのAIアシスタントおよびインテリジェントカスタマーサービスプラットフォームを運営しています。ユーザー数の急増に伴い、プラットフォームへのAI推論リクエストが爆発的に増加し、基盤となるインフラのパフォーマンスとスケーラビリティに対する要求が高まっています。
1. ストレージのパフォーマンスのボトルネック
AI推論サービスでは、大規模なモデルファイル(1つのモデルで数十GBに達することもある)の高速な読み込みと、推論中のベクトルデータベースへの効率的なアクセスが求められます。 当初のサーバーではPCIe 4.0 NVMe SSDが使用されていました。パフォーマンスはすでに優れていましたが、高同時実行環境下では、ストレージへのアクセス遅延がシステムのボトルネックとなり、推論の応答速度に影響を及ぼしていました。
2. ストレージ容量の不足
このプラットフォームでは、A/Bテストや段階的リリースをサポートするために、複数の異なるバージョンのAIモデルを展開する必要があります。ベクトルデータベースやログデータと組み合わせると、単一サーバーのストレージ容量要件は10TBを超えます。標準的な2Uサーバーはドライブベイの数が限られているため、容量拡張のニーズを満たすことができません。
3. シャーシのスペース制約
同社では、標準的な2Uラックマウント型サーバーをAI推論ノードとして採用しており、各サーバーには4基のGPUが搭載されている。シャーシ内部のスペースはすでにGPUと電源ユニットで埋まっており、利用可能なPCIe拡張スロットは1つしかない。従来のストレージ拡張ソリューションは適用できない。
4. シグナル・インテグリティの問題
同社は、シャーシのスペース制限を解消するため、一部のストレージデバイスを外部に配置し、ケーブルで接続する計画だ。しかし、PCIe 5.0の信号は高速伝送時に著しく減衰するため、接続の安定性を確保するには信号増幅ソリューションが必要となる。
ソリューション設計
技術評価の結果、LRSV9501-2Eが選定されました(クリックして購入) ストレージ拡張ソリューションとして、PCIe 5.0 x16 デュアルポート MCIO リタイマー拡張カードを採用しました。外部 NVMe SSD 拡張バックプレーンおよび PCIe 5.0 NVMe SSD と組み合わせることで、高性能かつ大容量のストレージアーキテクチャを構築しました。
システムアーキテクチャの主な特徴:
LRSV9501-2EをサーバーのPCIe 5.0 x16スロットに装着し、4x4レーン分岐モードで構成
2本のMCIO 8iケーブルを介して、外部NVMe SSD拡張バックプレーンに接続
8台のPCIe 5.0 NVMe SSDを搭載したエキスパンダー・バックプレーン(MCIOケーブル1本あたり4台のSSD)
リタイマーチップは、長距離伝送時のPCIe 5.0の信号品質を確保します
4x4レーン分岐モードを使用することで、16本のPCIe 5.0レーンが4つのx4リンクに分割されます。各x4リンクは(バックプレーンスイッチングを介して)2台のNVMe SSDに接続され、PCIeの帯域幅を最大限に活用します。この構成の利点は以下の通りです:
高いデバイス密度:1枚の拡張カードで最大8台のNVMe SSDを接続でき、ストレージ密度を大幅に向上させます
バランスのとれたパフォーマンス:各SSDにはx4 PCIe 5.0の帯域幅(約16GB/s)が割り当てられ、高いパフォーマンス要件を満たします
柔軟な拡張性:ハードウェアの交換を行うことなく、需要に応じて接続するデバイスの数を調整できます
以下の手順に従って、ハードウェアの導入を完了してください:
手順 1:サーバーの電源を切り、電源ケーブルを取り外し、静電気対策を講じてください
手順 2:シャーシを開き、利用可能な PCIe 5.0 x16 拡張スロットを確認します
手順 3:LRSV9501-2E 拡張カードを取り付けます。シャーシの高さに応じて、2U または 3U のブラケットを選択してください。
手順 4:ラックに外付け NVMe SSD 拡張バックプレーンを取り付ける
手順 5:MCIO 8i ケーブルを使用して、拡張カードを外部バックプレーンに接続します
手順 6:バックプレーンに PCIe 5.0 NVMe SSD を 8 台取り付ける
手順 7:シャーシを閉じ、電源を接続し、電源を入れてセルフテストを実行します
サーバーのBIOSセットアップ画面に入り、PCIeスロットのレーン分割モードを「4x4」に設定します。設定を保存して再起動すると、システムは8台の独立したNVMe SSDを認識します。
fio ツールを使用してストレージをテストする | システムのパフォーマンス | 結果は以下の通りです |
シングルドライブの順次読み取り | 12.8 GB/s | 約2倍の向上 |
シングルドライブの順次書き込み | 10.2 GB/s | 約2倍の向上 |
シングルドライブの順次書き込み | 48 GB/s | 約4倍の向上 |
4Kランダム読み取りIOPS | 2,400K | 約3倍の向上 |
用途と効果・メリット
ストレージのアップグレード後、大規模AIモデルのファイル読み込み速度が大幅に向上しました。例えば、パラメータ数700億の大規模言語モデルを例にとると、読み込み時間が大幅に短縮されました。これにより、モデルの切り替えやサービスの再起動にかかる時間が大幅に短縮され、プラットフォームの運用効率が向上しました。
ベクトルデータベースのクエリ速度は、AI推論の応答時間に直接影響します。ストレージシステムのアップグレードにより、ベクトル検索のレイテンシが平均15ミリ秒から5ミリ秒に短縮され、エンドツーエンドの推論応答時間が約30%短縮され、ユーザー体験が大幅に向上しました。
単一サーバーのストレージ容量が大幅に増加し、マルチバージョンモデルの導入やビッグデータの保存ニーズに対応できるようになりました。また、外部拡張バックプレーン設計により、将来的なさらなる拡張も可能となっています。
LRSV9501-2Eのレティマー機能により、MCIOケーブルを介して伝送される際のPCIe 5.0の信号整合性が確保されます。実装後の信号品質モニタリングの結果、ビットエラー率が低減し、エンタープライズグレードの信頼性基準を満たしていることが確認されました。
まとめと経験の共有
AIサーバーのストレージ拡張シナリオにおけるLRSV9501-2Eの実用的な価値は、すでに実証されています。主な経験のまとめは以下の通りです:
1. PCIe 5.0の帯域幅を最大限に活用する
PCIe 5.0による帯域幅の向上は、ストレージ拡張に新たな可能性をもたらします。適切なレーン分割構成により、1枚の拡張カードで複数の高性能SSDを接続でき、ストレージ性能の線形的な拡張を実現します。
2. Retimerが信号整合性の問題を解決
外部ストレージの拡張における最大の課題は、信号の完全性です。LRSV9501-2Eに内蔵されたBroadcom BCM85657リタイマーチップは、PCIe 5.0の信号減衰の問題を効果的に解決し、外部接続を可能にします。
3. MCIOインターフェースの利便性
MCIOケーブル接続ソリューションは、シャーシのスペース制限を解消し、ストレージの拡張がサーバー内部のスペースによって制約されることがなくなります。
4. プラグアンドプレイによる導入体験
LRSV9501-2Eはプロトコル透過型デバイスであるため、専用のドライバを必要とせず、CentOSおよびUbuntuシステムの両方でプラグアンドプレイを実現し、導入サイクルを大幅に短縮します。
本プロジェクトの実施経験に基づき、 LRSV9501-2E また、次のような類似のシナリオにも適用できます:
大規模モデル学習プラットフォーム:GPU学習ノード向けに高速なデータ読み込み機能を提供し、データ前処理時間を短縮します
リアルタイム推薦システム:高同時接続環境での特徴ベクトル検索に対応し、推薦サービスの応答速度を向上
映像処理サービス:映像のトランスコーディングおよび分析向けに、高スループットのストレージアクセス機能を提供します
科学計算クラスター:大規模データセットの高速な読み書きをサポートし、シミュレーションやモデリング作業を高速化します
CXLメモリ拡張:CXLメモリ拡張モジュールを接続し、メモリを大量に消費するアプリケーション向けに大容量のメモリプールを提供します
LRSV9501-2E PCIe 5.0 リタイマー拡張カードは、インターネット企業のAI推論プラットフォーム向けに、高性能かつ高信頼性のストレージ拡張ソリューションを提供します。 PCIe 5.0の高速帯域幅とリタイマーの信号強化機能により、同企業はシャーシのスペース制限を克服しつつ、ストレージ性能を数倍に向上させることができました。 AIインフラの構築やアップグレードを検討している企業にとって、LRSV9501-2Eは、パフォーマンス、スケーラビリティ、信頼性のバランスに優れた高速信号拡張ソリューションを提供します。急速に進化する今日のPCIe 5.0およびCXL技術において、信号再生機能を備えた拡張ソリューションを選択することは、将来の技術アップグレードに向けた十分な余地を確保することにつながります。