人工知能(AI)の急速な発展に伴い、AIサーバーやGPUクラスターはデータセンターの中核となるコンピューティングインフラとなっています。大規模言語モデルのトレーニングからリアルタイム推論サービスに至るまで、これらのアプリケーションは、コンピューティング性能とデータスループットに対してかつてないほどの要求を突きつけています。こうした高性能システムを支える基盤アーキテクチャにおいて、高速信号伝送技術は深刻な課題に直面しています。
業界調査機関によると、世界のGPU市場は 400億ドル 2024年には、年間成長率が30%を超える見込みです。1台のAIトレーニングサーバーには8基以上の高性能GPUを搭載でき、高速相互接続を通じて統合されたコンピューティングプールを形成します。このような高密度コンピューティングアーキテクチャでは、サーバー内部のデータ伝送帯域幅と信号品質に対して極めて高い要件が課されます。
一方、ストレージシステムも変革の真っ只中にあります。従来のSATAやSASストレージでは、もはやAIワークロードのニーズを満たすことができず、NVMeプロトコルに基づく高速SSDが主流になりつつあります。新世代の CXL(Compute Express Link) この技術により、メモリ拡張とストレージの統合がさらに進み、GPUやCPUがキャッシュコヒーレントな方法でリモートメモリやストレージリソースにアクセスできるようになります。
サーバー内のデバイス間接続における主流規格として、PCI Express(PCIe)は第5世代へと進化し、成熟期を迎えています。PCIe 5.0では、レーンあたりの伝送速度が16GT/s(PCIe 4.0)から 32GT/sこれにより、レーンあたりの帯域幅が2倍になります。x16構成のグラフィックスカードやネットワークアダプタの場合、理論上の双方向帯域幅は 128GB/s.
しかし、伝送速度の向上は、新たな技術的課題ももたらします:
· 信号減衰: 高速信号は、PCBの配線やコネクタを通過する際に損失が生じ、周波数が高くなるほど減衰が顕著になります。PCIe 5.0の信号はPCIe 4.0に比べて有効伝送距離が短いため、より厳密な配線設計が求められます。
· シグナル・インテグリティ: 高速信号はクロストーク、反射、ノイズの影響を受けやすく、これらがデータ伝送エラーを引き起こしたり、システムの安定性を低下させたりする可能性があります。
· タイミングマージン: データ転送速度が向上すると、タイミングの許容範囲が狭まるため、クロックの同期や信号エッジの精度に対してより厳しい要件が課される。
高速信号伝送における課題に対処するため、 リタイマー 新たな技術が登場しました。リタイマーとは、高速信号経路に配置される信号再生装置であり、減衰した信号を検出し、復元・再タイミング処理を行うことで、有効伝送距離を延伸し、信号の完全性を向上させます。
単純な信号増幅器(リドライバ)とは異なり、リタイマは以下のメカニズムを通じて信号の再生を行います:
· 信号等化: 高周波の減衰を補正し、信号振幅を回復させます。
· クロックおよびデータ復旧(CDR): 入力信号からクロックを抽出し、ジッタを除去します。
· 信号のリタイミング: 復元されたクロックを使用して、クリーンなデータ信号を再生成します。
· プロトコルの透明性: データの内容を解析せず、上位層プロトコルに対して完全に透過的である。
AIサーバーやハイエンドストレージシステムにおいて、リタイマーチップは、信頼性の高い高速信号伝送を保証する重要なコンポーネントとなっています。これらは、GPUとCPU間の相互接続や、NVMe SSDの拡張接続において、不可欠な役割を果たしています。
CXL(Compute Express Link)は、PCIe 5.0の物理層をベースとしつつ、より豊富な機能を備えた新しい高速相互接続プロトコルです。CXL 2.0規格では、以下の3つのプロトコルがサポートされています:
· CXL.io: デバイスの検出および設定のためのPCIeプロトコルに対応しています。
· CXL.cache: デバイスのキャッシュコヒーレンスをサポートしており、デバイスがCPUキャッシュを共有できるようにします。
· CXLメモリ: メモリセマンティックアクセスをサポートしており、デバイスがシステムメモリに直接アクセスできるようになります。
CXLテクノロジーの核心的な価値は、従来のアーキテクチャにおけるCPUメモリのボトルネックを解消し、GPUやFPGAなどのアクセラレータが、キャッシュコヒーレントな方法で大容量のメモリプールにアクセスできるようにすることにあります。これは、膨大なメモリを必要とするAIトレーニングやビッグデータアプリケーションにとって極めて重要です。
MCIO(Mini Cool Edge IO) 次世代のPCIeおよびCXLアプリケーション向けに設計された、コンパクトで高速なコネクタ規格です。MCIOには次のような利点があります:
· 高密度: より狭いスペースで、より多くの信号チャンネルに対応します。
· 信号品質の向上: ピン配置とシールド設計を最適化することで、クロストークを低減します。
· ケーブル接続: ケーブルによる外部デバイスの接続に対応しており、筐体のスペース制限を解消します。
大規模なAIモデルのトレーニングには、数百台、場合によっては数千台ものGPUの連携が必要です。高速相互接続により、GPU間での勾配データやモデルパラメータの低遅延かつ高帯域幅でのやり取りが実現されます。リタイマー技術は、複雑なバックプレーンや長距離ケーブルを通じた信号の完全性を保証します。
科学計算、シミュレーション、遺伝子配列解析などのHPCアプリケーションは、メモリ帯域幅と容量に対して極めて高い要求を課します。CXLメモリ拡張とリタイマーによる信号強化を組み合わせることで、大容量かつ高帯域幅のメモリプールを構築し、計算タスクを高速化することができます。
クラウドゲーミングサーバーは、1台の物理マシン上で複数のGPUインスタンスを仮想化し、さまざまなユーザーにリアルタイムのレンダリングサービスを提供します。低遅延のゲーム体験を実現するには、高速なストレージおよびメモリアクセスが不可欠です。
標準サーバーをベースとしたソフトウェア定義ストレージ(SDS)ソリューションでは、多数のNVMe SSDを接続する必要があります。PCIe 5.0リタイマー拡張カードを使用することで、高密度なSSD拡張が可能となり、高性能なストレージプールを構築できます。
ますます複雑化する高速相互接続の要件に直面する中、システム設計者は以下の要素を考慮すべきです:
· 伝送距離:リタイマによる補正が必要かどうかを判断するために、信号が伝送される物理的な距離を評価する。
· 車線構成: デバイスの要件に応じて、適切なPCIe分岐モード(x16/x8/x4)を選択してください。
· プロトコルのサポート: CXLプロトコルのサポートが必要かどうか、およびCXLの具体的な機能要件を確認してください。
· 熱設計: 高速リタイマーチップは消費電力が比較的大きいため、適切な放熱対策が必要です。
· 互換性確認: 拡張カードがマザーボード、オペレーティングシステム、および対象デバイスと互換性があることを確認してください。
AI時代の到来は、データセンターのアーキテクチャ設計を一新しつつあります。PCIe 5.0による高速伝送、リタイマー技術による信号再生、CXLプロトコルによるメモリ拡張など、これらの技術はいずれもAIコンピューティングの可能性を引き出すことを支えています。
AIインフラの構築を計画している企業にとって、これらの基盤技術の原理や適用シナリオを理解することは、より合理的な技術選定を行い、高性能かつ高信頼性のコンピューティングプラットフォームを構築する上で役立ちます。
Linkreal(LR-LINK)は、サーバーおよびデータセンターの接続ソリューションを専門とする国家ハイテク企業です。 同社の製品ラインナップには、イーサネットネットワークアダプタ、ストレージ拡張カード、GPU拡張ソリューションなどが含まれます。PCIe 5.0およびCXL技術の発展動向に歩調を合わせ、AIサーバー、ハイパフォーマンスコンピューティング、ソフトウェア定義ストレージ(SDS)などのアプリケーションシナリオ向けに、高速信号拡張ソリューションを提供しています。