Avec le développement rapide de l'intelligence artificielle, les serveurs IA et les clusters de GPU sont devenus l'infrastructure informatique centrale des centres de données. Qu'il s'agisse de l'entraînement de grands modèles linguistiques ou de services d'inférence en temps réel, ces applications imposent des exigences sans précédent en matière de performances de calcul et de débit de données. Au niveau de l'architecture sous-jacente qui soutient ces systèmes haute performance, les technologies de transmission de signaux à haut débit sont confrontées à de sérieux défis.
Selon les instituts d'études du secteur, le marché mondial des GPU a dépassé 40 milliards de dollars en 2024, avec un taux de croissance annuel supérieur à 30 %. Un seul serveur de formation en IA peut intégrer au moins huit GPU haute performance, formant ainsi un pool de calcul unifié grâce à une interconnexion à haut débit. Une telle architecture de calcul haute densité impose des exigences extrêmement élevées en matière de bande passante de transmission des données et de qualité du signal à l'intérieur du serveur.
Parallèlement, les systèmes de stockage connaissent eux aussi une transformation. Les solutions de stockage SATA et SAS traditionnelles ne suffisent plus à répondre aux besoins des charges de travail liées à l'IA, et les SSD haute vitesse basés sur le protocole NVMe s'imposent désormais comme la norme. La nouvelle génération CXL (Compute Express Link) Cette technologie améliore encore l'extension de la mémoire et la convergence du stockage, permettant ainsi aux GPU et aux CPU d'accéder à des ressources de mémoire et de stockage distantes tout en préservant la cohérence du cache.
En tant que norme dominante pour l'interconnexion interne des composants dans les serveurs, le PCI Express (PCIe) en est désormais à sa 5e génération et a atteint sa maturité. Le PCIe 5.0 porte le débit de transmission par voie de 16 GT/s (PCIe 4.0) à 32 Gt/s, doublant ainsi la bande passante par voie. Pour les cartes graphiques ou les cartes réseau en configuration x16, la bande passante bidirectionnelle théorique peut atteindre 128 Go/s.
Cependant, des taux de transmission plus élevés posent également de nouveaux défis techniques :
· Atténuation du signal: Les signaux à haute vitesse subissent des pertes lorsqu'ils sont transmis par les pistes des circuits imprimés et les connecteurs ; l'atténuation s'aggrave à mesure que la fréquence augmente. Les signaux PCIe 5.0 ont une distance de transmission effective plus courte que ceux du PCIe 4.0, ce qui exige une conception du routage plus rigoureuse.
· Intégrité du signal: Les signaux à haut débit sont plus sensibles à la diaphonie, aux réflexions et au bruit, ce qui peut entraîner des erreurs de transmission des données et nuire à la stabilité du système.
· Marge de synchronisation: Des débits de données plus élevés impliquent des fenêtres de synchronisation plus étroites, ce qui impose des exigences plus strictes en matière de synchronisation d'horloge et de précision des fronts de signal.
Pour relever les défis liés à la transmission de signaux à haut débit, Retimer Une nouvelle technologie a vu le jour. Un « retimer » est un dispositif de régénération de signal placé sur le trajet des signaux à haut débit, qui détecte, récupère et resynchronise les signaux affaiblis afin d'étendre la distance de transmission effective et d'améliorer l'intégrité du signal.
Contrairement aux simples amplificateurs de signal (redrivers), les retimers assurent la régénération du signal grâce aux mécanismes suivants :
· Égalisation du signal: Compense l'atténuation des hautes fréquences et rétablit l'amplitude du signal.
· Récupération de l'horloge et des données (CDR): Extrait l'horloge du signal d'entrée afin d'éliminer la gigue.
· Réglage de la synchronisation du signal: Régénère des signaux de données propres à l'aide de l'horloge récupérée.
· Transparence des protocoles: N'analyse pas le contenu des données et est totalement transparent pour les protocoles de couches supérieures.
Dans les serveurs d'IA et les systèmes de stockage haut de gamme, les puces de resynchronisation sont devenues des composants essentiels garantissant une transmission fiable des signaux à haut débit. Elles jouent un rôle indispensable dans l'interconnexion entre les GPU et les CPU, ainsi que dans les connexions étendues pour les SSD NVMe.
Le CXL (Compute Express Link) est un nouveau protocole d'interconnexion haut débit basé sur la couche physique PCIe 5.0, mais doté de fonctionnalités plus avancées. La norme CXL 2.0 prend en charge trois protocoles :
· CXL.io: Compatible avec les protocoles PCIe pour la détection et la configuration des périphériques.
· CXL.cache: Prend en charge la cohérence du cache des périphériques, ce qui permet à ces derniers de partager le cache du processeur.
· Mémoire CXL: Prend en charge l'accès sémantique à la mémoire, ce qui permet aux appareils d'accéder directement à la mémoire système.
La valeur fondamentale de la technologie CXL réside dans sa capacité à éliminer le goulot d'étranglement de la mémoire du processeur dans les architectures traditionnelles, permettant ainsi aux accélérateurs tels que les GPU et les FPGA d'accéder à des pools de mémoire de grande capacité de manière cohérente avec le cache. Cela est essentiel pour l'entraînement des modèles d'IA et les applications de mégadonnées qui nécessitent d'énormes capacités de mémoire.
MCIO (Mini Cool Edge IO) est une norme de connecteurs compacts à haut débit conçue pour les applications PCIe et CXL de nouvelle génération. Le MCIO offre les avantages suivants :
· Une densité plus élevée: Prend en charge davantage de canaux de signal dans un espace plus réduit.
· Une meilleure intégrité du signal: La disposition optimisée des broches et la conception du blindage réduisent la diaphonie.
· Raccordement par câble: Permet de connecter des périphériques externes via des câbles, ce qui permet de contourner les contraintes d'espace du châssis.
L'entraînement de grands modèles d'IA nécessite la collaboration de centaines, voire de milliers de GPU. Une interconnexion haut débit assure un échange à faible latence et à large bande passante des données de gradient et des paramètres de modèle entre les GPU. La technologie de resynchronisation garantit l'intégrité du signal à travers des fonds de panier complexes et des câbles longue distance.
Les applications HPC telles que le calcul scientifique, la simulation et le séquençage génétique imposent des exigences extrêmement élevées en matière de bande passante et de capacité mémoire. L'extension de mémoire CXL, associée à l'optimisation du signal par un retimer, permet de créer des pools de mémoire à grande capacité et à large bande passante afin d'accélérer les tâches de calcul.
Les serveurs de jeux en cloud virtualisent plusieurs instances GPU sur une seule machine physique afin de fournir des services de rendu en temps réel à différents utilisateurs. Un accès rapide au stockage et à la mémoire est essentiel pour garantir une expérience de jeu à faible latence.
Les solutions de stockage défini par logiciel (SDS) basées sur des serveurs standard doivent pouvoir connecter un grand nombre de SSD NVMe. Les cartes d'extension Retimer PCIe 5.0 permettent une extension haute densité des SSD afin de créer des pools de stockage hautement performants.
Face à des exigences de plus en plus complexes en matière d'interconnexions à haut débit, les concepteurs de systèmes doivent tenir compte des facteurs suivants :
· Portée de transmission: Évaluez la distance physique que les signaux doivent parcourir afin de déterminer si une amélioration par retimer est nécessaire.
· Configuration des voies: Sélectionnez les modes de répartition PCIe appropriés (x16/x8/x4) en fonction des exigences du périphérique.
· Prise en charge des protocoles: Vérifiez si la prise en charge du protocole CXL est nécessaire et identifiez les exigences fonctionnelles spécifiques du CXL.
· Conception thermique: Les puces de retiming à haute vitesse ont une consommation électrique relativement élevée et nécessitent des solutions thermiques adaptées.
· Vérification de la compatibilité: Assurez-vous que la carte d'extension est compatible avec les cartes mères, les systèmes d'exploitation et les appareils cibles.
L'avènement de l'ère de l'IA est en train de redéfinir la conception de l'architecture des centres de données. De la transmission à haut débit du PCIe 5.0 à la régénération du signal grâce à la technologie Retimer, en passant par l'extension de mémoire du protocole CXL, chacune de ces technologies contribue à libérer le potentiel de calcul de l'IA.
Pour les entreprises qui planifient la mise en place d'une infrastructure d'IA, la compréhension des principes et des cas d'utilisation de ces technologies sous-jacentes permet de faire des choix technologiques plus judicieux et de mettre en place des plateformes informatiques hautement performantes et fiables.
Linkreal (LR-LINK) est une entreprise nationale de haute technologie spécialisée dans les solutions de connectivité pour serveurs et centres de données. Sa gamme de produits comprend des adaptateurs réseau Ethernet, des cartes d'extension de stockage, des solutions d'extension GPU, etc. En phase avec les tendances de développement des technologies PCIe 5.0 et CXL, l'entreprise fournit des solutions d'extension de signaux à haut débit pour les serveurs d'IA, le calcul haute performance, le stockage défini par logiciel et d'autres scénarios d'application.