Avec le développement rapide des grands modèles linguistiques et des technologies d'IA générative, les services d'inférence IA sont en train de devenir le cœur de métier du cloud computing et des centres de données. Cet article prend pour exemple un projet de mise à niveau de la plateforme d'inférence IA d'une entreprise Internet afin d'illustrer l'application pratique de la carte d'extension Retimer PCIe 5.0 LRSV9501-2E dans des scénarios d'extension de stockage de serveurs IA, offrant ainsi une référence aux entreprises confrontées à des défis d'infrastructure similaires.
Une entreprise du secteur de l'Internet exploite des assistants IA et des plateformes de service client intelligentes destinées aux particuliers. Face à la croissance rapide du nombre d'utilisateurs, les demandes d'inférence IA de la plateforme ont explosé, ce qui impose des exigences accrues en matière de performances et d'évolutivité de l'infrastructure sous-jacente.
1. Goulot d'étranglement au niveau des performances de stockage
Les services d'inférence IA nécessitent un chargement rapide de fichiers de modèles volumineux (un seul modèle pouvant atteindre plusieurs dizaines de Go) ainsi qu'un accès efficace aux bases de données vectorielles pendant l'inférence. Les serveurs d'origine utilisaient des SSD NVMe PCIe 4.0. Bien que les performances fussent déjà excellentes, dans des scénarios à forte concurrence, la latence d'accès au stockage est devenue un goulot d'étranglement du système, affectant la vitesse de réponse de l'inférence.
2. Capacité de stockage insuffisante
La plateforme doit déployer plusieurs versions différentes de modèles d'IA pour prendre en charge les tests A/B et les déploiements progressifs. Compte tenu des bases de données vectorielles et des données de journaux, la capacité de stockage requise pour un seul serveur dépasse les 10 To. Les serveurs 2U standard disposent d'un nombre limité de baies de disques et ne peuvent pas répondre aux besoins d'extension de capacité.
3. Contraintes d'espace au niveau du châssis
L'entreprise utilise des serveurs standardisés montés en rack 2U comme nœuds d'inférence IA, chacun étant équipé de 4 GPU. L'espace interne du châssis est déjà occupé par les GPU et les blocs d'alimentation, ne laissant qu'un seul emplacement d'extension PCIe. Les solutions traditionnelles d'extension de stockage ne sont pas applicables.
4. Problèmes d'intégrité du signal
L'entreprise prévoit d'installer certains périphériques de stockage en externe et de les relier par câble afin de pallier les contraintes d'espace au sein du châssis. Cependant, les signaux PCIe 5.0 s'affaiblissent considérablement lors des transmissions à haut débit, ce qui nécessite des solutions d'amélioration du signal pour garantir la stabilité de la connexion.
Conception de solutions
À l'issue de l'évaluation technique, le modèle LRSV9501-2E a été retenu(Cliquez ici pour acheter) Une carte d'extension MCIO Retimer à double port PCIe 5.0 x16 a été choisie comme solution d'extension de stockage. Associée à des fonds de panier d'extension SSD NVMe externes et à des SSD NVMe PCIe 5.0, elle a permis de mettre en place une architecture de stockage haute performance et haute capacité.
Points forts de l'architecture du système :
Carte LRSV9501-2E installée dans le slot PCIe 5.0 x16 du serveur, configurée en mode de bifurcation 4x4 voies
Raccordé à un fond de panier d'extension SSD NVMe externe via deux câbles MCIO 8i
Carte d'extension équipée de 8 SSD NVMe PCIe 5.0 (4 SSD par câble MCIO)
La puce de resynchronisation garantit l'intégrité du signal PCIe 5.0 lors des transmissions sur de longues distances
En mode de bifurcation 4x4, les 16 voies PCIe 5.0 sont réparties en quatre liaisons x4. Chaque liaison x4 est connectée à deux SSD NVMe (via une commutation par fond de panier), ce qui permet d'exploiter pleinement la bande passante PCIe. Les avantages de cette configuration sont les suivants :
Haute densité de périphériques : une seule carte d'extension permet de connecter jusqu'à 8 SSD NVMe, ce qui améliore considérablement la densité de stockage
Performances équilibrées : chaque SSD bénéficie d'une bande passante PCIe 5.0 x4 (environ 16 Go/s), répondant ainsi aux exigences de haute performance
Extension flexible : le nombre d'appareils connectés peut être adapté en fonction des besoins sans avoir à remplacer le matériel
Procédez au déploiement complet du matériel en suivant les étapes suivantes :
Étape 1 : Éteignez le serveur, débranchez les câbles d'alimentation et prenez les précautions antistatiques nécessaires
Étape 2 : Ouvrez le châssis et repérez le slot d'extension PCIe 5.0 x16 disponible
Étape 3 : Installez la carte d'extension LRSV9501-2E en choisissant des supports 2U ou 3U en fonction de la hauteur du châssis
Étape 4 : Installez le fond de panier d'extension SSD NVMe externe dans le rack
Étape 5 : Connectez la carte d'extension au fond de panier externe à l'aide de câbles MCIO 8i
Étape 6 : Installer 8 SSD NVMe PCIe 5.0 sur le fond de panier
Étape 7 : Refermez le châssis, branchez l'alimentation et mettez l'appareil sous tension pour lancer l'autotest
Accédez à l'interface de configuration du BIOS du serveur et réglez le mode de répartition des voies du slot PCIe sur 4x4. Une fois la configuration enregistrée et le redémarrage effectué, le système détecte 8 SSD NVMe indépendants.
Utilisez l'outil fio pour tester le stockage | performances du système | Les résultats sont les suivants |
Lecture séquentielle sur un seul disque | 12,8 Go/s | une amélioration d'environ deux fois |
Écriture séquentielle sur un seul disque | 10,2 Go/s | une amélioration d'environ deux fois |
Écriture séquentielle sur un seul disque | 48 Go/s | une amélioration d'environ 4 fois |
IOPS en lecture aléatoire 4K | 2 400 000 | une amélioration d'environ trois fois |
Effets et avantages de l'application
Suite à la mise à niveau du système de stockage, les vitesses de chargement des fichiers de modèles d'IA volumineux se sont considérablement améliorées. Prenons l'exemple d'un modèle linguistique de grande envergure comptant 70 milliards de paramètres : son temps de chargement a été nettement réduit. Cela a permis de raccourcir considérablement les délais de changement de modèle et de redémarrage des services, améliorant ainsi l'efficacité opérationnelle de la plateforme.
La vitesse d'interrogation de la base de données vectorielle a une incidence directe sur le temps de réponse de l'inférence IA. La mise à niveau du système de stockage a permis de réduire la latence de récupération des vecteurs, qui est passée d'une moyenne de 15 ms à 5 ms, raccourcissant ainsi le temps de réponse de l'inférence de bout en bout d'environ 30 % et améliorant considérablement l'expérience utilisateur.
La capacité de stockage par serveur a considérablement augmenté, répondant ainsi aux besoins liés au déploiement de modèles multi-versions et au stockage de mégadonnées. La conception du fond de panier d'extension externe permet également une extension future.
La fonction « Retimer » du LRSV9501-2E garantit l'intégrité du signal PCIe 5.0 lors de la transmission via des câbles MCIO. Le contrôle de la qualité du signal après mise en œuvre a révélé une baisse des taux d'erreurs sur les bits, ce qui répond aux normes de fiabilité de niveau entreprise.
Synthèse et partage d'expériences
La valeur pratique du LRSV9501-2E dans les scénarios d'extension de stockage des serveurs d'IA a été vérifiée avec succès. Voici un résumé des principaux enseignements tirés :
1. Exploiter pleinement la bande passante PCIe 5.0
L'augmentation de la bande passante offerte par le PCIe 5.0 ouvre de nouvelles perspectives en matière d'extension de stockage. Grâce à une configuration judicieuse de la répartition des voies, une seule carte d'extension peut connecter plusieurs SSD haute performance, permettant ainsi une évolutivité linéaire des performances de stockage.
2. Le retimer résout les problèmes d'intégrité du signal
Le principal défi lié à l'extension du stockage externe réside dans l'intégrité du signal. La puce de retiming Broadcom BCM85657 intégrée au LRSV9501-2E résout efficacement les problèmes d'atténuation du signal PCIe 5.0, rendant ainsi possibles les connexions externes.
3. Facilité d'utilisation de l'interface MCIO
La solution de connexion par câble MCIO permet de surmonter les contraintes d'espace au niveau du châssis, de sorte que l'extension du stockage n'est plus limitée par l'espace disponible à l'intérieur du serveur.
4. Une expérience de déploiement « Plug-and-Play »
En tant que périphérique transparent au niveau du protocole, le LRSV9501-2E ne nécessite aucun pilote spécifique et fonctionne en mode « plug-and-play » aussi bien sur les systèmes CentOS que sur Ubuntu, ce qui réduit considérablement les délais de déploiement.
Sur la base de l'expérience acquise lors de la mise en œuvre de ce projet, le LRSV9501-2E peut également s'appliquer aux cas similaires suivants :
Plates-formes d'entraînement pour grands modèles : offrent des capacités de chargement de données à haut débit pour les nœuds d'entraînement sur GPU, réduisant ainsi le temps de prétraitement des données
Systèmes de recommandation en temps réel : prise en charge de la recherche de vecteurs de caractéristiques à forte concurrence, améliorant ainsi la vitesse de réponse du service de recommandation
Services de traitement vidéo : fournir des capacités d'accès au stockage à haut débit pour le transcodage et l'analyse vidéo
Clusters de calcul scientifique : prennent en charge la lecture et l'écriture à haut débit de jeux de données volumineux, accélérant ainsi les tâches de simulation et de modélisation
Extension de mémoire CXL : connectez des modules d'extension de mémoire CXL pour créer des pools de mémoire de grande capacité destinés aux applications gourmandes en mémoire
La carte d'extension Retimer PCIe 5.0 LRSV9501-2E offre une solution d'extension de stockage hautement performante et fiable pour la plateforme d'inférence IA des entreprises Internet. Grâce à la bande passante haut débit du PCIe 5.0 et aux capacités d'amélioration du signal du Retimer, l'entreprise a multiplié par plusieurs fois les performances de stockage tout en surmontant les contraintes d'espace au niveau du châssis. Pour les entreprises qui construisent ou mettent à niveau leur infrastructure d'IA, la LRSV9501-2E offre une solution d'extension de signal à haut débit qui allie performances, évolutivité et fiabilité. Dans le contexte actuel d'évolution rapide des technologies PCIe 5.0 et CXL, le choix d'une solution d'extension dotée de capacités de régénération de signal permettra de réserver suffisamment d'espace pour les futures mises à niveau technologiques.