Mit der rasanten Entwicklung des Trainings großer KI-Modelle, des Hochleistungsrechnens und des Cloud-Computing hat der Bedarf von Unternehmen an GPU-Rechenleistung und Speicherleistung für Server einen explosionsartigen Anstieg verzeichnet. Herkömmliche Serverarchitekturen weisen jedoch zahlreiche Engpässe bei der Erweiterbarkeit auf, wie beispielsweise eine begrenzte Anzahl an PCIe-Steckplätzen, Schwierigkeiten bei der Ausbalancierung des Einsatzes von GPUs und SSDs sowie mangelnde Flexibilität bei Erweiterungslösungen. Diese Probleme haben die geschäftliche Innovation stark eingeschränkt. In diesem Artikel werden diese Schwachstellen der Branche eingehend analysiert und aufgezeigt, wie LR-LINK LRSV9500-4I bietet Unternehmen eine Komplettlösung für die Erweiterung durch flexible X4/X8/X16-Verzweigungsmodi.
I. Erheblicher Mangel an PCIe-Steckplatzressourcen
1.1 Aktuelle Lage
Moderne Server-Motherboards verfügen in der Regel nur über 4 bis 8 PCIe-Steckplätze, die gleichzeitig die Anforderungen verschiedener Peripheriegeräte wie Netzwerkkarten, GPUs, NVMe-SSDs und RAID-Karten erfüllen müssen. In KI-Trainingsszenarien benötigt ein einzelner Server unter Umständen 4 bis 8 GPU-Grafikkarten sowie Hochgeschwindigkeitsspeichergeräte, wodurch die Anzahl der PCIe-Steckplätze oft die größte Einschränkung darstellt.
1.2 Auswirkungen auf das Geschäft
Es ist schwierig, GPU und SSD gleichzeitig einzusetzen, und es müssen Kompromisse zwischen Rechenleistung und Speicherplatz eingegangen werden
Unternehmen müssen mehr Server anschaffen, was zu einem erheblichen Anstieg der Gesamtbetriebskosten führt
Der Platz im Schrank ist schnell erschöpft, was zu einer geringen Auslastung der Ressourcen in Rechenzentren führt
1.3 Lösung LRSV9500-4I
Basierend auf dem Broadcom PEX89048 PCIe-Switch-Chip erweitert der LRSV9500-4I einen einzelnen PCIe-GEN-5.0-x16-Steckplatz auf 4 MCIO-8I-Schnittstellen. Er kann 8 NVMe-SSDs im X4-Modus und 2 High-End-GPU-Grafikkarten im X16-Modus anschließen. Dabei wird nur ein PCIe-Steckplatz belegt, was eine Verbesserung der Erweiterungs-Effizienz um 800 % bedeutet.
KI-Trainingsszenarien stellen extrem hohe Anforderungen sowohl an GPUs als auch an Hochgeschwindigkeitsspeicher. GPUs müssen riesige Datenmengen verarbeiten, während die Bandbreite und die IOPS herkömmlicher SAS-/SATA-Speicher diesen Anforderungen nicht gerecht werden können. Sind jedoch die PCIe-Steckplätze auf dem Motherboard bereits mit GPUs belegt, stehen nicht genügend Schnittstellen für den Einsatz von NVMe-SSD-Arrays zur Verfügung.
· Beim Training großer Modelle liegt die Auslastung der GPU-Rechenleistung in der Regel unter der Spitzenleistung. So beträgt die Auslastung beispielsweise in einem Cluster mit 1000 GPUs etwa 59 % und in einem Cluster mit 10.000 GPUs etwa 55,2 %.
· Das Einlesen der Trainingsdaten wird zu einem limitierenden Faktor, was zu längeren Modelliterationszyklen führt
Im X8-Hybridmodus kann der LRSV9500-4I sowohl GPUs als auch NVMe-SSDs gleichzeitig unterstützen. Beispielsweise werden 2×X8 für den Anschluss von GPUs verwendet, während die verbleibenden 2×X8 an 2 NVMe-SSDs als lokaler Cache angeschlossen werden. Auf diese Weise können GPUs Daten direkt aus dem lokalen Hochgeschwindigkeitsspeicher lesen, wodurch die Trainingseffizienz um das 3- bis 5-fache gesteigert wird.
Die Signalrate des PCIe-5.0-Standards erreicht 32 GT/s. Diese doppelte Geschwindigkeit stellt extrem hohe Anforderungen an die Signalintegrität, um die Genauigkeit und Effizienz der Datenübertragung zu gewährleisten. Bei der Übertragung über große Entfernungen führen minderwertige Kabel oder Steckverbinder zu Signaldämpfung und einer erhöhten Bitfehlerrate; in schweren Fällen können Geräte nicht erkannt werden oder es kommt zu häufigen Verbindungsabbrüchen.
· Wird während des GPU-Trainings eine Grafikkarte abgezogen, gehen die Rechenergebnisse mehrerer Tage verloren
· Speichergeräte laufen mit reduzierter Geschwindigkeit, von PCIe 5.0 auf 4.0 oder sogar 3.0 herunter
· Es kommt zu Systeminstabilität und Bluescreens, was die Geschäftskontinuität beeinträchtigt
Das LRSV9500-4I verfügt über ein hochwertiges Leiterplattendesign, hochwertige Anschlüsse und Signaloptimierungstechnologie, um einen stabilen Betrieb von PCIe 5.0 bei voller Übertragungsrate zu gewährleisten. Die PCIe 5.0-Technologie bietet sequenzielle Lese- und Schreibgeschwindigkeiten von bis zu 14.000 MB/s und optimale Leistung bei korrekter Konfiguration. Die MCIO-Schnittstelle sorgt für eine zuverlässige physikalische Verbindung und kann in Verbindung mit zertifizierten Kabeln die Bitfehlerrate effektiv reduzieren und einen stabilen Betrieb rund um die Uhr gewährleisten.
In Trainingsszenarien mit mehreren GPUs wirkt sich die Verbindungstopologie zwischen den GPUs direkt auf die Trainingseffizienz aus. Herkömmliche Lösungen stützen sich auf die von der CPU bereitgestellten PCIe-Kanäle, und die Kommunikation zwischen mehreren Karten muss über die CPU laufen, was zu einer begrenzten Bandbreite und hohen Latenz führt.
· Die Effizienz des verteilten Trainings ist aufgrund unzureichender Kommunikationsbandbreite zwischen den GPUs gering
· Bei der groß angelegten Cluster-Erweiterung treten Schwierigkeiten auf
Im X16-Modus ermöglicht der LRSV9500-4I den GPUs eine effiziente P2P-Kommunikation über den Switch, wodurch die Effizienz des Trainings mit mehreren Grafikkarten effektiv gesteigert wird.
Bei hostübergreifenden Clustern können GPUs mithilfe von Netzwerkkarten, die RoCE v2 (RDMA over Converged Ethernet) unterstützen, die CPU umgehen und Daten über den Netzwerkadapter direkt in den Grafikspeicher entfernter GPUs schreiben. Mehrere Server sind direkt miteinander verbunden, um eine gemeinsame Speichernutzung und einen schnellen Datenaustausch zu ermöglichen.
Die Herausforderungen bei der Erweiterung von Server-GPUs und Speicherkapazitäten liegen im Wesentlichen im Widerspruch zwischen begrenzten Ressourcen und unbegrenztem Bedarf. Dank PCIe-Switch-Technologie und flexiblen X4/X8/X16-Bifurkationsmodi bietet der LRSV9500-4I Unternehmen einen effizienten Lösungsansatz. Ob für KI-Training, Hochleistungsrechnen, Big-Data-Analysen oder Videoproduktion, LRSV9500-4I bietet hervorragende Erweiterungsmöglichkeiten und Investitionssicherheit.
Als Flaggschiffprodukt von LR-LINK im Bereich PCIe 5.0 entwickelt sich der LRSV9500-4I dank der führenden Leistungsfähigkeit des Broadcom PEX89048-Chips und der umfassenden Unterstützung durch das Ökosystem zur bevorzugten Erweiterungslösung für den Aufbau von KI-Servern und Rechenzentren. Wer sich für den LRSV9500-4I entscheidet, entscheidet sich für eine flexible, effiziente und zukunftsorientierte Erweiterungsarchitektur.