Mit der rasanten Entwicklung großer Sprachmodelle und generativer KI-Technologien entwickeln sich KI-Inferenzdienste zum Kerngeschäft des Cloud-Computing und der Rechenzentren. Dieser Artikel nimmt ein Projekt zur Aufrüstung einer KI-Inferenzplattform eines Internetunternehmens als Beispiel, um die praktische Anwendung der LRSV9501-2E PCIe 5.0 Retimer-Erweiterungskarte in Szenarien zur Speichererweiterung von KI-Servern zu veranschaulichen und bietet damit eine Referenz für Unternehmen, die vor ähnlichen infrastrukturellen Herausforderungen stehen.
Ein Internetunternehmen betreibt KI-Assistenten und intelligente Kundenservice-Plattformen für Endnutzer. Angesichts des rasanten Nutzerwachstums ist die Zahl der KI-Abfragen auf der Plattform explosionsartig angestiegen, was höhere Anforderungen an die Leistung und Skalierbarkeit der zugrunde liegenden Infrastruktur stellt.
1. Leistungsengpass beim Speicher
KI-Inferenzdienste erfordern das schnelle Laden großer Modelldateien (ein einzelnes Modell kann mehrere Dutzend GB umfassen) sowie einen effizienten Zugriff auf Vektordatenbanken während der Inferenz. Die ursprünglichen Server verwendeten PCIe 4.0 NVMe-SSDs. Obwohl die Leistung bereits hervorragend war, wurde die Latenz beim Speicherzugriff in Szenarien mit hoher Parallelität zu einem Systemengpass, der die Reaktionsgeschwindigkeit der Inferenz beeinträchtigte.
2. Unzureichende Speicherkapazität
Die Plattform muss mehrere verschiedene Versionen von KI-Modellen bereitstellen, um A/B-Tests und Gray Releases zu unterstützen. In Kombination mit Vektordatenbanken und Protokolldaten übersteigt der Speicherplatzbedarf pro Server 10 TB. Standardmäßige 2U-Server verfügen nur über eine begrenzte Anzahl an Laufwerksschächten und können den Anforderungen an die Kapazitätserweiterung nicht gerecht werden.
3. Platzbeschränkungen im Fahrgestell
Das Unternehmen nutzt standardisierte 2U-Rack-Server als KI-Inferenzknoten, die jeweils mit vier GPUs ausgestattet sind. Der Platz im Gehäuse ist bereits durch die GPUs und Netzteile belegt, sodass nur ein PCIe-Erweiterungssteckplatz frei bleibt. Herkömmliche Lösungen zur Speichererweiterung kommen daher nicht in Frage.
4. Probleme mit der Signalintegrität
Das Unternehmen plant, einige Speichergeräte extern unterzubringen und über Kabel anzuschließen, um die Platzbeschränkungen im Gehäuse zu überwinden. Allerdings kommt es bei der Hochgeschwindigkeitsübertragung zu einer starken Abschwächung der PCIe-5.0-Signale, sodass Lösungen zur Signalverbesserung erforderlich sind, um eine stabile Verbindung zu gewährleisten.
Lösungsentwurf
Nach einer technischen Bewertung fiel die Wahl auf das Modell LRSV9501-2E(Zum Kauf hier klicken) Eine PCIe 5.0 x16-MCIO-Retimer-Erweiterungskarte mit zwei Anschlüssen als Speichererweiterungslösung. In Kombination mit externen NVMe-SSD-Erweiterungsbackplanes und PCIe 5.0-NVMe-SSDs wurde eine leistungsstarke Speicherarchitektur mit hoher Kapazität aufgebaut.
Highlights der Systemarchitektur:
LRSV9501-2E, installiert im PCIe 5.0 x16-Steckplatz des Servers, konfiguriert im 4x4-Lane-Bifurkationsmodus
Anschluss an die externe NVMe-SSD-Erweiterungsbackplane über zwei MCIO-8i-Kabel
Expander-Backplane mit 8 PCIe 5.0 NVMe-SSDs (4 SSDs pro MCIO-Kabel)
Der Retimer-Chip gewährleistet die Signalintegrität von PCIe 5.0 bei der Übertragung über große Entfernungen
Im 4x4-Lane-Bifurcation-Modus werden 16 PCIe-5.0-Lanes in vier x4-Verbindungen aufgeteilt. Jede x4-Verbindung ist (über Backplane-Switching) mit zwei NVMe-SSDs verbunden, wodurch die PCIe-Bandbreite voll ausgeschöpft wird. Die Vorteile dieser Konfiguration sind:
Hohe Gerätedichte: Eine einzige Erweiterungskarte ermöglicht den Anschluss von 8 NVMe-SSDs, wodurch die Speicherdichte erheblich verbessert wird
Ausgewogene Leistung: Jede SSD verfügt über eine x4-PCIe-5.0-Bandbreite (ca. 16 GB/s) und erfüllt damit hohe Leistungsanforderungen
Flexible Erweiterung: Die Anzahl der angeschlossenen Geräte kann je nach Bedarf angepasst werden, ohne dass ein Austausch der Hardware erforderlich ist
Führen Sie die Hardware-Bereitstellung gemäß den folgenden Schritten durch:
Schritt 1: Schalten Sie den Server aus, ziehen Sie die Netzkabel ab und treffen Sie Maßnahmen zum Schutz vor elektrostatischer Entladung
Schritt 2: Öffnen Sie das Gehäuse und suchen Sie den freien PCIe 5.0 x16-Erweiterungssteckplatz
Schritt 3: Installieren Sie die Erweiterungskarte LRSV9501-2E und wählen Sie je nach Gehäusehöhe zwischen 2U- und 3U-Halterungen.
Schritt 4: Installieren Sie die externe NVMe-SSD-Erweiterungsplatine im Rack
Schritt 5: Schließen Sie die Erweiterungskarte über MCIO-8i-Kabel an die externe Backplane an
Schritt 6: 8 PCIe 5.0 NVMe-SSDs in die Backplane einbauen
Schritt 7: Schließen Sie das Gehäuse, schließen Sie die Stromversorgung an und schalten Sie das Gerät für den Selbsttest ein
Rufen Sie das BIOS-Setup des Servers auf und stellen Sie den PCIe-Slot-Lane-Bifurkationsmodus auf 4x4 ein. Nach dem Speichern der Konfiguration und einem Neustart erkennt das System 8 unabhängige NVMe-SSDs.
Verwenden Sie das Tool „fio“, um den Speicher zu testen | Systemleistung | Die Ergebnisse lauten wie folgt |
Sequentielles Lesen von einem Laufwerk | 12,8 GB/s | eine etwa zweifache Verbesserung |
Sequentielles Schreiben auf ein Laufwerk | 10,2 GB/s | eine etwa zweifache Verbesserung |
Sequentielles Schreiben auf ein Laufwerk | 48 GB/s | eine etwa vierfache Verbesserung |
4K-IOPS beim zufälligen Lesen | 2.400.000 | eine etwa dreifache Verbesserung |
Anwendungsbereiche und Vorteile
Nach der Speichererweiterung haben sich die Ladezeiten für große KI-Modelldateien deutlich verbessert. Am Beispiel eines großen Sprachmodells mit 70 Milliarden Parametern hat sich die Ladezeit erheblich verkürzt. Dies führte zu einer deutlichen Verkürzung der Zeiten für den Modellwechsel und den Neustart der Dienste und verbesserte somit die Betriebseffizienz der Plattform.
Die Abfragegeschwindigkeit der Vektordatenbank wirkt sich direkt auf die Reaktionszeit der KI-Inferenz aus. Durch das modernisierte Speichersystem konnte die Latenz beim Abrufen von Vektoren von durchschnittlich 15 ms auf 5 ms gesenkt werden, wodurch sich die End-to-End-Reaktionszeit der Inferenz um etwa 30 % verkürzte und das Benutzererlebnis deutlich verbessert wurde.
Die Speicherkapazität eines einzelnen Servers wurde deutlich erhöht, wodurch die Anforderungen an die Bereitstellung von Modellen mit mehreren Versionen und an die Speicherung von Big Data erfüllt werden. Das Design der externen Erweiterungs-Backplane ermöglicht zudem eine zukünftige Erweiterung.
Die Retimer-Funktion des LRSV9501-2E gewährleistet die Signalintegrität von PCIe 5.0 bei der Übertragung über MCIO-Kabel. Die Überwachung der Signalqualität nach der Implementierung ergab geringere Bitfehlerraten, wodurch die Zuverlässigkeitsstandards für den Unternehmensbereich erfüllt wurden.
Zusammenfassung und Erfahrungsaustausch
Der praktische Nutzen des LRSV9501-2E bei der Speichererweiterung von KI-Servern wurde erfolgreich bestätigt. Nachfolgend sind die wichtigsten Erkenntnisse zusammengefasst:
1. Die Bandbreite von PCIe 5.0 voll ausschöpfen
Die verbesserte Bandbreite von PCIe 5.0 eröffnet neue Möglichkeiten für die Speichererweiterung. Durch eine sinnvolle Konfiguration der Lane-Aufteilung kann eine einzige Erweiterungskarte mehrere Hochleistungs-SSDs anschließen und so eine lineare Skalierung der Speicherleistung erzielen.
2. Retimer löst Probleme mit der Signalintegrität
Die größte Herausforderung bei der Erweiterung externer Speicherkapazitäten ist die Signalintegrität. Der im LRSV9501-2E integrierte Retimer-Chip BCM85657 von Broadcom löst Probleme mit der Signaldämpfung bei PCIe 5.0 auf effektive Weise und ermöglicht so externe Verbindungen.
3. Benutzerfreundlichkeit der MCIO-Schnittstelle
Die MCIO-Kabelverbindungslösung überwindet Platzbeschränkungen im Gehäuse, sodass die Speichererweiterung nicht mehr durch den internen Serverplatz begrenzt ist.
4. Plug-and-Play-Bereitstellung
Als protokolltransparentes Gerät benötigt das LRSV9501-2E keine speziellen Treiber und ist sowohl auf CentOS- als auch auf Ubuntu-Systemen sofort einsatzbereit, was die Bereitstellungszyklen erheblich verkürzt.
Aufgrund der Erfahrungen bei der Umsetzung dieses Projekts hat die LRSV9501-2E kann auch auf folgende ähnliche Szenarien angewendet werden:
Plattformen für das Training großer Modelle: Bieten Funktionen zum schnellen Laden von Daten für GPU-Trainingsknoten und verkürzen so die Zeit für die Datenvorverarbeitung
Echtzeit-Empfehlungssysteme: Unterstützung der Abfrage von Merkmalsvektoren bei hoher Parallelität zur Verbesserung der Reaktionsgeschwindigkeit des Empfehlungsdienstes
Videoverarbeitungsdienste: Bereitstellung von Speicherzugriffsfunktionen mit hohem Durchsatz für die Videotranskodierung und -analyse
Cluster für wissenschaftliches Rechnen: Unterstützen das schnelle Lesen und Schreiben großer Datensätze und beschleunigen damit Simulations- und Modellierungsaufgaben
CXL-Speichererweiterung: Schließen Sie CXL-Speichererweiterungsmodule an, um Speicherpools mit großer Kapazität für speicherintensive Anwendungen bereitzustellen
Die PCIe 5.0-Retimer-Erweiterungskarte LRSV9501-2E bietet eine leistungsstarke und äußerst zuverlässige Speichererweiterungslösung für die KI-Inferenzplattform des Internetunternehmens. Dank der hohen Bandbreite von PCIe 5.0 und der Signalverbesserungsfunktionen des Retimers konnte das Unternehmen die Speicherleistung um ein Vielfaches steigern und gleichzeitig die Platzbeschränkungen im Gehäuse überwinden. Für Unternehmen, die eine KI-Infrastruktur aufbauen oder aufrüsten, bietet die LRSV9501-2E eine Hochgeschwindigkeits-Signalerweiterungslösung, die Leistung, Skalierbarkeit und Zuverlässigkeit in Einklang bringt. Angesichts der sich rasch weiterentwickelnden PCIe 5.0- und CXL-Technologien sichert die Wahl einer Erweiterungslösung mit Signalregenerationsfunktionen ausreichend Spielraum für zukünftige Technologie-Upgrades.