Con el rápido desarrollo de la formación de grandes modelos de IA, la computación de alto rendimiento y la computación en la nube, la demanda de potencia de cálculo y rendimiento de almacenamiento de las GPU de servidor por parte de las empresas ha mostrado una tendencia de crecimiento explosiva. Sin embargo, las arquitecturas de servidor tradicionales tienen muchos cuellos de botella en las capacidades de expansión, como las limitadas ranuras PCIe, la dificultad para equilibrar la implementación de GPU y SSD, y la falta de flexibilidad en las soluciones de expansión. Estos problemas han restringido gravemente la innovación empresarial. Este documento analizará en profundidad estos puntos débiles de la industria y demostrará cómo LR-LINK LRSV9500-4I ofrece a las empresas una solución de ampliación integral mediante modos de bifurcación X4/X8/X16 flexibles.
I. Grave escasez de recursos de ranuras PCIe
1.1 Situación actual
Las placas base de los servidores modernos suelen proporcionar solo de 4 a 8 ranuras PCIe, que deben satisfacer al mismo tiempo los requisitos de varios periféricos, como tarjetas de red, GPU, SSD NVMe y tarjetas RAID. En los escenarios de formación de IA, un único servidor puede necesitar de 4 a 8 tarjetas gráficas GPU, además de dispositivos de almacenamiento de alta velocidad, por lo que el número de ranuras PCIe suele ser la mayor limitación.
1.2 Impacto en las empresas
Es difícil implantar GPU y SSD al mismo tiempo, y hay que hacer concesiones entre potencia de cálculo y almacenamiento.
Las empresas tienen que comprar más servidores, lo que supone un aumento significativo del coste total de propiedad.
El espacio de los armarios se agota rápidamente, lo que provoca una baja utilización de los recursos de los centros de datos.
1.3 Solución LRSV9500-4I
Basado en el chip Broadcom PEX89048 PCIe Switch, el LRSV9500-4I amplía una única ranura PCIe GEN 5.0 x16 en 4 interfaces MCIO 8I. Puede conectar 8 SSD NVMe en modo X4 y 2 tarjetas gráficas GPU de gama alta en modo X16. Solo ocupa una ranura PCIe, con lo que se consigue una mejora del 800% en la eficiencia de la expansión.
Los escenarios de entrenamiento de IA tienen requisitos extremadamente altos tanto para la GPU como para el almacenamiento de alta velocidad. Las GPU necesitan procesar cantidades ingentes de datos, mientras que el ancho de banda y las IOPS del almacenamiento SAS/SATA tradicional no pueden satisfacer la demanda. Sin embargo, una vez que las ranuras PCIe de la placa base están ocupadas por las GPU, no hay suficientes interfaces para implantar matrices de SSD NVMe.
· Durante el entrenamiento de grandes modelos, la tasa de utilización de la potencia de cálculo de la GPU suele ser inferior a la potencia de cálculo máxima. Por ejemplo, la tasa de utilización es del 59% en un cluster de 1000 GPUs y del 55,2% en un cluster de 10000 GPUs.
· La lectura de los datos de entrenamiento se convierte en un factor restrictivo, lo que lleva a ciclos de iteración del modelo más largos
A través del modo híbrido X8, el LRSV9500-4I puede soportar GPU y SSD NVMe al mismo tiempo. Por ejemplo, se utiliza 2×X8 para conectar las GPU y el 2×X8 restante se conecta a 2 SSD NVMe como caché local. De este modo, las GPU pueden leer los datos directamente desde el almacenamiento local de alta velocidad, lo que mejora la eficiencia del entrenamiento entre 3 y 5 veces.
La velocidad de señal del estándar PCIe 5.0 alcanza los 32GT/s. Esta velocidad duplicada implica unos requisitos extremadamente estrictos de integridad de la señal para garantizar la precisión y eficacia de la transmisión de datos. Las transmisiones a larga distancia y los cables o conectores de calidad inferior provocarán una atenuación de la señal y un aumento de la tasa de errores de bits y, en casos graves, la imposibilidad de identificar los equipos o su desconexión frecuente.
· En el proceso de entrenamiento de la GPU, si se desconecta una tarjeta, se perderán días de resultados de cálculo.
· Los dispositivos de almacenamiento funcionan a velocidad reducida, de PCIe 5.0 a 4.0 o incluso 3.0.
· Se produce inestabilidad del sistema y pantalla azul de la muerte, lo que afecta a la continuidad de la actividad.
La LRSV9500-4I adopta un diseño de PCB de alta especificación, conectores de alta calidad y tecnología de optimización de señales para garantizar el funcionamiento estable de PCIe 5.0 a pleno rendimiento. La tecnología PCIe 5.0 puede proporcionar velocidades de lectura y escritura secuenciales de hasta 14.000 MB/s y un rendimiento óptimo con una configuración correcta. La interfaz MCIO proporciona una conexión física fiable y, con cables certificados, puede reducir eficazmente la tasa de errores de bits y garantizar un funcionamiento estable 7×24 horas.
En los escenarios de entrenamiento multi-GPU, la topología de interconexión entre GPU afecta directamente a la eficiencia del entrenamiento. Las soluciones tradicionales dependen de los canales PCIe proporcionados por la CPU, y la comunicación entre varias tarjetas tiene que pasar por la CPU, lo que provoca un ancho de banda limitado y una alta latencia.
· La eficiencia del entrenamiento distribuido es baja debido al insuficiente ancho de banda de comunicación entre GPUs
· La expansión de las agrupaciones a gran escala plantea dificultades
En el modo X16, el LRSV9500-4I permite a las GPU lograr una comunicación P2P eficiente a través del Switch, lo que mejora eficazmente la eficiencia del entrenamiento multitarjeta.
En el caso de los clusters multihost, con la ayuda de tarjetas de red compatibles con RoCE v2 (RDMA sobre Ethernet convergente), las GPU pueden eludir la CPU y escribir directamente los datos en la memoria de vídeo de las GPU remotas a través del adaptador de red. Varios servidores se interconectan directamente para lograr el uso compartido de la memoria y el intercambio de datos a alta velocidad.
Los puntos débiles de la expansión de la GPU de servidor y el almacenamiento son esencialmente la contradicción entre recursos limitados y demanda ilimitada. A través de la tecnología PCIe Switch y los modos flexibles de bifurcación X4/X8/X16, LRSV9500-4I proporciona a las empresas una ruta de solución eficiente. Ya sea para formación en IA, computación de alto rendimiento, análisis de big data o producción de vídeo, LRSV9500-4I pueden ofrecer una excelente capacidad de expansión y protección de la inversión.
Como producto estrella de LR-LINK en el campo de PCIe 5.0, LRSV9500-4I, basándose en el rendimiento líder del chip Broadcom PEX89048 y el perfecto soporte del ecosistema, se está convirtiendo en la solución de expansión preferida para la construcción de servidores de IA y centros de datos. Elegir LRSV9500-4I significa elegir una arquitectura de expansión flexible, eficiente y orientada al futuro.