Con el rápido desarrollo de grandes modelos de lenguaje y tecnologías de IA generativa, los servicios de inferencia de IA se están convirtiendo en el negocio principal de la computación en nube y los centros de datos. Este artículo toma como ejemplo un proyecto de actualización de la plataforma de inferencia de IA de una empresa de Internet para demostrar la aplicación práctica de la tarjeta de expansión LRSV9501-2E PCIe 5.0 Retimer en escenarios de expansión de almacenamiento de servidores de IA, proporcionando una referencia para las empresas que se enfrentan a retos de infraestructura similares.
Una empresa de Internet gestiona un asistente de IA y plataformas inteligentes de atención al cliente para usuarios finales. Con el rápido crecimiento de los usuarios, las solicitudes de inferencia de IA de la plataforma se han disparado, lo que ha aumentado la demanda de rendimiento y escalabilidad de la infraestructura subyacente.
1. Cuello de botella en el rendimiento del almacenamiento
Los servicios de inferencia de IA requieren una carga rápida de archivos de modelos de gran tamaño (un solo modelo puede alcanzar decenas de GB) y un acceso eficiente a las bases de datos vectoriales durante la inferencia. Los servidores originales utilizaban SSD PCIe 4.0 NVMe. Aunque el rendimiento ya era excelente, en escenarios de alta concurrencia, la latencia de acceso al almacenamiento se convirtió en un cuello de botella del sistema, afectando a la velocidad de respuesta de la inferencia.
2. Capacidad de almacenamiento insuficiente
La plataforma necesita desplegar múltiples versiones diferentes de modelos de IA para soportar pruebas A/B y lanzamientos grises. Combinada con las bases de datos vectoriales y los datos de registro, la necesidad de capacidad de almacenamiento de una sola máquina supera los 10 TB. Los servidores estándar de 2U tienen bahías de unidad limitadas y no pueden satisfacer las necesidades de ampliación de capacidad.
3. Limitaciones de espacio en el chasis
La empresa utiliza servidores estandarizados montados en bastidores de 2U como nodos de inferencia de IA, cada uno de ellos equipado con 4 GPU. El espacio interno del chasis ya está ocupado por las GPU y las fuentes de alimentación, por lo que sólo queda 1 ranura de expansión PCIe. Las soluciones tradicionales de ampliación del almacenamiento no son aplicables.
4. Problemas de integridad de la señal
La empresa tiene previsto colocar algunos dispositivos de almacenamiento en el exterior y conectarlos mediante cables para superar las limitaciones de espacio del chasis. Sin embargo, las señales PCIe 5.0 se atenúan gravemente durante la transmisión a alta velocidad, lo que requiere soluciones de mejora de la señal para garantizar la estabilidad de la conexión.
Diseño de soluciones
La evaluación técnica seleccionó el LRSV9501-2E(Haga clic para comprar) Tarjeta de expansión PCIe 5.0 x16 MCIO Retimer de doble puerto como solución de ampliación del almacenamiento. Combinada con placas base de expansión de SSD NVMe externas y SSD PCIe 5.0 NVMe, se construyó una arquitectura de almacenamiento de alto rendimiento y gran capacidad.
Arquitectura del sistema:
LRSV9501-2E instalado en la ranura PCIe 5.0 x16 del servidor, configurado en modo de bifurcación de 4x4 carriles.
Conectado a la placa base de expansión de SSD NVMe externa mediante dos cables MCIO 8i
Placa base expansora instalada con 8 SSD PCIe 5.0 NVMe (4 SSD por cable MCIO)
El chip Retimer garantiza la integridad de la señal PCIe 5.0 durante la transmisión a larga distancia
Mediante el modo de bifurcación de carriles 4x4, los 16 carriles PCIe 5.0 se dividen en cuatro enlaces x4. Cada enlace x4 se conecta a dos SSD NVMe (a través de la conmutación de backplane), aprovechando al máximo el ancho de banda PCIe. Las ventajas de esta configuración son:
Alta densidad de dispositivos: Una sola tarjeta de expansión admite la conexión de 8 SSD NVMe, lo que mejora significativamente la densidad de almacenamiento.
Rendimiento equilibrado: Cada SSD recibe un ancho de banda x4 PCIe 5.0 (aproximadamente 16 GB/s), lo que satisface los requisitos de alto rendimiento.
Ampliación flexible: El número de dispositivos conectados puede ajustarse en función de la demanda sin necesidad de sustituir el hardware
Complete el despliegue del hardware de acuerdo con los siguientes pasos:
Paso 1: Apague el servidor, desconecte los cables de alimentación y tome precauciones antiestáticas.
Paso 2: Abra el chasis y localice la ranura de expansión PCIe 5.0 x16 disponible.
Paso 3: Instale la tarjeta de expansión LRSV9501-2E, seleccionando los soportes 2U o 3U en función de la altura del chasis.
Paso 4: Instale la placa base de expansión SSD NVMe externa en el bastidor
Paso 5: Conectar la tarjeta de expansión a la placa base externa mediante cables MCIO 8i
Paso 6: Instalar 8 unidades SSD PCIe 5.0 NVMe en el backplane
Paso 7: Cierre el chasis, conecte la alimentación y enciéndalo para el autotest.
Acceda a la interfaz de configuración de la BIOS del servidor y configure el modo de bifurcación de carriles de ranura PCIe en 4x4. Tras guardar la configuración y reiniciar, el sistema reconoce 8 SSD NVMe independientes.
Utilice la herramienta fio para probar el almacenamiento | rendimiento del sistema | Los resultados son los siguientes |
Lectura secuencial de una sola unidad | 12,8 GB/s | mejora de aproximadamente 2 veces |
Escritura secuencial de una sola unidad | 10,2 GB/s | mejora de aproximadamente 2 veces |
Escritura secuencial de una sola unidad | 48 GB/s | mejora de aproximadamente 4 veces |
4K IOPS de lectura aleatoria | 2,400K | mejora de aproximadamente 3 veces |
Efectos y beneficios de la aplicación
Tras la actualización del almacenamiento, la velocidad de carga de archivos de modelos de IA de gran tamaño mejoró notablemente. Tomando como ejemplo un modelo de lenguaje de gran tamaño con 70B parámetros, el tiempo de carga mejoró sustancialmente. Esto acortó enormemente los tiempos de cambio de modelo y de reinicio del servicio, mejorando la eficiencia operativa de la plataforma.
La velocidad de consulta de la base de datos vectorial afecta directamente al tiempo de respuesta de la inferencia de IA. El sistema de almacenamiento actualizado redujo la latencia de recuperación de vectores de una media de 15 ms a 5 ms, lo que acortó el tiempo de respuesta de inferencia de extremo a extremo en aproximadamente un 30% y mejoró notablemente la experiencia del usuario.
La capacidad de almacenamiento de un solo servidor aumentó significativamente, satisfaciendo las necesidades de implantación de modelos multiversión y de almacenamiento de big data. El diseño de la placa base de expansión externa también permite futuras ampliaciones.
La función Retimer del LRSV9501-2E garantiza la integridad de la señal PCIe 5.0 cuando se transmite a través de cables MCIO. La monitorización de la calidad de la señal posterior a la implementación mostró una reducción de las tasas de error de bits, cumpliendo los estándares de fiabilidad de nivel empresarial.
Resumen e intercambio de experiencias
Se ha comprobado con éxito el valor práctico de LRSV9501-2E en escenarios de ampliación de almacenamiento de servidores de IA. A continuación se resumen las principales experiencias:
1. Aprovechar al máximo el ancho de banda de PCIe 5.0
La mejora del ancho de banda de PCIe 5.0 ofrece nuevas posibilidades de ampliación del almacenamiento. Mediante una configuración razonable de bifurcación de carriles, una sola tarjeta de expansión puede conectar varias unidades SSD de alto rendimiento, con lo que se consigue un escalado lineal del rendimiento del almacenamiento.
2. El reestimulador resuelve los problemas de integridad de la señal
El mayor reto de la ampliación del almacenamiento externo es la integridad de la señal. El chip Broadcom BCM85657 Retimer integrado en el LRSV9501-2E resuelve eficazmente los problemas de atenuación de la señal PCIe 5.0, haciendo posibles las conexiones externas.
3. Comodidad de la interfaz MCIO
La solución de conexión por cable MCIO rompe con las limitaciones de espacio del chasis, haciendo que la expansión del almacenamiento ya no esté limitada por el espacio interno del servidor.
4. Experiencia de despliegue Plug and Play
Como dispositivo transparente al protocolo, el LRSV9501-2E no requiere controladores dedicados y consigue plug-and-play tanto en sistemas CentOS como Ubuntu, lo que acorta significativamente los ciclos de implantación.
Basándose en la experiencia de ejecución de este proyecto, la LRSV9501-2E también puede aplicarse a las siguientes situaciones similares:
Grandes plataformas de entrenamiento de modelos: Proporcionan capacidades de carga de datos a alta velocidad para los nodos de entrenamiento de la GPU, acortando el tiempo de preprocesamiento de datos.
Sistemas de recomendación en tiempo real: Soporta la recuperación de vectores de características de alta concurrencia, mejorando la velocidad de respuesta del servicio de recomendación.
Servicios de procesamiento de vídeo: Proporcionan capacidades de acceso a almacenamiento de alto rendimiento para transcodificación y análisis de vídeo.
Clústeres de computación científica: Admiten la lectura/escritura a alta velocidad de conjuntos de datos a gran escala, lo que acelera las tareas de simulación y modelado.
Expansión de memoria CXL: Conecte los módulos de expansión de memoria CXL para disponer de grupos de memoria de gran capacidad para aplicaciones de uso intensivo de memoria.
La tarjeta de expansión LRSV9501-2E PCIe 5.0 Retimer proporciona una solución de ampliación del almacenamiento de alto rendimiento y gran fiabilidad para la plataforma de inferencia de IA de la empresa de Internet. Gracias al ancho de banda de alta velocidad de PCIe 5.0 y a las capacidades de mejora de la señal del Retimer, la empresa ha conseguido multiplicar varias veces el rendimiento del almacenamiento y superar las limitaciones de espacio del chasis. Para las empresas que construyen o actualizan su infraestructura de IA, el LRSV9501-2E proporciona una solución de expansión de señal de alta velocidad que equilibra el rendimiento, la escalabilidad y la fiabilidad. Con las tecnologías PCIe 5.0 y CXL en rápida evolución de hoy en día, la elección de una solución de expansión con capacidad de regeneración de señales reservará un amplio espacio para futuras actualizaciones tecnológicas.