Con el rápido desarrollo de los grandes modelos de lenguaje y las tecnologías de IA generativa, los servicios de inferencia de IA se están convirtiendo en el núcleo del negocio de la computación en la nube y los centros de datos. Este artículo toma como ejemplo un proyecto de actualización de la plataforma de inferencia de IA de una empresa de Internet para demostrar la aplicación práctica de la tarjeta de expansión LRSV9501-2E PCIe 5.0 Retimer en escenarios de ampliación de almacenamiento de servidores de IA, proporcionando una referencia para las empresas que se enfrentan a retos de infraestructura similares.
Una empresa de Internet gestiona un asistente de IA y plataformas de atención al cliente inteligente para usuarios finales. Con el rápido crecimiento del número de usuarios, las solicitudes de inferencia de IA de la plataforma se han disparado, lo que ha aumentado las exigencias en cuanto al rendimiento y la escalabilidad de la infraestructura subyacente.
1. Cuello de botella en el rendimiento del almacenamiento
Los servicios de inferencia de IA requieren una carga rápida de archivos de modelos de gran tamaño (un solo modelo puede alcanzar decenas de GB) y un acceso eficiente a las bases de datos vectoriales durante la inferencia. Los servidores originales utilizaban SSD NVMe PCIe 4.0. Aunque el rendimiento ya era excelente, en escenarios de alta concurrencia, la latencia de acceso al almacenamiento se convirtió en un cuello de botella del sistema, lo que afectaba a la velocidad de respuesta de la inferencia.
2. Capacidad de almacenamiento insuficiente
La plataforma necesita implementar varias versiones diferentes de modelos de IA para dar soporte a las pruebas A/B y a los lanzamientos graduales. Si a esto le sumamos las bases de datos vectoriales y los datos de registro, la capacidad de almacenamiento requerida por cada máquina supera los 10 TB. Los servidores estándar de 2U tienen un número limitado de bahías para discos y no pueden satisfacer las necesidades de ampliación de capacidad.
3. Limitaciones de espacio en el chasis
La empresa utiliza servidores estandarizados de 2U para montaje en rack como nodos de inferencia de IA, cada uno de ellos equipado con cuatro GPU. El espacio interior del chasis ya está ocupado por las GPU y las fuentes de alimentación, por lo que solo queda una ranura de expansión PCIe. Las soluciones tradicionales de ampliación de almacenamiento no son aplicables.
4. Problemas de integridad de la señal
La empresa tiene previsto colocar algunos dispositivos de almacenamiento en el exterior y conectarlos mediante cables para superar las limitaciones de espacio del chasis. Sin embargo, las señales PCIe 5.0 se atenúan considerablemente durante la transmisión a alta velocidad, por lo que se necesitan soluciones de mejora de la señal para garantizar la estabilidad de la conexión.
Diseño de soluciones
Tras una evaluación técnica, se seleccionó el modelo LRSV9501-2E(Haz clic para comprar) Tarjeta de expansión MCIO con retimer de doble puerto PCIe 5.0 x16 como solución de ampliación de almacenamiento. En combinación con placas base de expansión SSD NVMe externas y unidades SSD NVMe PCIe 5.0, se ha creado una arquitectura de almacenamiento de alto rendimiento y gran capacidad.
Aspectos destacados de la arquitectura del sistema:
LRSV9501-2E instalado en la ranura PCIe 5.0 x16 del servidor, configurado en modo de bifurcación de 4x4 carriles
Conectado a la placa base de expansión SSD NVMe externa mediante dos cables MCIO 8i
Placa base de expansión equipada con 8 unidades SSD NVMe PCIe 5.0 (4 unidades SSD por cable MCIO)
El chip retimador garantiza la integridad de la señal PCIe 5.0 durante la transmisión a larga distancia
Mediante el modo de bifurcación de carriles 4x4, los 16 carriles PCIe 5.0 se dividen en cuatro enlaces x4. Cada enlace x4 se conecta a dos unidades SSD NVMe (mediante conmutación de placa base), lo que permite aprovechar al máximo el ancho de banda PCIe. Las ventajas de esta configuración son:
Alta densidad de dispositivos: una sola tarjeta de expansión permite conectar 8 unidades SSD NVMe, lo que mejora considerablemente la densidad de almacenamiento
Rendimiento equilibrado: cada SSD cuenta con un ancho de banda PCIe 5.0 x4 (aproximadamente 16 GB/s), lo que satisface los requisitos de alto rendimiento
Ampliación flexible: el número de dispositivos conectados se puede ajustar según las necesidades sin necesidad de sustituir el hardware
Realice la instalación del hardware siguiendo estos pasos:
Paso 1: Apague el servidor, desconecte los cables de alimentación y tome las precauciones antiestáticas necesarias
Paso 2: Abre la carcasa y localiza la ranura de expansión PCIe 5.0 x16 disponible
Paso 3: Instale la tarjeta de expansión LRSV9501-2E, eligiendo los soportes de 2U o 3U en función de la altura del chasis
Paso 4: Instalar la placa de expansión para SSD NVMe externos en el rack
Paso 5: Conecta la tarjeta de expansión a la placa base externa mediante cables MCIO 8i
Paso 6: Instalar 8 unidades SSD NVMe PCIe 5.0 en la placa base
Paso 7: Cierre el chasis, conecte la alimentación y encienda el equipo para realizar la autocomprobación
Accede a la interfaz de configuración del BIOS del servidor y configura el modo de bifurcación de carriles de la ranura PCIe en 4x4. Tras guardar la configuración y reiniciar el sistema, este reconoce 8 unidades SSD NVMe independientes.
Utiliza la herramienta fio para comprobar el almacenamiento | rendimiento del sistema | Los resultados son los siguientes |
Lectura secuencial en una sola unidad | 12,8 GB/s | una mejora de aproximadamente el doble |
Escritura secuencial en una sola unidad | 10,2 GB/s | una mejora de aproximadamente el doble |
Escritura secuencial en una sola unidad | 48 GB/s | una mejora de aproximadamente cuatro veces |
IOPS de lectura aleatoria en 4K | 2 400 000 | una mejora de aproximadamente el triple |
Efectos y ventajas de su aplicación
Tras la actualización del almacenamiento, la velocidad de carga de los archivos de modelos de IA de gran tamaño mejoró considerablemente. Tomando como ejemplo un modelo de lenguaje de 70 000 millones de parámetros, el tiempo de carga se redujo de forma significativa. Esto acortó considerablemente los tiempos de cambio de modelo y de reinicio del servicio, lo que mejoró la eficiencia operativa de la plataforma.
La velocidad de consulta de la base de datos vectorial influye directamente en el tiempo de respuesta de la inferencia de IA. El sistema de almacenamiento actualizado redujo la latencia en la recuperación de vectores de una media de 15 ms a 5 ms, lo que acortó el tiempo de respuesta de la inferencia de extremo a extremo en aproximadamente un 30 %, mejorando significativamente la experiencia del usuario.
La capacidad de almacenamiento de un solo servidor ha aumentado considerablemente, lo que permite satisfacer las necesidades de implementación de modelos con múltiples versiones y de almacenamiento de macrodatos. Además, el diseño de la placa base de expansión externa permite ampliar la capacidad en el futuro.
La función Retimer del LRSV9501-2E garantiza la integridad de la señal PCIe 5.0 cuando se transmite a través de cables MCIO. La supervisión de la calidad de la señal tras la implementación reveló una reducción de las tasas de error de bits, lo que cumple con los estándares de fiabilidad de nivel empresarial.
Resumen e intercambio de experiencias
Se ha comprobado con éxito el valor práctico del LRSV9501-2E en escenarios de ampliación del almacenamiento de servidores de IA. A continuación se resumen las principales conclusiones:
1. Aprovechar al máximo el ancho de banda de PCIe 5.0
La mejora del ancho de banda de PCIe 5.0 abre nuevas posibilidades para la ampliación del almacenamiento. Mediante una configuración adecuada de la bifurcación de carriles, una sola tarjeta de expansión puede conectar varios SSD de alto rendimiento, lo que permite un aumento lineal del rendimiento del almacenamiento.
2. El retimer resuelve los problemas de integridad de la señal
El mayor reto de la ampliación del almacenamiento externo es la integridad de la señal. El chip retimador Broadcom BCM85657 integrado en el LRSV9501-2E resuelve eficazmente los problemas de atenuación de la señal PCIe 5.0, lo que permite realizar conexiones externas.
3. Facilidad de uso de la interfaz MCIO
La solución de conexión por cable MCIO supera las limitaciones de espacio del chasis, por lo que la ampliación del almacenamiento ya no se ve limitada por el espacio interno del servidor.
4. Experiencia de implementación «plug-and-play»
Al tratarse de un dispositivo con transparencia de protocolo, el LRSV9501-2E no requiere controladores específicos y funciona en modo «plug-and-play» tanto en sistemas CentOS como en Ubuntu, lo que reduce considerablemente los ciclos de implementación.
A partir de la experiencia adquirida en la ejecución de este proyecto, el LRSV9501-2E también se puede aplicar a los siguientes casos similares:
Plataformas de entrenamiento de modelos a gran escala: ofrecen capacidades de carga de datos a alta velocidad para los nodos de entrenamiento con GPU, lo que reduce el tiempo de preprocesamiento de los datos
Sistemas de recomendación en tiempo real: admiten la recuperación de vectores de características con alta concurrencia, lo que mejora la velocidad de respuesta del servicio de recomendación
Servicios de procesamiento de vídeo: Ofrecen capacidades de acceso al almacenamiento de alto rendimiento para la transcodificación y el análisis de vídeo
Clústeres de computación científica: permiten la lectura y escritura a alta velocidad de conjuntos de datos a gran escala, lo que acelera las tareas de simulación y modelización
Ampliación de memoria CXL: conecte módulos de ampliación de memoria CXL para disponer de bloques de memoria de gran capacidad destinados a aplicaciones que requieren un uso intensivo de la memoria
La tarjeta de expansión con retimer PCIe 5.0 LRSV9501-2E ofrece una solución de ampliación de almacenamiento de alto rendimiento y gran fiabilidad para la plataforma de inferencia de IA de la empresa de Internet. Gracias al ancho de banda de alta velocidad del PCIe 5.0 y a las capacidades de mejora de la señal del retimer, la empresa logró multiplicar por varias veces el rendimiento del almacenamiento, al tiempo que superaba las limitaciones de espacio del chasis. Para las empresas que están construyendo o actualizando su infraestructura de IA, la LRSV9501-2E ofrece una solución de expansión de señal de alta velocidad que equilibra rendimiento, escalabilidad y fiabilidad. En el contexto actual de rápida evolución de las tecnologías PCIe 5.0 y CXL, elegir una solución de expansión con capacidades de regeneración de señal reservará un amplio margen para futuras actualizaciones tecnológicas.