Com o rápido desenvolvimento do treinamento de grandes modelos de IA, da computação de alto desempenho e da computação em nuvem, a demanda das empresas por poder de computação de GPUs em servidores e desempenho de armazenamento tem apresentado uma tendência de crescimento explosivo. No entanto, as arquiteturas tradicionais de servidores apresentam muitos gargalos em termos de capacidade de expansão, como slots PCIe limitados, dificuldade em equilibrar a implantação de GPUs e SSDs e falta de flexibilidade nas soluções de expansão. Esses problemas têm restringido severamente a inovação nos negócios. Este artigo analisará profundamente esses pontos críticos do setor e demonstrará como o LR-LINK LRSV9500-4I oferece às empresas uma solução completa de expansão por meio de modos flexíveis de bifurcação X4/X8/X16.
I. Grave escassez de recursos de slots PCIe
1.1 Situação atual
As placas-mãe de servidores modernos geralmente oferecem apenas de 4 a 8 slots PCIe, que precisam atender simultaneamente aos requisitos de vários periféricos, como placas de rede, GPUs, SSDs NVMe e placas RAID. Em cenários de treinamento de IA, um único servidor pode exigir de 4 a 8 placas de vídeo GPU, além de dispositivos de armazenamento de alta velocidade, tornando o número de slots PCIe frequentemente a maior limitação.
1.2 Impactos nos negócios
É difícil implementar GPU e SSD ao mesmo tempo, sendo necessário encontrar um equilíbrio entre potência de computação e armazenamento
As empresas precisam adquirir mais servidores, o que leva a um aumento significativo no custo total de propriedade (TCO)
O espaço nos armários se esgota rapidamente, resultando em baixa utilização dos recursos dos data centers
1.3 Solução LRSV9500-4I
Baseado no chip de switch PCIe Broadcom PEX89048, o LRSV9500-4I expande um único slot PCIe GEN 5.0 x16 em 4 interfaces MCIO 8I. Ele pode conectar 8 SSDs NVMe no modo X4 e 2 placas de vídeo GPU de ponta no modo X16. Apenas um slot PCIe é ocupado, alcançando uma melhoria de 800% na eficiência de expansão.
Os cenários de treinamento de IA apresentam requisitos extremamente elevados tanto para GPUs quanto para armazenamento de alta velocidade. As GPUs precisam processar enormes quantidades de dados, enquanto a largura de banda e as IOPS do armazenamento SAS/SATA tradicional não conseguem atender a essa demanda. No entanto, uma vez que os slots PCIe da placa-mãe estão ocupados pelas GPUs, não há interfaces suficientes para implantar matrizes de SSDs NVMe.
· Durante o treinamento de modelos de grande porte, a taxa de utilização da capacidade de computação da GPU costuma ser inferior à capacidade máxima de computação. Por exemplo, a taxa de utilização é de cerca de 59% em um cluster de 1.000 GPUs e de cerca de 55,2% em um cluster de 10.000 GPUs.
· A leitura dos dados de treinamento torna-se um fator limitante, levando a ciclos de iteração do modelo mais longos
Por meio do modo híbrido X8, o LRSV9500-4I pode suportar simultaneamente uma GPU e um SSD NVMe. Por exemplo, 2×X8 são usados para conectar GPUs, e os 2×X8 restantes são conectados a 2 SSDs NVMe como cache local. Dessa forma, as GPUs podem ler dados diretamente do armazenamento local de alta velocidade, melhorando a eficiência do treinamento em 3 a 5 vezes.
A taxa de sinal do padrão PCIe 5.0 chega a 32 GT/s. Essa velocidade duplicada implica requisitos extremamente rigorosos de integridade de sinal para garantir a precisão e a eficiência da transmissão de dados. A transmissão de longa distância, cabos ou conectores de baixa qualidade podem causar atenuação do sinal e aumento da taxa de erros de bits e, em casos graves, o equipamento pode não ser reconhecido ou sofrer desconexões frequentes.
· Durante o treinamento da GPU, se uma placa for desconectada, os resultados de vários dias de computação serão perdidos
· Os dispositivos de armazenamento operam a uma velocidade reduzida, passando de PCIe 5.0 para 4.0 ou até mesmo 3.0
· Ocorreram instabilidades no sistema e a “tela azul da morte”, afetando assim a continuidade dos negócios
O LRSV9500-4I adota um projeto de placa de circuito impresso (PCB) de alta especificação, conectores de alta qualidade e tecnologia de otimização de sinal para garantir o funcionamento estável do PCIe 5.0 em velocidade máxima. A tecnologia PCIe 5.0 pode fornecer velocidades sequenciais de leitura e gravação de até 14.000 MB/s e desempenho ideal sob a configuração correta. A interface MCIO oferece conexão física confiável e, com cabos certificados, pode reduzir efetivamente a taxa de erros de bits e garantir operação estável 24 horas por dia, 7 dias por semana.
Em cenários de treinamento com múltiplas GPUs, a topologia de interconexão entre as GPUs afeta diretamente a eficiência do treinamento. As soluções tradicionais dependem dos canais PCIe fornecidos pela CPU, e a comunicação entre várias placas precisa passar pela CPU, o que resulta em largura de banda limitada e alta latência.
· A eficiência do treinamento distribuído é baixa devido à largura de banda de comunicação insuficiente entre as GPUs
· São encontradas dificuldades na expansão de clusters em grande escala
No modo X16, o LRSV9500-4I permite que as GPUs realizem uma comunicação ponto a ponto eficiente por meio do switch, melhorando efetivamente a eficiência do treinamento com várias placas.
Em clusters entre hosts, com o auxílio de placas de rede compatíveis com RoCE v2 (RDMA sobre Ethernet Convergente), as GPUs podem contornar a CPU e gravar dados diretamente na memória de vídeo de GPUs remotas por meio do adaptador de rede. Vários servidores são interconectados diretamente para permitir o compartilhamento de memória e a troca de dados em alta velocidade.
Os principais desafios da expansão de GPUs e armazenamento em servidores residem essencialmente na contradição entre recursos limitados e demanda ilimitada. Por meio da tecnologia PCIe Switch e dos modos flexíveis de bifurcação X4/X8/X16, o LRSV9500-4I oferece às empresas um caminho de solução eficiente. Seja para treinamento de IA, computação de alto desempenho, análise de big data ou produção de vídeo, LRSV9500-4I pode oferecer excelentes possibilidades de expansão e proteção do investimento.
Como produto carro-chefe da LR-LINK no campo do PCIe 5.0, o LRSV9500-4I, contando com o desempenho de ponta do chip Broadcom PEX89048 e um suporte perfeito do ecossistema, está se tornando a solução de expansão preferida para a construção de servidores de IA e data centers. Escolher o LRSV9500-4I significa optar por uma arquitetura de expansão flexível, eficiente e voltada para o futuro.