Com o rápido desenvolvimento de grandes modelos de linguagem e tecnologias de IA generativa, os serviços de inferência de IA estão se tornando o núcleo dos negócios de computação em nuvem e dos data centers. Este artigo toma como exemplo um projeto de atualização da plataforma de inferência de IA de uma empresa de Internet para demonstrar a aplicação prática da placa de expansão LRSV9501-2E PCIe 5.0 Retimer em cenários de expansão de armazenamento de servidores de IA, fornecendo uma referência para empresas que enfrentam desafios de infraestrutura semelhantes.
Uma empresa de internet opera assistentes de IA e plataformas inteligentes de atendimento ao cliente para usuários finais. Com o rápido crescimento do número de usuários, as solicitações de inferência de IA da plataforma dispararam, impondo exigências cada vez maiores ao desempenho e à escalabilidade da infraestrutura subjacente.
1. Gargalo no desempenho do armazenamento
Os serviços de inferência de IA exigem o carregamento rápido de arquivos de modelos de grande porte (um único modelo pode chegar a dezenas de GB) e acesso eficiente a bancos de dados vetoriais durante a inferência. Os servidores originais utilizavam SSDs NVMe PCIe 4.0. Embora o desempenho já fosse excelente, em cenários de alta simultaneidade, a latência de acesso ao armazenamento tornou-se um gargalo do sistema, afetando a velocidade de resposta da inferência.
2. Capacidade de armazenamento insuficiente
A plataforma precisa implantar várias versões diferentes de modelos de IA para dar suporte a testes A/B e lançamentos graduais. Quando combinada com bancos de dados vetoriais e dados de log, a capacidade de armazenamento exigida por máquina ultrapassa 10 TB. Os servidores padrão de 2U têm compartimentos limitados para discos e não conseguem atender às necessidades de expansão de capacidade.
3. Restrições de espaço no chassi
A empresa utiliza servidores padronizados de 2U montados em rack como nós de inferência de IA, cada um equipado com 4 GPUs. O espaço interno do chassi já está ocupado pelas GPUs e fontes de alimentação, restando apenas 1 slot de expansão PCIe. As soluções tradicionais de expansão de armazenamento não são aplicáveis.
4. Problemas de integridade do sinal
A empresa planeja instalar alguns dispositivos de armazenamento externamente e conectá-los por meio de cabos para superar as limitações de espaço do chassi. No entanto, os sinais PCIe 5.0 sofrem uma forte atenuação durante a transmissão em alta velocidade, exigindo soluções de aprimoramento de sinal para garantir a estabilidade da conexão.
Projeto da solução
A avaliação técnica selecionou o LRSV9501-2E(Clique para comprar) Placa de expansão MCIO Retimer de duas portas PCIe 5.0 x16 como solução de expansão de armazenamento. Em combinação com backplanes de expansão de SSDs NVMe externos e SSDs NVMe PCIe 5.0, foi construída uma arquitetura de armazenamento de alto desempenho e alta capacidade.
Destaques da arquitetura do sistema:
LRSV9501-2E instalado no slot PCIe 5.0 x16 do servidor, configurado no modo de bifurcação de 4x4 pistas
Conectado ao backplane de expansão de SSD NVMe externo por meio de dois cabos MCIO 8i
Placa de expansão instalada com 8 SSDs NVMe PCIe 5.0 (4 SSDs por cabo MCIO)
O chip retimador garante a integridade do sinal PCIe 5.0 durante a transmissão a longa distância
No modo de bifurcação de 4x4, 16 pistas PCIe 5.0 são divididas em quatro links x4. Cada link x4 se conecta a dois SSDs NVMe (por meio de comutação no backplane), utilizando plenamente a largura de banda PCIe. As vantagens dessa configuração são:
Alta densidade de dispositivos: uma única placa de expansão permite conectar 8 SSDs NVMe, aumentando significativamente a densidade de armazenamento
Desempenho equilibrado: cada SSD conta com largura de banda PCIe 5.0 x4 (aproximadamente 16 GB/s), atendendo aos requisitos de alto desempenho
Expansão flexível: o número de dispositivos conectados pode ser ajustado de acordo com a demanda, sem a necessidade de substituir o hardware
Conclua a implantação do hardware seguindo as etapas a seguir:
Passo 1: Desligue o servidor, desconecte os cabos de alimentação e tome as devidas precauções antiestáticas
Passo 2: Abra o chassi e localize o slot de expansão PCIe 5.0 x16 disponível
Etapa 3: Instale a placa de expansão LRSV9501-2E, escolhendo os suportes de 2U ou 3U de acordo com a altura do chassi
Etapa 4: Instale o painel de expansão externo para SSD NVMe no rack
Passo 5: Conecte a placa de expansão ao backplane externo usando cabos MCIO 8i
Passo 6: Instalar 8 SSDs NVMe PCIe 5.0 no backplane
Passo 7: Feche o chassi, conecte a alimentação e ligue o equipamento para realizar o autoteste
Acesse a interface de configuração do BIOS do servidor e defina o modo de bifurcação das pistas do slot PCIe como 4x4. Após salvar a configuração e reiniciar o sistema, ele reconhecerá 8 SSDs NVMe independentes.
Use a ferramenta fio para testar o armazenamento | desempenho do sistema | Os resultados são os seguintes |
Leitura sequencial em uma única unidade | 12,8 GB/s | melhoria de aproximadamente 2 vezes |
Gravação sequencial em uma única unidade | 10,2 GB/s | melhoria de aproximadamente 2 vezes |
Gravação sequencial em uma única unidade | 48 GB/s | melhoria de aproximadamente 4 vezes |
IOPS de leitura aleatória em 4K | 2.400 mil | melhoria de aproximadamente 3 vezes |
Efeitos e benefícios da aplicação
Após a atualização do armazenamento, a velocidade de carregamento de arquivos de modelos de IA de grande porte melhorou significativamente. Tomando como exemplo um modelo de linguagem de grande porte com 70 bilhões de parâmetros, o tempo de carregamento diminuiu consideravelmente. Isso reduziu bastante os tempos de troca de modelo e de reinicialização do serviço, melhorando a eficiência operacional da plataforma.
A velocidade das consultas à base de dados vetorial afeta diretamente o tempo de resposta da inferência de IA. O sistema de armazenamento atualizado reduziu a latência na recuperação de vetores de uma média de 15 ms para 5 ms, diminuindo o tempo de resposta da inferência de ponta a ponta em aproximadamente 30% e melhorando significativamente a experiência do usuário.
A capacidade de armazenamento de um único servidor aumentou significativamente, atendendo às necessidades de implantação de modelos com várias versões e de armazenamento de big data. O design do backplane de expansão externa também permite futuras ampliações.
A função Retimer do LRSV9501-2E garante a integridade do sinal PCIe 5.0 quando transmitido por cabos MCIO. O monitoramento da qualidade do sinal após a implementação revelou taxas de erro de bits reduzidas, atendendo aos padrões de confiabilidade de nível empresarial.
Resumo e compartilhamento de experiências
O valor prático do LRSV9501-2E em cenários de expansão de armazenamento para servidores de IA foi comprovado com sucesso. A seguir, apresentamos um resumo das principais conclusões:
1. Aproveitar ao máximo a largura de banda do PCIe 5.0
A melhoria na largura de banda do PCIe 5.0 traz novas possibilidades para a expansão do armazenamento. Por meio de uma configuração adequada de bifurcação de pistas, uma única placa de expansão pode conectar vários SSDs de alto desempenho, alcançando um aumento linear no desempenho do armazenamento.
2. O retimador resolve problemas de integridade de sinal
O maior desafio da expansão do armazenamento externo é a integridade do sinal. O chip retimador Broadcom BCM85657 integrado ao LRSV9501-2E resolve de forma eficaz os problemas de atenuação do sinal PCIe 5.0, possibilitando conexões externas.
3. Facilidade de uso da interface MCIO
A solução de conexão por cabo MCIO supera as limitações de espaço do chassi, fazendo com que a expansão do armazenamento não seja mais limitada pelo espaço interno do servidor.
4. Experiência de implantação do tipo "plug-and-play"
Por ser um dispositivo com protocolo transparente, o LRSV9501-2E não requer drivers específicos e funciona em modo plug-and-play tanto em sistemas CentOS quanto em Ubuntu, reduzindo significativamente os ciclos de implantação.
Com base na experiência de implementação deste projeto, o LRSV9501-2E também pode ser aplicado aos seguintes cenários semelhantes:
Plataformas de treinamento de modelos de grande porte: oferecem recursos de carregamento de dados em alta velocidade para nós de treinamento com GPU, reduzindo o tempo de pré-processamento dos dados
Sistemas de recomendação em tempo real: suportam a recuperação de vetores de características com alta simultaneidade, melhorando a velocidade de resposta do serviço de recomendação
Serviços de processamento de vídeo: Oferecem recursos de acesso a armazenamento de alto rendimento para transcodificação e análise de vídeo
Clusters de computação científica: Oferecem suporte à leitura e gravação em alta velocidade de conjuntos de dados de grande porte, acelerando tarefas de simulação e modelagem
Expansão de memória CXL: conecte módulos de expansão de memória CXL para fornecer pools de memória de grande capacidade para aplicações que exigem muito da memória
A placa de expansão Retimer LRSV9501-2E PCIe 5.0 oferece uma solução de expansão de armazenamento de alto desempenho e alta confiabilidade para a plataforma de inferência de IA da empresa de Internet. Graças à largura de banda de alta velocidade do PCIe 5.0 e aos recursos de aprimoramento de sinal do Retimer, a empresa obteve melhorias de desempenho de armazenamento várias vezes superiores, ao mesmo tempo em que superou as limitações de espaço do chassi. Para empresas que estão construindo ou atualizando sua infraestrutura de IA, o LRSV9501-2E oferece uma solução de expansão de sinal de alta velocidade que equilibra desempenho, escalabilidade e confiabilidade. Nas tecnologias PCIe 5.0 e CXL em rápida evolução de hoje, a escolha de uma solução de expansão com recursos de regeneração de sinal reservará amplo espaço para futuras atualizações tecnológicas.