Главная
О нас
Новости
Динамика продукта
Практическое руководство по LRSV9501-2E: решение по расширению емкости хранилища сервера искусственного интеллекта
Практическое руководство по LRSV9501-2E: решение по расширению емкости хранилища сервера искусственного интеллекта
Time 2026-04-23

На фоне стремительного развития крупных языковых моделей и технологий генеративного ИИ сервисы инференции ИИ становятся основным направлением деятельности облачных вычислений и центров обработки данных. В данной статье на примере проекта по модернизации платформы инференции ИИ в интернет-компании демонстрируется практическое применение платы расширения LRSV9501-2E PCIe 5.0 Retimer в сценариях расширения хранилища серверов ИИ, что служит ориентиром для предприятий, сталкивающихся с аналогичными инфраструктурными проблемами.

Пример проекта и обзор задач

Интернет-компания предоставляет конечным пользователям услуги искусственного интеллекта и интеллектуальные платформы обслуживания клиентов. В связи с быстрым ростом числа пользователей количество запросов на вычисления ИИ на платформе резко возросло, что предъявляет более высокие требования к производительности и масштабируемости базовой инфраструктуры.

Основные стоящие перед нами задачи

1. Узкое место в производительности системы хранения данных

Сервисы инференции на базе ИИ требуют быстрой загрузки больших файлов моделей (объем одной модели может достигать десятков гигабайт) и эффективного доступа к векторным базам данных во время инференции. Первоначально на серверах использовались SSD-накопители PCIe 4.0 NVMe. Хотя производительность и так была превосходной, в условиях высокой параллельности задержка доступа к хранилищу стала системным узким местом, влияющим на скорость отклика при инференции.

2. Недостаточный объем хранилища

Платформе необходимо развертывать несколько различных версий моделей искусственного интеллекта для поддержки A/B-тестирования и постепенного внедрения обновлений. С учетом использования векторных баз данных и данных журналов объем хранилища на одном сервере должен превышать 10 ТБ. Стандартные серверы формата 2U имеют ограниченное количество отсеков для дисков и не способны удовлетворить потребности в расширении емкости.

3. Ограничения по пространству в шасси

Предприятие использует в качестве узлов инференции ИИ стандартизированные серверы в корпусе 2U для монтажа в стойку, каждый из которых оснащен 4 графическими процессорами. Внутреннее пространство корпуса уже занято графическими процессорами и блоками питания, в результате чего остается только один слот расширения PCIe. Традиционные решения по расширению системы хранения данных в данном случае не подходят.

4. Проблемы с целостностью сигнала

Предприятие планирует разместить часть устройств хранения данных вне корпуса и подключить их с помощью кабелей, чтобы преодолеть ограничения по пространству внутри корпуса. Однако сигналы PCIe 5.0 значительно ослабевают при высокоскоростной передаче данных, что требует применения решений по усилению сигнала для обеспечения стабильности соединения.

Разработка решения

Выбор товара

По результатам технической оценки был выбран LRSV9501-2E(Нажмите, чтобы купить) В качестве решения для расширения системы хранения данных использовалась двухпортовая плата расширения MCIO с ретаймером и интерфейсом PCIe 5.0 x16. В сочетании с внешними платами расширения для SSD-накопителей NVMe и SSD-накопителями NVMe с интерфейсом PCIe 5.0 была создана высокопроизводительная архитектура хранения данных с большой емкостью.

Архитектура системы

Основные особенности системной архитектуры:

 Карта LRSV9501-2E, установленная в слот PCIe 5.0 x16 сервера и настроенная в режиме разветвления 4x4

Подключается к внешней объединительной плате для расширения SSD-накопителей NVMe с помощью двух кабелей MCIO 8i

Расширительная плата с 8 SSD-накопителями PCIe 5.0 NVMe (по 4 SSD-накопителя на каждый кабель MCIO)

Микросхема ретаймера обеспечивает целостность сигнала PCIe 5.0 при передаче на большие расстояния

Конфигурация разветвления полос движения

В режиме разветвления линий 4x4 16 линий PCIe 5.0 разделяются на четыре канала x4. Каждый канал x4 подключается к двум SSD-накопителям NVMe (посредством коммутации на объединительной плате), что позволяет в полной мере использовать пропускную способность PCIe. Преимущества этой конфигурации заключаются в следующем:

Высокая плотность устройств: одна плата расширения поддерживает подключение 8 SSD-накопителей NVMe, что значительно повышает плотность хранения данных

Сбалансированная производительность: каждый SSD имеет пропускную способность x4 PCIe 5.0 (около 16 ГБ/с), что позволяет удовлетворить требования к высокой производительности

Гибкое расширение: количество подключенных устройств можно изменять в зависимости от потребностей без замены оборудования

Процесс внедрения

Установка оборудования

Выполните развертывание оборудования в соответствии со следующими инструкциями:

Шаг 1: Выключите сервер, отсоедините кабели питания и примите меры по защите от статического электричества

Шаг 2: Откройте корпус и найдите свободный слот расширения PCIe 5.0 x16

Шаг 3: Установите плату расширения LRSV9501-2E, выбрав кронштейны 2U или 3U в зависимости от высоты корпуса

Шаг 4: Установите внешнюю разъемную плату расширения NVMe SSD в стойку

Шаг 5: Подключите плату расширения к внешней объединительной плате с помощью кабелей MCIO 8i

Шаг 6: Установите 8 твердотельных накопителей NVMe с интерфейсом PCIe 5.0 в заднюю панель

Шаг 7: Закройте корпус, подключите питание и включите устройство для прохождения самодиагностики

Настройка BIOS

Войдите в интерфейс настройки BIOS сервера и установите режим разделения линий слота PCIe на 4x4. После сохранения настроек и перезагрузки система распознает 8 независимых SSD-накопителей NVMe.

Проверка работоспособности

Используйте утилиту fio для тестирования системы хранения данных

производительность системы

Результаты следующие

Последовательное чтение с одного диска

12,8 ГБ/с

примерно двукратное улучшение

Последовательная запись с одним диском

10,2 ГБ/с

примерно двукратное улучшение

Последовательная запись с одним диском

48 ГБ/с

примерно в 4 раза

IOPS при произвольном чтении в формате 4K

2 400 000

примерно в 3 раза

Воздействие и преимущества применения

Повышение скорости загрузки моделей искусственного интеллекта

После модернизации системы хранения скорость загрузки файлов крупных моделей искусственного интеллекта значительно возросла. На примере языковой модели с 70 миллиардами параметров время загрузки существенно сократилось. Это позволило значительно сократить время переключения между моделями и перезапуска сервисов, повысив эффективность работы платформы.

Сокращение задержки при обработке запросов

Скорость запросов к векторной базе данных напрямую влияет на время отклика при инференции ИИ. Модернизированная система хранения данных позволила сократить задержку при извлечении векторов с 15 до 5 мс в среднем, что сократило общее время отклика при инференции примерно на 30 % и значительно улучшило пользовательский опыт.

Расширение емкости хранилища

Емкость хранилища на одном сервере значительно увеличилась, что позволяет удовлетворить потребности в развертывании многоверсионных моделей и хранении больших данных. Конструкция внешней платы расширения также обеспечивает возможность дальнейшего расширения в будущем.

Обеспечение стабильности системы

Функция Retimer в LRSV9501-2E обеспечивает целостность сигнала PCIe 5.0 при передаче по кабелям MCIO. Контроль качества сигнала после внедрения показал снижение частоты битовых ошибок, что соответствует стандартам надежности корпоративного уровня.

Подведение итогов и обмен опытом

Практическая ценность LRSV9501-2E в сценариях расширения хранилища для серверов искусственного интеллекта была успешно подтверждена. Ниже приведены основные выводы:

1. Полное использование пропускной способности PCIe 5.0

Увеличение пропускной способности PCIe 5.0 открывает новые возможности для расширения системы хранения данных. Благодаря грамотной конфигурации разветвления линий связи одна плата расширения может подключать несколько высокопроизводительных SSD-накопителей, обеспечивая линейное масштабирование производительности системы хранения данных.

2. Retimer решает проблемы с целостностью сигнала

Самой серьезной проблемой при расширении внешних накопителей является целостность сигнала. Микросхема ретаймера Broadcom BCM85657, встроенная в LRSV9501-2E, эффективно решает проблемы затухания сигнала PCIe 5.0, что делает возможным подключение внешних устройств.

3. Удобство интерфейса MCIO

Решение MCIO для кабельного подключения позволяет преодолеть ограничения по пространству в корпусе, благодаря чему расширение системы хранения данных больше не зависит от внутреннего пространства сервера.

4. Простота развертывания по принципу «подключи и работай»

Будучи устройством с прозрачным протоколом, LRSV9501-2E не требует установки специальных драйверов и поддерживает функцию «plug-and-play» как в системах CentOS, так и в Ubuntu, что значительно сокращает сроки развертывания.

Рекомендации по расширенному применению

Исходя из опыта реализации данного проекта, LRSV9501-2E также может применяться в следующих аналогичных ситуациях:

Платформы для обучения больших моделей: обеспечивают возможность высокоскоростной загрузки данных на узлы обучения с использованием графических процессоров, сокращая время предварительной обработки данных

Системы рекомендаций в режиме реального времени: поддержка поиска векторов характеристик с высокой степенью параллелизма, что повышает скорость отклика службы рекомендаций

Услуги по обработке видео: обеспечение высокопроизводительного доступа к хранилищу для транскодирования и анализа видео

Кластеры для научных вычислений: обеспечивают высокоскоростной ввод-вывод больших массивов данных, ускоряя выполнение задач моделирования и симуляции

Расширение памяти CXL: подключайте модули расширения памяти CXL для создания пулов памяти большого объёма для приложений, требующих значительных объёмов памяти

Заключение

Плата расширения LRSV9501-2E с ретаймером PCIe 5.0 представляет собой высокопроизводительное и надежное решение для расширения системы хранения данных, предназначенное для платформы искусственного интеллекта интернет-предприятия. Благодаря высокой пропускной способности PCIe 5.0 и возможностям ретаймера по улучшению сигнала предприятие смогло в несколько раз повысить производительность хранилища, преодолев при этом ограничения по пространству в корпусе. Для предприятий, создающих или модернизирующих инфраструктуру искусственного интеллекта, LRSV9501-2E представляет собой решение для высокоскоростного расширения сигналов, обеспечивающее баланс между производительностью, масштабируемостью и надежностью. В условиях быстрого развития современных технологий PCIe 5.0 и CXL выбор решения для расширения с возможностями регенерации сигнала обеспечит достаточное пространство для будущих технологических обновлений.


Service
联系我们