В связи с быстрым развитием искусственного интеллекта серверы ИИ и кластеры графических процессоров стали основой вычислительной инфраструктуры центров обработки данных. От обучения крупных языковых моделей до сервисов инференции в реальном времени — эти приложения предъявляют беспрецедентные требования к вычислительной мощности и пропускной способности данных. В архитектуре, лежащей в основе этих высокопроизводительных систем, технологии высокоскоростной передачи сигналов сталкиваются с серьезными проблемами.
По данным отраслевых исследовательских институтов, объем мирового рынка графических процессоров превысил 40 миллиардов долларов в 2024 году при годовом темпе роста более 30 %. Один сервер для обучения ИИ может объединять 8 и более высокопроизводительных графических процессоров, образуя единый вычислительный пул благодаря высокоскоростной межкомпонентной связи. Такая высокоплотная вычислительная архитектура предъявляет чрезвычайно высокие требования к пропускной способности каналов передачи данных и качеству сигнала внутри сервера.
Между тем трансформации подвергаются и системы хранения данных. Традиционные системы хранения на базе интерфейсов SATA и SAS уже не способны удовлетворить потребности рабочих нагрузок искусственного интеллекта, и на смену им приходят высокоскоростные SSD-накопители, работающие по протоколу NVMe. Новое поколение CXL (Compute Express Link) Эта технология еще больше ускоряет расширение памяти и конвергенцию систем хранения данных, позволяя графическим и центральным процессорам обращаться к удаленным ресурсам памяти и хранилищ с обеспечением кэш-когерентности.
Являясь основным стандартом для внутренней связи устройств в серверах, PCI Express (PCIe) прошел путь развития до 5-го поколения и достиг зрелости. В стандарте PCIe 5.0 скорость передачи данных на одну линию увеличена с 16 ГТ/с (PCIe 4.0) до 32 ГТ/с, что удваивает пропускную способность на канал. Для видеокарт или сетевых адаптеров в конфигурации x16 теоретическая двунаправленная пропускная способность может достигать 128 ГБ/с.
Однако более высокие скорости передачи данных также создают новые технические проблемы:
· Ослабление сигнала: При передаче по дорожкам печатной платы и разъемам высокоскоростные сигналы подвергаются затуханию; на более высоких частотах затухание усиливается. Сигналы PCIe 5.0 имеют меньшую эффективную дальность передачи, чем сигналы PCIe 4.0, что требует более тщательного проектирования трассировки.
· Целостность сигнала: Высокочастотные сигналы более подвержены перекрестным помехам, отражениям и шуму, что может приводить к ошибкам при передаче данных и снижению стабильности системы.
· Запас по времени: Более высокие скорости передачи данных означают более узкие временные окна, что предъявляет более строгие требования к синхронизации тактовой частоты и точности фронтов сигнала.
Для решения проблем, связанных с высокоскоростной передачей сигналов, Ретаймер появилась новая технология. Retimer — это устройство регенерации сигнала, устанавливаемое в тракт высокоскоростной передачи, которое обнаруживает, восстанавливает и синхронизирует ослабленные сигналы с целью увеличения эффективной дальности передачи и повышения целостности сигнала.
В отличие от простых усилителей сигнала (редрайверов), ретаймеры обеспечивают регенерацию сигнала с помощью следующих механизмов:
· Выравнивание сигнала: Компенсирует затухание на высоких частотах и восстанавливает амплитуду сигнала.
· Восстановление тактовой частоты и данных (CDR): Извлекает тактовый сигнал из входного сигнала для устранения джиттера.
· Ресинхронизация сигнала: Восстанавливает чистые сигналы данных с помощью восстановленного тактового сигнала.
· Прозрачность протокола: Не анализирует содержимое данных и полностью прозрачен для протоколов верхних уровней.
В серверах искусственного интеллекта и высокопроизводительных системах хранения микросхемы ретаймера стали ключевыми компонентами, обеспечивающими надёжную высокоскоростную передачу сигналов. Они играют незаменимую роль в межкомпонентных соединениях между графическими процессорами (GPU) и центральными процессорами (CPU), а также в расширенных интерфейсах для твердотельных накопителей NVMe.
CXL (Compute Express Link) — это новый высокоскоростной протокол межкомпонентной связи, основанный на физическом уровне PCIe 5.0, но обладающий более широкими функциональными возможностями. Стандарт CXL 2.0 поддерживает три протокола:
· CXL.io: Совместимость с протоколами PCIe для обнаружения и настройки устройств.
· CXL.cache: Поддерживает когерентность кэша устройств, что позволяет устройствам совместно использовать кэш ЦП.
· CXL.memory: Поддерживает семантический доступ к памяти, что позволяет устройствам напрямую обращаться к системной памяти.
Основная ценность технологии CXL заключается в устранении «узкого места» — памяти ЦП — в традиционных архитектурах, что позволяет ускорителям, таким как графические процессоры (GPU) и программируемые логические интегральные схемы (FPGA), получать доступ к массивам памяти большого объема с сохранением кэш-когерентности. Это имеет решающее значение для обучения искусственного интеллекта и приложений для работы с большими данными, требующих огромных объемов памяти.
MCIO (Mini Cool Edge IO) — это стандарт компактных высокоскоростных разъемов, разработанный для приложений PCIe и CXL следующего поколения. MCIO обладает следующими преимуществами:
· Более высокая плотность: Обеспечивает поддержку большего количества каналов сигнала на меньшей площади.
· Улучшенная целостность сигнала: Оптимизированная компоновка выводов и конструкция экранирования позволяют снизить перекрестные помехи.
· Подключение кабеля: Поддерживает подключение внешних устройств с помощью кабелей, что позволяет преодолеть ограничения по пространству в корпусе.
Для обучения крупных моделей искусственного интеллекта требуется совместная работа сотен, а то и тысяч графических процессоров. Высокоскоростная межкомпонентная связь обеспечивает обмен данными градиентов и параметрами моделей между графическими процессорами с низкой задержкой и высокой пропускной способностью. Технология Retimer гарантирует целостность сигнала при прохождении через сложные системные платы и кабели большой длины.
Приложения в области высокопроизводительных вычислений (HPC), такие как научные вычисления, моделирование и секвенирование генов, предъявляют чрезвычайно высокие требования к пропускной способности и объёму памяти. Расширение памяти с помощью CXL в сочетании с улучшением качества сигнала с помощью ретаймера позволяет создавать массивы памяти большого объёма и высокой пропускной способности для ускорения выполнения вычислительных задач.
Серверы облачных игр виртуализируют несколько экземпляров графических процессоров на одном физическом сервере, чтобы предоставлять услуги рендеринга в режиме реального времени для разных пользователей. Высокоскоростной доступ к хранилищу и оперативной памяти имеет решающее значение для обеспечения игрового процесса с низкой задержкой.
Решения в области программно-определяемых систем хранения данных (SDS), основанные на стандартных серверах, требуют подключения большого количества SSD-накопителей NVMe. Плата расширения с ретаймером PCIe 5.0 позволяет создавать высокоплотные массивы SSD-накопителей для формирования высокопроизводительных пулов хранения данных.
В условиях растущих требований к высокоскоростным межсоединениям разработчики систем должны учитывать следующие факторы:
· Дальность передачи: Оцените физическое расстояние, которое должны преодолеть сигналы, чтобы определить, требуется ли усиление с помощью ретаймера.
· Конфигурация полос движения: Выберите подходящие режимы разветвления PCIe (x16/x8/x4) в соответствии с требованиями устройства.
· Поддержка протоколов: Уточните, требуется ли поддержка протокола CXL, а также конкретные функциональные требования к CXL.
· Теплотехническое проектирование: Микросхемы высокоскоростных ретаймеров характеризуются относительно высоким энергопотреблением и требуют надлежащих систем охлаждения.
· Проверка совместимости: Убедитесь, что плата расширения совместима с материнскими платами, операционными системами и целевыми устройствами.
Наступление эры искусственного интеллекта кардинально меняет подход к проектированию архитектуры центров обработки данных. От высокоскоростной передачи данных по интерфейсу PCIe 5.0 и регенерации сигнала с помощью технологии Retimer до расширения памяти по протоколу CXL — каждая из этих технологий способствует раскрытию вычислительного потенциала систем искусственного интеллекта.
Предприятиям, занимающимся планированием инфраструктуры искусственного интеллекта, понимание принципов и сценариев применения этих базовых технологий помогает сделать более рациональный выбор технологий и создать высокопроизводительные и высоконадежные вычислительные платформы.
Linkreal (LR-LINK) — это национальное высокотехнологичное предприятие, специализирующееся на решениях для подключения серверов и центров обработки данных. В ассортимент продукции входят сетевые адаптеры Ethernet, карты расширения хранилищ, решения для расширения графических процессоров и т. д. Идя в ногу с тенденциями развития технологий PCIe 5.0 и CXL, компания предлагает решения по расширению высокоскоростных сигналов для серверов искусственного интеллекта, высокопроизводительных вычислений, программно-определяемых систем хранения данных и других сценариев применения.