С быстрым развитием искусственного интеллекта серверы ИИ и кластеры GPU стали основной вычислительной инфраструктурой центров обработки данных. Эти приложения, начиная от обучения моделей большого языка и заканчивая сервисами вывода в реальном времени, предъявляют беспрецедентные требования к производительности вычислений и пропускной способности данных. В базовой архитектуре, поддерживающей эти высокопроизводительные системы, технология высокоскоростной передачи сигналов сталкивается с серьезными проблемами.
По данным отраслевых исследовательских институтов, мировой рынок графических процессоров превысил 40 миллиардов долларов в 2024 году, с ежегодным темпом роста более 30 %. Один сервер для обучения ИИ может объединять 8 и более высокопроизводительных графических процессоров, образуя единый вычислительный пул благодаря высокоскоростному соединению. Такая архитектура высокоплотных вычислений предъявляет чрезвычайно высокие требования к пропускной способности передачи данных и качеству сигнала внутри сервера.
Тем временем системы хранения данных также претерпевают изменения. Традиционные системы хранения данных SATA и SAS уже не могут удовлетворить потребности рабочих нагрузок ИИ, поэтому в обиход входят высокоскоростные твердотельные накопители на базе протокола NVMe. Новое поколение CXL (Compute Express Link) Технология еще больше расширяет возможности расширения памяти и конвергенции хранилищ, позволяя графическим и центральным процессорам получать доступ к удаленным ресурсам памяти и хранилищ в кэш-когерентном режиме.
PCI Express (PCIe), являясь основным стандартом для соединения внутренних устройств в серверах, перешел к своему пятому поколению и достиг зрелости. PCIe 5.0 увеличивает скорость передачи данных на каждую дорожку с 16 ГТ/с (PCIe 4.0) до 32 ГТ/счто удваивает пропускную способность каждой дорожки. Для видеокарт или сетевых адаптеров в конфигурации x16 теоретическая двунаправленная пропускная способность может достигать 128 ГБ/с.
Однако более высокие скорости передачи данных также создают новые инженерные проблемы:
· Затухание сигнала: При передаче высокоскоростных сигналов через трассы и разъемы на печатной плате возникают потери; затухание усиливается на более высоких частотах. Эффективное расстояние передачи сигналов PCIe 5.0 меньше, чем у PCIe 4.0, что требует более строгой разработки маршрутизации.
· Целостность сигнала: Высокоскоростные сигналы более уязвимы к перекрестным помехам, отражениям и шумам, которые могут привести к ошибкам при передаче данных и ухудшить стабильность системы.
· Предел времени: Более высокая скорость передачи данных означает более узкие временные окна, что накладывает более жесткие требования к синхронизации и точности фронта сигнала.
Для решения задач высокоскоростной передачи сигналов, Retimer Появилась технология ретаймера. Ретимер - это устройство регенерации сигнала, размещенное в высокоскоростном сигнальном тракте, которое обнаруживает, восстанавливает и ретимирует ослабленные сигналы для увеличения эффективного расстояния передачи и улучшения целостности сигнала.
В отличие от простых усилителей сигнала (Redrivers), ретаймеры обеспечивают регенерацию сигнала с помощью следующих механизмов:
· Уравнивание сигналов: Компенсирует высокочастотное затухание и восстанавливает амплитуду сигнала.
· Восстановление часов и данных (CDR): Извлекает тактовый сигнал из входного сигнала для устранения джиттера.
· Ретимизация сигналов: Регенерирует чистые сигналы данных, используя восстановленный тактовый генератор.
· Прозрачность протокола: Не разбирает содержимое данных и полностью прозрачен для протоколов верхнего уровня.
В серверах искусственного интеллекта и высококлассных системах хранения данных микросхемы Retimer стали важнейшими компонентами, обеспечивающими надежную высокоскоростную передачу сигналов. Они играют незаменимую роль в межсоединениях между GPU и CPU, а также в расширенных соединениях для NVMe SSD.
CXL (Compute Express Link) - это новый высокоскоростной протокол межсоединений, основанный на физическом уровне PCIe 5.0, но обладающий более богатыми функциями. Стандарт CXL 2.0 поддерживает три протокола:
· CXL.io: Совместимость с протоколами PCIe для обнаружения и настройки устройств.
· CXL.cache: Поддерживает согласованность кэша устройств, позволяя устройствам совместно использовать кэш процессора.
· CXL.memory: Поддерживает семантический доступ к памяти, позволяя устройствам напрямую обращаться к системной памяти.
Основная ценность технологии CXL заключается в том, что она позволяет устранить узкое место в традиционных архитектурах - память центрального процессора, обеспечивая ускорителям, таким как GPU и FPGA, доступ к пулам памяти большой емкости с помощью кэш-когерентного метода. Это очень важно для обучения ИИ и приложений для работы с большими данными, требующих большого объема памяти.
MCIO (Mini Cool Edge IO) это компактный стандарт высокоскоростных разъемов, разработанный для следующего поколения приложений PCIe и CXL. MCIO обладает следующими преимуществами:
· Более высокая плотность: Поддержка большего количества каналов сигнала на меньшей площади.
· Улучшенная целостность сигнала: Оптимизированное расположение выводов и экранирование снижают перекрестные помехи.
· Кабельное соединение: Поддерживает подключение внешних устройств с помощью кабелей, не ограничивая пространство шасси.
Обучение больших моделей ИИ требует совместной работы сотен или даже тысяч графических процессоров. Высокоскоростное межсоединение обеспечивает обмен данными градиента и параметрами модели между графическими процессорами с низкой задержкой и высокой пропускной способностью. Технология Retimer гарантирует целостность сигнала в сложных объединительных платах и кабелях большой протяженности.
HPC-приложения, такие как научные вычисления, моделирование и секвенирование генов, предъявляют чрезвычайно высокие требования к пропускной способности и емкости памяти. Расширение памяти CXL в сочетании с усилением сигнала Retimer позволяет создавать пулы памяти большой емкости и высокой пропускной способности для ускорения вычислительных задач.
Облачные игровые серверы виртуализируют несколько экземпляров GPU на одной физической машине для предоставления услуг рендеринга в реальном времени для разных пользователей. Высокоскоростное хранение данных и доступ к памяти являются важнейшими условиями для обеспечения низких задержек в играх.
Программно-определяемые системы хранения данных (SDS) на базе стандартных серверов нуждаются в подключении большого количества твердотельных накопителей NVMe. Платы расширения PCIe 5.0 Retimer позволяют расширять SSD с высокой плотностью для создания высокопроизводительных пулов хранения.
Сталкиваясь со все более сложными требованиями к высокоскоростным межсетевым соединениям, разработчики систем должны учитывать следующие факторы:
· Расстояние передачи: Оцените физическое расстояние, которое должны пройти сигналы, чтобы определить, требуется ли усиление ретаймера.
· Конфигурация полосы движения: Выберите подходящие режимы раздвоения PCIe (x16/x8/x4) в зависимости от требований устройства.
· Поддержка протокола: Подтвердите необходимость поддержки протокола CXL и конкретные функциональные требования CXL.
· Тепловой дизайн: Высокоскоростные микросхемы Retimer имеют относительно высокое энергопотребление и требуют соответствующих тепловых решений.
· Проверка совместимости: Убедитесь, что карта расширения совместима с материнскими платами, операционными системами и целевыми устройствами.
Наступление эры искусственного интеллекта меняет дизайн архитектуры центров обработки данных. От высокоскоростной передачи данных PCIe 5.0, регенерации сигналов по технологии Retimer до расширения памяти по протоколу CXL - каждая технология поддерживает раскрытие вычислительного потенциала ИИ.
Для предприятий, планирующих создание инфраструктуры ИИ, понимание принципов и сценариев применения этих базовых технологий помогает сделать более рациональный выбор технологий и создать высокопроизводительные и надежные вычислительные платформы.
Linkreal (LR-LINK) - национальное высокотехнологичное предприятие, специализирующееся на решениях для подключения серверов и центров обработки данных. Портфель ее продукции включает сетевые адаптеры Ethernet, карты расширения для систем хранения данных, решения для расширения GPU и т. д. Следуя тенденциям развития технологий PCIe 5.0 и CXL, компания предлагает решения по расширению высокоскоростного сигнала для серверов искусственного интеллекта, высокопроизводительных вычислений, программно-определяемых систем хранения данных и других сценариев применения.