Введение: Инфраструктура ЦОД для искусственного интеллекта
Переход к технологиям искусственного интеллекта (ИИ) — это не просто очередное обновление, а фундаментальная революция в области вычислений. Она предъявляет беспрецедентентные требования к инфраструктуре центров обработки данных (ЦОД) или дата-центров. В отличие от традиционных дата-центров, спроектированных для вычислений общего назначения, современные «ИИ-фабрики» создаются для «производства интеллекта» в промышленных масштабах. Это требует использования массивно-параллельных вычислений и огромной пропускной способности для обработки данных.
Масштаб этой трансформации огромен. Недавний анализ ребят из McKinsey показывает, что к 2030 году для удовлетворения мирового спроса на вычислительные мощности потребуются капитальные вложения в размере почти 7 триллионов долларов. При этом около 70% этого спроса будет приходиться на рабочие нагрузки ИИ, что потребует инвестиций в размере более 5 триллионов долларов в специализированные ЦОД. Центральная проблема заключается в том, что достижение необходимой производительности и надежности при таких колоссальных вложениях невозможно без строгой, многоуровневой стратегии тестирования и измерений. Сбои в физической инфраструктуре — будь то нестабильная энергия, потеря целостностисигнала или ошибка протокола — могут привести к простою дорогостоящих кластеров на базе графических процессоров (GPU), что сводит на нет все инвестиции в оборудование.

Научно-технический центр «СПЕКТР», обладая многолетним опытом и глубокой экспертизой в области радиоизмерительного оборудования, выступает надежным партнером для компаний, строящих и эксплуатирующих ЦОД нового поколения. НТЦ «СПЕКТР» предоставляет не только передовые измерительные приборы от ведущих мировых производителей, но и техническую поддержку, необходимую для решения самых сложных задач валидации инфраструктуры ИИ.
Раздел 1: Основные технические проблемы при создании инфраструктуры для ИИ и HPC
Создание высокопроизводительной и надежной инфраструктуры для ИИ и высокопроизводительных вычислений (HPC) сопряжено с решением комплекса взаимосвязанных технических проблем. Эти проблемы охватывают все уровни системы — от физического уровня передачи данных до протоколов и электромагнитной совместимости (ЭМС).

1.1. Целостность сигнала (SI) на скоростях 800G/1.6T
Рабочие нагрузки для обучения моделей ИИ требуют огромных вычислительных мощностей, которые обеспечиваются большими кластерами GPU. Эти кластеры соединены плотной сетью высокоскоростных электрических и оптических каналов, формируя так называемую «backend-сеть». Внутри этой сети преобладает «восточно-западный» трафик (обмен данными между узлами), объемы которого вынуждают отрасль переходить на скорости 800 Гбит/с и 1.6 Тбит/с, что достигается за счет использования линий со скоростью 224 Гбит/с.
Такой скачок скорости потребовал перехода от модуляции без возврата к нулю (NRZ) к четырехуровневой амплитудно-импульсной модуляции (PAM4). PAM4 удваивает скорость передачи данных, кодируя два бита в одном символе, но платой за это становится значительное ухудшение отношения сигнал/шум (SNR) — на 9.5 дБ. Это делает сигнал чрезвычайно уязвимым к шуму, джиттеру (фазовому дрожанию) и дисперсии.
В плотно связанных системах ИИ производительность всей сети определяется ее самым медленным компонентом. Один неисправный трансивер, кабель или коммутатор может стать «бутылочным горлышком», вызывая каскадные сбои и останавливая дорогостоящие процессы обучения моделей. Это означает, что простой проверки соответствия каждого компонента стандарту уже недостаточно. Необходима комплексная валидация всей системы в условиях, имитирующих реальные рабочие нагрузки ИИ, чтобы выявить скрытые проблемы, которые проявляются только на системном уровне.
1.2. Целостность питания (PI): Энергия для работы ИИ
Стойки, заполненные GPU для задач ИИ, могут потреблять 100 кВт и более, что на порядок превышает энергопотребление традиционных серверных стоек. Такая экстремальная плотность мощности создает колоссальную нагрузку на всю систему распределения энергии (PDN) — от трансформаторов на уровне ЦОД до печатных плат и самих микросхем.
ИИ-ускорители и GPU характеризуются высокими и резко меняющимися (транзиентными) токами потребления. Любые колебания или шумы в цепях питания могут приводить к ошибкам в вычислениях, снижению производительности или даже к необратимому выходу оборудования из строя.
Проблемы целостности питания напрямую влияют на целостность сигнала. Шумы и пульсации на шинах питания преобразуются в джиттер на высокоскоростных линиях передачи данных. Таким образом, стабильность системы распределения энергии напрямую определяет коэффициент битовых ошибок (BER) в сети, что делает PI и SI двумя сторонами одной медали.
1.3. Валидация протоколов: Взаимодействие компонентов
Стандарт PCI Express (PCIe) является основной магистралью для взаимодействия процессоров, ускорителей, систем хранения данных и сетевых интерфейсов. Новая версия, PCIe 6.0, удваивает скорость передачи данных до 64 ГТ/с (гигатранзакций в секунду) за счет использования модуляции PAM4, наследуя все связанные с ней проблемы целостности сигнала.
На базе физического уровня PCIe 6.0 построен новый ключевой стандарт — Compute Express Link (CXL). Он обеспечивает когерентный доступ к общей памяти и позволяет создавать дисагрегированные системы, где пулы памяти и вычислительных ресурсов могут гибко конфигурироваться, что кардинально меняет архитектуру серверов.
Валидация этих сложных протоколов требует не только проверки физического уровня. Необходимо захватывать и декодировать сложные транзакции (например, CXL.io, CXL.mem, CXL.cache) для проверки совместимости устройств, отладки ошибок и подтверждения того, что все компоненты работают в строгом соответствии со спецификациями.
1.4. Электромагнитная совместимость (ЭМС): Обеспечение гармонии в системе
Высокая мощность, высокочастотные сигналы и экстремальная плотность размещения компонентов в оборудовании для ИИ создают сложную электромагнитную обстановку. Без надлежащего проектирования и экранирования компоненты могут создавать помехи друг для друга, что приводит к нестабильной работе, повреждению данных и системным сбоям. Поэтому тестирование на соответствие стандартам ЭМС — это не просто формальное требование регуляторов, а критически важный этап обеспечения надежности всей системы.
Эти четыре аспекта — целостность сигнала, целостность питания, валидация протоколов и ЭМС — не являются изолированными задачами. Они образуют тесно взаимосвязанную систему, где сбой в одной области немедленно вызывает или усугубляет проблемы в других. Например, нестабильное питание (проблема PI) приводит к увеличению джиттера на выходах SerDes-интерфейсов GPU, что ухудшает целостность сигнала (проблема SI) на линиях PCIe 6.0. Это, в свою очередь, вызывает ошибки на уровне протокола, которые не могут быть исправлены с помощью прямой коррекции ошибок (FEC), приводя к сбоям связи. Одновременно вся система излучает мощные электромагнитные помехи (проблема ЭМС), которые могут нарушить работу соседнего оборудования. Следовательно, валидация ЦОД для ИИ требует комплексного, холистического подхода, который учитывает все эти взаимосвязи.
Раздел 2: Комплексные решения: радиоизмерительное оборудование для тестирования ЦОД для ИИ
Для решения описанных выше задач требуется специализированное измерительное оборудование, позволяющее проводить всесторонний анализ на всех уровнях — от физического до протокольного. ООО НТЦ «СПЕКТР» предлагает комплексные решения от ведущих мировых производителей.
Осциллографы Keysight серии Infiniium UXR-B
Осциллографы серии Infiniium UXR-B от Keysight обеспечивают сверхвысокопроизводительный сбор данных с 10-битным разрешением высокой четкости. Разработанные с учетом возможности модернизации, приборы серии UXR отвечают текущим и будущим потребностям в области проектирования и тестирования.
- Полоса пропускания до 110 ГГц
- 10-разрядный аппаратный аналого-цифровой преобразователь (АЦП)
- Максимальная полоса пропускания на всех каналах
- Самый низкий в отрасли уровень шума и лучшие характеристики межканального джиттера
- Частота дискретизации до 256 Гвыб/с
- Два или четыре фазово-когерентных канала в одном корпусе
- До 40 синхронизированных каналов благодаря поддержке технологии MultiScope
2.1. Валидация целостности сигнала и высокоскоростных соединений
Этот этап фокусируется на проверке физических каналов, по которым передаются высокоскоростные данные.
- Осциллографы реального времени: Краеугольным камнем для анализа SI является осциллограф. Модели серии Keysight Infiniium UXR идеально подходят для анализа сигналов PAM4 благодаря уникальному сочетанию характеристик. Высокая полоса пропускания (до 110 ГГц) позволяет без искажений захватывать сверхбыстрые сигналы. 10-битный аналого-цифровой преобразователь (АЦП) обеспечивает точное разрешение всех четырех уровней модуляции PAM4. А сверхнизкий уровень собственных шумов критически важен для анализа сигналов с малым отношением сигнал/шум, характерным для PAM4. Специализированное программное обеспечение, такое как Keysight D9020PAMA, выполняет на захваченных осциллограммах все необходимые измерения (ширина и высота глаза, линейность, SNDR) для проверки соответствия стандартам.
- Анализаторы коэффициента битовых ошибок (BERT): Для тестирования приемников (Rx) необходим анализатор сигналов типа BERT. Keysight M8050A способен генерировать сигнал PAM4 со скоростью до 120 Гбод. Его основная задача — формировать калиброванный, преднамеренно искаженный сигнал («stressed eye»), чтобы проверить способность приемника восстанавливать данные в наихудших, но все еще допустимых стандартом (например, IEEE 802.3ck) условиях.
- Векторные анализаторы цепей (VNA): Для характеризации пассивных компонентов канала (печатных плат, разъемов, кабелей) используется анализатор цепей. Rohde & Schwarz ZNA43 измеряет S-параметры в широком диапазоне частот. Эти данные позволяют точно определить вносимые и обратные потери, а также перекрестные помехи, что является ключевой информацией для моделирования канала на этапе проектирования и для отладки проблем на физическом уровне.
| Тип оборудования | Производитель / модель | Ключевая характеристика | Роль в проекте ЦОД для ИИ |
|---|---|---|---|
| Осциллограф реального времени | Keysight Infiniium UXR-Series (например, UXR0702B) | Полоса до 110 ГГц, 10-битный АЦП, низкий уровень шума | Анализ PAM4-сигналов передатчиков (Tx) 800G Ethernet и PCIe 6.0 на соответствие стандартам. |
| Осциллограф реального времени | Tektronix DPO70000SX Series (например, DPO77002SX) | Полоса до 70 ГГц, архитектура ATI для низкого уровня шума | Альтернатива для анализа SI высокоскоростных сигналов, отладка систем 400G/800G и когерентных оптических систем. |
| Анализатор коэффициента битовых ошибок | Keysight M8050A BERT | Генерация PAM4 до 120 Гбод | Тестирование отказоустойчивости приемников (Rx) путем подачи калиброванного искаженного сигнала. |
| Анализатор качества сигнала | Anritsu MP1900A | Многоканальный BERT до 64 Гбод, встроенный генератор импульсных сигналов | Комплексное тестирование приемников PCIe 6.0, часто используется в связке с осциллографами Tektronix для калибровки stressed eye. |
| Векторный анализатор цепей | Rohde & Schwarz ZNA (например, R&S ZNA67) | Диапазон до 67 ГГц, широкий динамический диапазон | Характеризация S-параметров каналов (платы, разъемы, кабели) для моделирования и отладки потерь и отражений. |
| Векторный анализатор цепей | Ceyear 3674 Series (например, 3674P) | Диапазон до 110 ГГц, функции измерения импульсных S-параметров | Характеризация ВЧ-компонентов и каналов связи, анализ целостности сигнала в частотной и временной областях. |
| Сетевой тестер | Spirent B3 800G Appliance | Тестирование L1-L3, проверка соответствия IEEE 802.3df | Валидация производительности, задержек и совместимости сетевого оборудования 800G в реальных условиях. |
| Оптический сетевой тестер | VIAVI ONT-800 | Модульная платформа, поддержка BERT, FEC, CMIS | Ускоренная валидация и производственное тестирование оптических трансиверов и компонентов 800G. |
2.2. Контроль целостности питания и ЭМС
Эти измерения обеспечивают стабильность работы системы и ее соответствие нормативным требованиям по электромагнитной совместимости.
- Измерение целостности питания: Для этой задачи стандартные осциллографические пробники не подходят. Необходимо специализированное решение, такое как осциллограф Rohde & Schwarz RTP в паре с пробником для шин питания R&S RT-ZPR20. Ключевые особенности пробника — коэффициент ослабления 1:1, низкий собственный шум, широкая полоса пропускания и большое встроенное смещение (±60 В). Это позволяет с высокой точностью измерять пульсации и шумы на уровне милливольт на фоне постоянного напряжения, что необходимо для валидации систем энергии ИИ-ускорителей и FPGA.
- Тестирование на соответствие ЭМС: «Золотым стандартом» для сертификационных измерений является измерительный приемник ЭМП. Rohde & Schwarz ESW (например, модель R&S ESW44), который по сути является высокоточным анализатором спектра, предназначен для проверки оборудования на соответствие стандартам электромагнитных излучений, таким как CISPR и FCC. Его важнейшая особенность — сверхбыстрое сканирование во временной области на основе БПФ (FFT), которое радикально сокращает время тестирования по сравнению с традиционными методами, что является значительным преимуществом в условиях сжатых сроков разработки.
| Тип Оборудования | Производитель и Модель | Ключевая Характеристика | Роль в проекте ЦОД для ИИ |
|---|---|---|---|
| Осциллограф + Пробник для шин питания | Rohde & Schwarz RTP + RT-ZPR20 | Коэффициент ослабления 1:1, низкий уровень шума, смещение ±60 В | Измерение шума, пульсаций и переходных процессов на шинах питания ИИ-ускорителей с милливольтной точностью. |
| Источник-измеритель (SMU) | Keithley 2461 | 4-квадрантная работа, разрешение 6½ разрядов, 10А/1000Вт (имп.) | Точная DC-характеризация компонентов системы питания (VRM, POL), тестирование на утечки и КПД. |
| Модульный источник питания PXI | National Instruments PXIe-4112/4113 | Модульная платформа, синхронизация каналов, высокая плотность | Автоматизированное тестирование и валидация многоканальных систем питания в составе комплексных измерительных стендов. |
| Анализатор качества электроэнергии | Fluke 1777 | Захват переходных процессов до 20 МГц, соответствие IEC 61000-4-30 | Анализ качества электроэнергии на входе в ЦОД, диагностика сбоев, связанных с провалами, выбросами и гармониками в сети. |
| Приемник ЭМП для тестирования на ЭМС | Rohde & Schwarz ESW (модели R&S ESW8, ESW26, ESW44) | Соответствие CISPR 16-1-1, сверхбыстрое сканирование во временной области (FFT) | Сертификационные и предсертификационные испытания оборудования ЦОД на уровень электромагнитных излучений. |
| Анализатор сигналов и спектра | Ceyear 4052 Series (модели 4052H, 4052G) | Диапазон до 50 ГГц, опция для предсертификационных испытаний ЭМС | Поиск и анализ источников ВЧ-помех внутри стойки, предсертификационные измерения ЭМС. |
2.3. Тестирование протоколов
Этот этап гарантирует, что компоненты могут корректно «общаться» друг с другом на логическом уровне.
- Валидация PCIe 6.0: Для этого используется пара приборов: анализатор протокола Keysight P5570A и эмулятор протокола Keysight P5573A. Эмулятор (Exerciser) генерирует реалистичный трафик PCIe 6.0, имитируя корневой комплекс (root complex) или конечное устройство (endpoint). Анализатор захватывает и декодирует этот трафик, позволяя инженерам проверять корректность процесса установления связи (LTSSM), находить ошибки в транзакциях и подтверждать соответствие протоколу.
- Валидация CXL: Для отладки нового протокола CXL необходим специализированный инструмент, такой как анализатор протокола Keysight P5562CXLA. Он захватывает и детально декодирует трафик CXL.io, CXL.mem и CXL.cache. Это критически важно для валидации новых устройств, таких как модули расширения памяти CXL, и для проверки когерентности кэшей в гетерогенных вычислительных системах.
| Протокол | Тип Оборудования | Производитель и Модель | Ключевая Функциональность | Роль в проекте ЦОД для ИИ |
|---|---|---|---|---|
| PCIe 6.0 | Анализатор Протокола | Keysight P5570A | Захват и декодирование трафика до 64 ГТ/с, анализ LTSSM | Отладка и валидация обмена данными между CPU и GPU. |
| PCIe 6.0 | Эмулятор Протокола | Keysight P5573A | Эмуляция Root Complex / Endpoint, генерация трафика | Стресс-тестирование устройств и проверка их реакции на различные сценарии протокола. |
| CXL 1.1/2.0 | Анализатор Протокола | Keysight P5562CXLA | Декодирование транзакций CXL.io, CXL.mem, CXL.cache | Валидация работы модулей расширения памяти и когерентности кэшей. |
| PCIe / CXL | Анализатор / Эмулятор | Teledyne LeCroy Summit M616 | Анализ, верификация и тестирование на соответствие до 16 линий | Комплексная отладка и тестирование на соответствие протоколов PCIe 6.x и CXL 3.x. |
| PCIe | Логический анализатор протокола | Tektronix TLA7SA00 Series | Инновационный подход к валидации от физического до транзакционного уровня | Глубокий анализ системных взаимодействий с временной корреляцией между шинами PCIe и другими интерфейсами, например, DDR. |
Раздел 3: Примеры из практики: как создаются и проверяются «ИИ-фабрики»
Чтобы продемонстрировать применение описанного оборудования на практике, рассмотрим два реальных сценария, иллюстрирующих полный цикл валидации — от отдельного компонента до целой системы.

3.1. Пример №1: Архитектура и валидация «ИИ-фабрики» NVIDIA
NVIDIA DGX SuperPOD является эталонной архитектурой для «ИИ-фабрики». Ее ключевые элементы — это кластеры GPU высокой плотности, память с высокой пропускной способностью (HBM) и сверхскоростные соединения NVLink и InfiniBand/Spectrum-X Ethernet, которые образуют вычислительную фабрику. Валидация такой сложной системы требует комплексного подхода с использованием всего арсенала измерительных средств.
- Сетевая инфраструктура: Каналы 800G Ethernet, соединяющие узлы, проходят многоуровневую проверку. На уровнях L2/L3 производительность и задержки тестируются с помощью сетевого тестера Keysight AresONE. На физическом уровне (L1) соответствие стандарту оптических и электрических трансиверов проверяется с помощью осциллографа Keysight UXR1104B с анализом TDECQ (Transmitter Dispersion and Eye Closure Quaternary), который является ключевым показателем качества для PAM4-передатчиков.
- Питание GPU: Сложная система распределения энергии на серверной плате с несколькими GPU валидируется с помощью осциллографа R&S RTP и пробника RT-ZPR20. Это позволяет убедиться в стабильности напряжений на шинах питания при пиковых вычислительных нагрузках, предотвращая сбои и ошибки вычислений.
- ЭМС системы: Вся серверная стойка в сборе проходит испытания на электромагнитную совместимость с помощью измерительного приемника R&S ESW44. Это гарантирует, что система не будет создавать помех для соседнего оборудования и будет устойчива к внешним электромагнитным воздействиям в условиях высокой плотности размещения в ЦОД.
3.2. Пример №2: Разработка и тестирование модуля расширения памяти CXL
Рассмотрим гипотетический, но реалистичный сценарий разработки модуля расширения памяти CXL Type-3. Цель — создать устройство, предоставляющее серверам дополнительную емкость DRAM для баз данных в памяти и больших моделей ИИ. Основная задача — обеспечить производительность, надежность и соответствие новому стандарту. Процесс валидации такого устройства охватывает весь жизненный цикл разработки.
- Этап 1: Характеризация печатной платы. Еще до монтажа компонентов «голая» печатная плата тестируется с помощью векторного анализатора цепей R&S ZNA43. Измеряются S-параметры высокоскоростных дорожек интерфейса PCIe 6.0/CXL, чтобы убедиться, что их импеданс и профиль потерь соответствуют расчетным значениям. Эти данные затем используются для уточнения симуляционных моделей.
- Этап 2: Проверка целостности сигнала. После монтажа контроллера CXL и микросхем DRAM на плату используется осциллограф Keysight UXR0704B для проверки качества PAM4-сигналов на выходе передатчика. Это первый этап «оживления» устройства, подтверждающий работоспособность физического уровня.
- Этап 3: Отладка протокола. Модуль подключается к хост-системе через анализатор протокола Keysight P5562CXLA. Анализатор захватывает последовательность установления связи и первые транзакции CXL.mem. Это позволяет инженерам отладить любые проблемы на уровне протокола, которые мешают операционной системе распознать и использовать дополнительную память.
- Этап 4: Оценка производительности. После того как устройство стабильно работает, его производительность измеряется с помощью программных инструментов, таких как Intel MLC (Memory Latency Checker). Измеряются реальные задержки и пропускная способность, а полученные результаты сопоставляются с данными, собранными на предыдущих этапах, для дальнейшей оптимизации прошивки и аппаратной части.
Эти примеры показывают, что тестирование и измерения — это не просто финальный контроль качества, а неотъемлемая часть всего процесса разработки и развертывания инфраструктуры ИИ. Использование передовых измерительных приборов на ранних стадиях проектирования («сдвиг влево») позволяет выявлять проблемы до того, как их исправление станет слишком дорогим, что значительно снижает риски, ускоряет выход продукта на рынок и повышает рентабельность всего проекта.
Заключение: Измерения как фундамент для ЦОД будущего
Переход к центрам обработки данных, ориентированным на искусственный интеллект, ставит перед инженерами и архитекторами новый класс сложных и взаимосвязанных задач в области целостности сигнала, целостности питания, соответствия протоколов и электромагнитной совместимости. Игнорирование любого из этих аспектов неизбежно приведет к созданию нестабильной, неэффективной и ненадежной инфраструктуры.
Единственный способ снизить эти риски и гарантировать, что многомиллионные, а в перспективе до 2025 года и многотриллионные, инвестиции в вычислительное оборудование для ИИ окупятся, — это внедрение комплексной, холистической стратегии тестирования и измерений. Такой подход, охватывающий все уровни от физического до протокольного, позволяет обеспечить производительность, надежность и совместимость всех компонентов системы.
Специалисты НТЦ «СПЕКТР» готовы предоставить исчерпывающую консультацию по подбору необходимого радиоизмерительного оборудования и помочь в решении самых сложных задач, стоящих на пути создания ЦОД (дата-центров) будущего. Обратившись к нам, вы получаете не просто поставщика оборудования, а надежного технологического партнера, способного помочь в построении фундамента для развития искусственного интеллекта.