AI‑центры обработки данных стремительно меняют архитектуру и экономику серверов. И если раньше главным «узким местом» казался сам ускоритель, сегодня вся игра смещается в сторону памяти: её пропускной способности, энергопотребления и компактности. Это видно и по рынку (записи о рекордных доходах на компонентах для серверов в 2024 году достигли $244 млрд, по данным Dell’Oro), и по технологической повестке: SK hynix представила первый в мире 16‑уровневый HBM3E, развивает малопотребляющие DRAM‑модули SOCAMM5 для AI‑серверов, а также демонстрирует направление «вычисления у памяти» (AiMX‑xPU) для ускорения инференса LLM. В этой статье разберём, почему память стала главным рычагом эффективности AI‑серверов и как это влияет на TCO, надёжность и производительность ваших стоек.
Почему память стала площадкой, где решается исход AI‑нагрузок
Большие модели — это не только про терафлопсы и количество ускорителей. «Матрицы голодны до данных»: им нужна не просто вычислительная мощность, но и огромный, стабильный поток данных. Как шоссе для мегаполиса: если не расширить полосы (пропускную способность), самые мощные машины застрянут в пробке.
HBM3E и «широкая река» данных
HBM (High Bandwidth Memory) — это память, собранная в вертикальные «этажи» и расположенная рядом с кристаллом вычислителя. Такая близость и широченная шина дают радикально более высокую полосу пропускания, чем классические DIMM‑модули. В конце 2024 года SK hynix представила первый в мире 16‑уровневый HBM3E. Для дата‑центров это не просто очередной шаг в номенклатуре — это ответ на сообщение отрасли: «моделям нужна река, а не ручей».
Чем выше стек, тем больше объём и полоса пропускания на модуль и тем выше шанс раскрыть производительность ускорителя на реальных задачах — от тренировки до инференса больших языковых моделей. Плюс, чем больше объём HBM «рядом с кристаллом», тем чаще данные остаются «на месте» и тем реже приходится метаться к системной DRAM и дискам.
Рынок подтверждает тренд
Данные за 2024 год говорят сами за себя: SK hynix показала рекордные квартальные доходы и улучшение операционной прибыли благодаря спросу на AI‑память, а в 2025 компания ожидала более чем двукратный рост продаж AI‑чипов. Одновременно, по оценке Dell’Oro, совокупные доходы от серверных и сторидж‑компонентов в 2024 году достигли $244 млрд, что напрямую связано с взрывным ростом AI‑нагрузок. В одной из рыночных сводок начала 2026 года также отмечалось, что SK hynix выступает эксклюзивным поставщиком HBM3E, а поставки AI‑серверных ASIC к 2027 году утроятся относительно 2024‑го. Даже если смотреть на это как на сильный сценарий, сигнал очевиден: «память — это темп роста всей AI‑системы».
Экономика: как память «приземляется» в TCO
Влияние памяти на TCO (total cost of ownership) проявляется на трёх уровнях:
- Производительность и утилизация ускорителей. Узкое горлышко памяти снижает загрузку ускорителей и продлевает время обучения/инференса. Чем меньше узкое место — тем меньше узлов для той же задачи.
- Энергопотребление и тепловой режим. Каждый ватт, сэкономленный в памяти, — это минус к теплу и минус к требованию по охлаждению. Это влияет на PUE и на возможность плотнее «упаковать» стойки.
- Надёжность и простои. Чем ближе и быстрее память, тем меньше «переездов данных» и меньше узловых точек отказа по пути. Это не отменяет грамотного дизайна, но снижает вероятность перегрузки связей и «горячих» ошибок.
Если совсем «на пальцах»: «ускоритель без быстрой памяти — как гоночный болид на грунтовой дороге; без стабильной и экономной системной памяти — как болид с недокрученными колесами».
HBM3E и вертикальный рост: как пропускная способность меняет архитектуру стойки
Что именно даёт 16‑уровневая HBM3E
Представленный SK hynix 16‑high HBM3E — это больше ёмкости и больше полосы на один пакет, а значит выше шанс удерживать большие фрагменты модели и её активные данные «рядом» с вычислителем. Это уменьшает обращения в «внешнюю» память и I/O, сокращая задержки и энергозатраты на перемещение данных.
Ключевые эффекты для проекта:
- Меньше узлов под одну задачу. Рост локальной памяти около вычислителя снижает фрагментацию модели и коммуникационные накладные расходы. Итог: меньше серверов в кластере для той же цели — это экономия на капексе, сети и лицензиях.
- Более предсказуемые SLA. Когда данные не «гуляют» по шасси и между узлами, меньше разброс по латентности. В инференсе это конвертируется в стабильный p95/p99 и предсказуемую цену за запрос.
- Компактнее охлаждение. Плотность растёт, но и маршруты данных укорачиваются — часть тепловых рисков снимается за счёт меньших энергозатрат на I/O. Это особенно важно в стойках с высокими лимитами мощности.
Снабжение и риски планирования
Быстрый рост рынка AI‑памяти с 2024 года сделал её ключевым фактором планирования. Поставщики памяти, включая SK hynix, наращивают объёмы, но окно доступности и конфигурации «на пике» спроса может колебаться. Если ориентироваться на рыночные сводки начала 2026 года, часть OEM‑линеек временно завязана на ограниченный перечень HBM3E‑поставок. Практический вывод: бронируйте память и связанные конфигурации заранее, чтобы не оказаться с «узлом без топлива» на финальном этапе ввода кластера.
Тепловой и силовой бюджет
BOM AI‑сервера сегодня строится не только «вокруг ускорителя», но и «вокруг тепла памяти». Чем выше стек и частоты, тем важнее проектирование охлаждения, airflow и совместимости с выбранной стойкой. Планы по densification без учёта характера памяти приведут к ситуациям, когда железо есть, а реальная утилизация упирается в температурные потолки. «Сначала считаете тепло и питание, потом считаете FLOPS» — это новый здравый смысл для AI‑стойки.
Системная DRAM в эпоху AI: SOCAMM5 и малопотребляющие модули
Зачем AI‑серверу особая DRAM, если есть HBM
HBM рядом с ускорителем решает вопрос «узкого места» для тензорных вычислений. Но системная DRAM по‑прежнему нужна — под CPU‑часть, под буферизацию, под работу сервисов оркестрации и под задачи, где ускоритель не используется на 100%. В AI‑стойках системная память превращается в «логистический центр»: если центр работает экономно и предсказуемо, кластер выдаёт более высокий средний TPS/час.
SK hynix разрабатывает SOCAMM5 — малопотребляющий DRAM‑модуль для AI‑серверов с уменьшенным форм‑фактором. Идея проста: меньше ватт на гигабайт и более компактная укладка модулей без потерь для пропускной способности системного контура. Это напрямую бьёт по TCO: меньше энергии и тепла — меньше требований к охлаждению и выше стойкочасовая производительность.
Где выигрывает SOCAMM5
- Энергоёмкие стойки. В стойках с подводимой мощностью «на пределе» малопотребляющие DRAM‑модули высвобождают десятки ватт на узел под полезную работу ускорителей или под рост плотности.
- Сервисная надёжность. Меньше тепла — мягче температурный режим для компонентов. Это значит меньше внезапных деградаций и троттлинга. В результате возрастает стабильность работы кластера на пиках.
- Компоновка. Уменьшенный форм‑фактор помогает в дизайне плат и шасси: проще развести airflow, обеспечить доступ для обслуживания, разместить больше NVMe или сетевых карт без компромиссов.
Типовой кейс: инференс‑кластер среднего масштаба
Представим типовую конфигурацию для инференса LLM/визуальных моделей, где системная DRAM давно стала «невидимым» потребителем энергии. Переход на малопотребляющие модули уровня SOCAMM5 меняет баланс: высвобождаются десятки ватт на сервер (а в стойке — уже сотни ватт), что позволяет держать стабильные частоты ускорителей в жаркие часы, не уходя в троттлинг. В пересчёте на год — заметная экономия на охлаждении и больше «полезных запросов» из той же стойки. В реальной экономике это превращается в снижение стоимости инференса на запрос при сохранении SLA.
Вычисления у памяти: взгляд вперёд с AiMX‑xPU
Почему «таскать» данные дороже, чем считать
Сегодняшние AI‑нагрузки упираются не только в вычисления, но и в перемещение данных. Фактическая цена каждого гигабайта, «прогнанного» через памяти и шины, — это ватт‑часы и время. Чем чаще модель «ходит» за данными, тем больше «налога на транспорт» мы платим. Отсюда интерес к концепциям compute‑in‑memory и near‑memory computing.
AiMX‑xPU: что показал вектор SK hynix
На Hot Chips 2024 SK hynix представила концепт AiMX‑xPU — решение для более эффективного инференса LLM за счёт выполнения части операций в самой памяти. Простая мысль: «перемещать меньше, обрабатывать ближе». Это особенно выигрышно для шаблонных, массовых операций, которые хорошо ложатся на аппаратные блоки около массивов памяти.
Практические эффекты, к которым стремятся такие архитектуры:
- Меньше I/O‑движения. Снижается «налог на транспорт» данных — экономия ваттов и времени на каждом токене/кадре.
- Устойчивые задержки. Ближе вычисление — стабильнее латентность, меньше разброс p95/p99.
- Новые профили стоек. Появляются серверы, в которых роль системной памяти и специализированных xPU ближе, чем раньше. Это влияет на дизайн шин, охлаждения и кабель‑менеджмента.
Важно: подобные решения не отменяют HBM и быструю системную DRAM — они дополняют их, подрезая хвост «бесполезных перемещений». С инженерной точки зрения это как поставить кэш прямо у склада: основной поток быстрее, а «мелкие забеги» сокращаются.
Горизонт планирования
С учётом динамики рынка (по отраслевым оценкам, поставки AI‑специфичных ASIC к 2027 году могут утроиться относительно 2024‑го), в ближайшие 2–3 года мы увидим больше «память‑ориентированных» узлов. Это значит, что закупочные циклы по памяти и системным платам будут так же критичны, как и по ускорителям. «Выбирая AI‑сервер, вы выбираете не только вычислитель, вы выбираете память как стратегический ресурс» — эта мысль уже звучит в команде любого архитектора дата‑центра.
Как перевести «память‑центричность» в практику: архитектура, снабжение, TCO
1) Проанализируйте профиль нагрузки
Для тренировки и инференса «памятные» узкие места отличаются. Для тренировки ключевая метрика — полоса к ускорителю (HBM) и межузловые коммуникации, чтобы раскрывать масштаб. Для инференса — латентность и экономия ваттов на токен/запрос. Это диктует разные приоритеты при выборе конфигурации памяти.
- Тренировка больших моделей. Приоритизируйте узлы с максимальной HBM‑ёмкостью и полосой, чтобы реже «вываливаться» в системную DRAM. Планируйте питание и охлаждение с запасом под плотность памяти.
- Ифнеренс LLM/мультимодальных моделей. Смотрите в сторону решений, где малопотребляющая системная DRAM и продуманная архитектура памяти/k‑кэшей снижают «цены» на токен — вплоть до концепций near‑memory.
2) Заложите память в расчёт TCO с первого дня
Исторически многие TCO‑калькуляции «выпрямляли» память в общие ватт‑часы узла. В AI это больше не работает. Стоит явно вынести память в отдельные статьи:
- Ватты на гигабайт (W/GB). Сравните модули системной DRAM по удельному энергопотреблению. Малопотребляющие решения (уровня SOCAMM5) снизят постоянную составляющую потребления узла.
- Полосы на ватт (GB/s/W). Для HBM важно не просто «больше слоёв», а сколько реальной полосы вы получаете в рамках вашего теплового конверта.
- Стоимость простоя из‑за перегрева. Учтите, во сколько обходятся «тепловые окна», когда узел вынужден снижать частоты из‑за памяти и I/O.
3) Снабжение: бронь, альтернативы, совместимость
Спрос на HBM и специализированную DRAM высок и волатилен. Практические шаги:
- Бронируйте конфигурации заранее. Закрепляйте поставки памяти вместе с ускорителями и материнскими платами — единым пакетом.
- План B по поколению. Имейте зафиксированные альтернативы по поколениям HBM/DRAM в случае сдвигов сроков.
- Совместимость и сервис. Проверяйте списки совместимых модулей и режимы охлаждения от вендора серверов. Не все шасси одинаково дружат с высокими стековыми решениями по теплу.
4) Дизайн стойки: охлаждение и энергоразвёртка «от памяти»
Потоки воздуха и температурные градиенты в AI‑стойке часто определяются не ускорителями, а именно узлами памяти и их расположением.
- Airflow zoning. Проектируйте коридоры и направляющие так, чтобы память и VRM получали приоритетный поток, особенно в узлах с HBM3E.
- Сенсоры и телеметрия. Собирайте метрики температуры памяти и полосы. На основе телеметрии корректируйте прошивки вентиляторов и профили питания.
- Охлаждение жидкостью. В узлах предельной плотности рассмотрите гибридные решения: жидкость для «горячих точек» и воздух для остального. Умный компромисс часто дешевле «полного» жидкостного.
5) Эксплуатация: наблюдаемость и политик‑драйвинг
Когда память становится «первым классом гражданства» в AI‑узле, мониторинг должен это отражать:
- Пороговые алерты по температуре памяти. Проактивно снижайте частоты или перераспределяйте задачи до того, как узел войдёт в зону троттлинга.
- Съём p95/p99 по латентности инференса. Это «истинная» цена памяти в SLA. Если хвост растёт — смотрите на горячие наборы данных и кэши.
- Политики шедулинга с учётом памяти. Для шумных соседей — квантизация, offloading в кэш‑рядом‑с‑памятью; для «чистых» задач — максимальная близость к HBM.
Типовые сценарии внедрения
Сценарий A: кластер обучения с уклоном в HBM3E. Цель — сократить время обучения больших моделей. Выбор узлов с высокой HBM‑ёмкостью и полосой даёт рост утилизации ускорителей и снижает объём межузловых коммуникаций. Результат — меньше серверов в расчётной конфигурации, ниже затраты на сеть и охлаждение стойки. Для бизнеса это означает ускорение вывода моделей в прод и снижение стоимости одной эпохи обучения.
Сценарий B: инференс‑ферма с экономной системной DRAM. Цель — стабилизировать и удешевить стоимость одного запроса. Переход на малопотребляющие DRAM‑модули (уровня SOCAMM5) и продуманное кэширование около памяти уменьшают «налог на транспорт», сглаживают пиковые температуры и удерживают частоты ускорителей. Выигрыш — предсказуемые p95/p99 и лучший TPS/ватт.
Сценарий C: пилот near‑memory для LLM‑инференса. Цель — срезать перемещения данных для типовых операций. Концепции вроде AiMX‑xPU показывают, как часть операций переносится в память. Даже пилот на части пула полезен: он выявляет, где «сгорают» ватты на I/O и как архитектурно это исправить.
Итоги и практические рекомендации
AI меняет экономику дата‑центров, и память — главный ускоритель этих изменений. Рынок это подтверждает: в 2024 году компоненты для серверов и хранилищ вышли на исторический максимум выручки, SK hynix зафиксировала рекордные квартальные показатели благодаря AI‑памяти и вывела в лидеры 16‑уровневую HBM3E, параллельно двигаясь к малопотребляющим DRAM‑модулям для AI‑узлов и показывая вектор compute‑in‑memory. В 2025 году ожидания по двукратному росту продаж AI‑чипов подчёркивают: память — не «деталь», а «политический актёр» вашего TCO.
Что делать прямо сейчас:
- Поставьте память в центр архитектуры. Проектируйте AI‑узлы и стойки с учётом HBM и системной DRAM как ключевых источников тепла и производительности.
- Считайте TCO «с памятью на первом экране». Введите отдельные KPI: W/GB для DRAM, GB/s/W для HBM, стоимость хвостов p95/p99.
- Планируйте снабжение заранее. Закрепляйте поставки памяти пакетно с ускорителями и шасси, держите альтернативы по поколениям.
- Оптимизируйте эксплуатацию. Расширьте телеметрию, калибруйте профили охлаждения, встраивайте политику шедулинга, учитывающую память.
- Оцените перспективы near‑memory. Даже пилот даёт практические инсайты, где и как вы теряете ватт‑часы на I/O.
В сухом остатке: «Память — это новая география вашего дата‑центра». Перерисуйте карту — и вы обнаружите, что на той же площади можно провести больше «магистралей», пустить по ним больше «трафика» и тратить меньше «топлива». Для владельца бизнеса это означает быстрее окупаемые кластеры и большую предсказуемость расходов; для инженера — стойки, где мощность действительно превращается в работу; для IT‑директора — бюджет, который не «горит» в кондиционерах, а работает на рост продукта.

