17 ноября 202509:12

Если вчера серверы проектировали вокруг CPU и стоек, то сегодня порядок меняется: главной осью становится тепло. В эпоху ИИ горячими точками стали модули памяти и ускорители. На этом фоне сразу две тенденции из новостной повестки задают новый курс для ИТ-инфраструктуры: память HBM4, которая разлетается ещё до начала массовых поставок, и оптические SSD, позволяющие выносить накопители подальше от источников тепла и собирать системы по принципу «охлаждение прежде всего». Рассмотрим, как эти тренды перестраивают сервера и дата-центры, и где здесь деньги — в надёжности, производительности и TCO.

AI‑память и тепло: что изменилось

Память стала топливом ИИ. И это не метафора — это новости. В сентябре 2025 года SK hynix объявила, что завершила разработку HBM4 и готовит массовое производство, а уже в октябре компания сообщила, что весь объём чипов на 2026 год продан. Ранее в марте говорили о сильном спросе со стороны ИИ и ранних поставках первых HBM4. В параллель — рост прибыли на 62%: рынок проголосовал кошельком, подтверждая, что именно память стала узким местом и драйвером стоимости.

Почему это важно для архитектуры серверов и дата-центров? Потому что HBM — это сверхвысокая плотность и пропускная способность, а значит — концентрированное тепловыделение. Когда «мозг» ИИ (ускорители с HBM) греется, как небольшая ферма, привычные принципы «добавим ещё один вентилятор» перестают работать. Нужен сдвиг парадигмы: проектирование от теплового бюджета, а не от процессорных сокетов.

Вторая новость — оптические SSD. В материалах Kioxia говорится о подходе, где используются оптические соединения, чтобы «удалить» серверные компоненты и расположить их по уровню тепловыделения, подбирая под них соответствующее охлаждение — жидкостное или воздушное. Переводя на простой язык: накопители больше не обязаны «греться» рядом с горячими ускорителями. Можно вынести их в холодную зону, а «печки» — держать там, где им легче гасить температуру.

Эти две линии сходятся в одном: тепловая архитектура становится основой инфраструктуры ИИ. И если спрос на HBM4 уже выкуплен, то любая ошибка в охлаждении будет стоить дорого: недогрузка ускорителей, троттлинг, повышенный износ и потери производительности.

Оптические SSD и «расширение» компонентов: охлаждаем сначала, подключаем потом

Что такое оптическое «расширение»

Идея проста: привычные серверы собирают компоненты плотно — CPU, ускорители, память и SSD сидят бок о бок ради минимальной задержки. Но это как ставить печь, холодильник и серверную в одну комнату — потом мы удивляемся счетам за кондиционирование. С оптическими линками можно развести «горячих» и «холодных» соседей по разным «комнатам» и заказывать для них оптимальные способы отвода тепла.

В публикации Kioxia подчёркивается: оптика позволяет удлинить связи, переставляя компоненты по уровню тепла, и комбинировать охлаждение — жидкостное для горячего контура и воздушное там, где достаточно притока. Для дата-центров это стратегический выигрыш: свобода компоновки и точечное применение дорогих методов охлаждения там, где они действительно нужны.

Термины на пальцах

  • Тепловой бюджет — сколько тепла система может «переварить» без деградации. Представьте, что это лимит по весу на мосту: если перегрузили — мост скрипит, а затем и ломается.
  • Тепловая зона — участок стойки или ряда с заданной температурой и типом охлаждения. «Горячая полка» для ускорителей и «прохладная полка» для накопителей — логика супермаркета, только вместо еды у нас электроника.
  • Оптическое соединение — «удлинитель» с маленькими потерями и высокими скоростями, который позволяет физически разнести компоненты, не расплачиваясь задержками так сильно, как на медных кабелях.

Почему оптика помогает с TCO

Смешивать всё в одной стойке — значит тратить больше на универсальное охлаждение «на всякий случай». Оптика разрешает построить «матрёшку» из зон:

  • жидкостной контур для ускорителей с HBM4;
  • интенсивная направленная продувка для CPU и памяти;
  • умеренная вентиляция для вынесенных оптических SSD.

Такой подход снижает фан-пауэр, даёт меньше горячих точек и увеличивает ресурс компонентов. Kioxia в своих материалах по обращению с памятью рекомендует меры вроде принудительного обдува, низкотепловых плат и радиаторов — всё это кирпичики одной стены: снижая тепловое сопротивление и стабилизируя режим, мы продлеваем жизнь микросхемам и сокращаем отказы.

Надёжность против «термошока»: почему аккуратное охлаждение окупается

Тесты реальности и реальность тестов

В руководствах по надёжности Kioxia прямо говорится: в тестах применяется жидкость (например, в испытаниях на тепловой шок), а циклирование температур гоняет устройство между низкими и высокими значениями хранения. Смысл ясен: резкие перепады — враг надёжности. Это инженерная «банальность», но именно она чаще всего бьёт по бюджету: компоненты, работающие на грани, выходят из строя внезапно и пачками.

Отсюда практический вывод: наша цель — не экстремально низкая температура, а стабильная. «Лучший ватт — нерасходуемый, а лучшая температура — предсказуемая», — так любят говорить теплотехники. И тут оптическое «расширение» плюс грамотное разделение контуров дают выигрыш: мы минимизируем перепады, переставляя «горячие» и «холодные» роли между зонами, а не в пределах одной полки.

Охлаждение — не только внутри стойки

Экосистема охлаждения тянется до крыши здания. В отчётах по окружающей среде фабрики в Иоккаити подчёркивается: воздух, выходящий из градирни, охлаждается внешним воздухом и превращается в белый водяной пар — обычное явление для испарительных систем. Для оператора это напоминание: всё, что происходит в стойке, отражается на водяном и воздушном контурах здания, на шуме, вибрациях и, в итоге, на счёте за энергию и обслуживании. Если «подлечить» стойку — разгрузится и крыша.

Квантовый «экстрим» как наглядный урок

В материалах о квантовых вычислениях Kioxia напоминает: квантовые компьютеры работают примерно при 10 мК, чуть выше абсолютного нуля, благодаря жидкому гелию. Звучит как фантастика, но это хорошая притча для ИТ: чем ближе вы к физическим пределам, тем дороже каждый градус. Нам, конечно, не нужна криогеника для ИИ, но принцип один — тепло диктует архитектуру.

Экономика: где охлаждение отбивает деньги

Три канала возврата инвестиций

  • Производительность без троттлинга. Ускоритель или память, работающие без перегрева, держат паспортные частоты. Иначе вы платите за «газ в пол», но едете на ручнике.
  • Надёжность и срок службы. Снижение термошока и стабилизация температурного профиля уменьшают число отказов. Это меньше простоя, RMA и незапланированных выездов.
  • Энергия и инфраструктура. Разделение горячих и холодных контуров сокращает избыточную вентиляцию и позволяет точечно использовать жидкостное охлаждение — там, где оно даёт максимальный эффект.

Добавим фактор рынка: по новостям, HBM4 на 2026 год у SK hynix уже раскуплен. Вы не просто конкурируете за компоненты — вы конкурируете за стабильность их режима. «Достали — берегите», иначе следующей партии ждать дольше и дороже.

Цепочка причин и следствий

  • Сильный спрос на ИИ —> рост плотности вычислений —> горячие точки в зонах памяти/ускорителей.
  • Горячие точки —> троттлинг и ускоренный износ —> потеря производительности и рост RMA.
  • Оптическая дисагрегация —> гибкое размещение SSD и прочих «холодных» компонентов —> снижение фонового нагрева и упрощение контуров охлаждения.
  • Грамотная термопрактика (обдув, низкотепловые платы, радиаторы) —> меньше термошока —> выше надёжность.

Практика: как перейти на cooling‑first для AI‑пула

Шаг 1. Признайте тепло системным требованием

Перенесите тепловой бюджет в разряд «функциональных требований». Это не «потом сделаем». В спецификации на серверы и ряды заведите несколько обязательных пунктов:

  • максимально допустимый температурный градиент по стойке и по узлам;
  • тип охлаждения в зоне ускорителей (например, жидкостной контур) и в зоне накопителей (направленный воздушный обдув);
  • ограничения по вибрациям и шуму для стоек с массивом SSD (актуально по материалам об акустике и вибрации — меньше побочных эффектов, выше срок службы).

Шаг 2. Разведите «горячее» и «холодное»

Используйте оптические соединения, чтобы вынести SSD из «печки». По мотивам подхода Kioxia, группируйте компоненты по теплу и назначайте им соответствующее охлаждение. Простой шаблон компоновки:

  • полки ускорителей и модулей с высокой теплоотдачей — в жидкостной контур или усиленный воздушный тоннель;
  • полки CPU/DRAM — усиленный направленный обдув с низкотепловыми платами;
  • полки оптических SSD — в прохладной части стойки/ряда, с мягким режимом вентиляции.

Пусть кабели диктует оптика, а не медь. Это даёт свободу перестановки без потерь в стабильности.

Шаг 3. Внедрите «тёплые» практики из руководств

Рекомендации по обращению с памятью от Kioxia — это не «бумажная бюрократия», а чек‑лист выживания:

  • принудительный обдув — не экономьте на правильных вентиляторах и воздуховодах;
  • платы из материалов с низким тепловым сопротивлением — тепло должно уходить, как по широкому шоссе, а не по просёлочной дороге;
  • радиаторы — подбирайте по тепловой модели узла, а не «по виду».

Эти меры снижают температуру и сглаживают перепады, что прямиком влияет на отказоустойчивость. В терминах из руководства по надёжности: меньше циклов «жарко-холодно» — меньше усталости материалов.

Шаг 4. Планируйте закупки по-новому

С учётом того, что SK hynix уже закрыла продажи HBM4 на следующий год, стратегия закупок должна учитывать дефицит. Правила простые:

  • закрепляйте поставки заранее — в ИИ‑волне времени «потом» часто уже нет;
  • диверсифицируйте поставщиков по типам памяти и конфигурациям узлов;
  • обновляйте дизайн «от охлаждения»: если не хватает горячих компонентов, вынос «холодных» (SSD) и улучшение охлаждения могут дать такой рост стабильности, что текущие узлы проживут дольше в пике.

Шаг 5. Меряйте, а не гадайте

Включите энерго‑и термометрию в эксплуатацию: тепловизоры при вводе в строй, датчики в горячих точках и телеметрия по узлам. «Если вы не видите тепло — вы не управляете им», — говорят инженеры по дата‑центрам. Снимайте тепловые карты до и после «расширения» компонентов оптикой и фиксируйте эффект.

Шаг 6. Учитесь у сообщества

Открытые инициативы, вроде ежегодного OCP Korea Tech Day, помогают сверять часы: там обсуждают реальные конструкции и практики. Следуйте за наработками сообщества — это ускорит внедрение и снизит риски.

Кейсы: как это выглядит в жизни

Кейс 1 (гипотетический, на основе подходов из публикаций): AI‑кластер и вынесенные оптические SSD

Интегратор собирает кластер под ИИ‑задачи. Узлы с ускорителями и HBM4 в пиковых режимах перегревают стойку. Вместо того чтобы «доливать» вентиляторы, команда:

  • перестраивает ряд на зоны: горячая секция под жидкостной контур для ускорителей, прохладная — для накопителей;
  • переносит SSD на оптические линки в «холодный» сегмент ряда;
  • применяет принудительный направленный обдув для CPU/DRAM и ставит радиаторы в соответствии с тепловой моделью.

Результат: стабильные частоты ускорителей в пике и отсутствие троттлинга, снижение шума вентиляторов и меньшие перепады температур. Экономика складывается из меньшего простоя и более ровной производительности — заказчик получает предсказуемое время отклика модели.

Кейс 2 (гипотетический): «тепловая профилактика» против RMA

Оператор замечает учащённые отказы накопителей и модулей памяти в одной зоне. Термосъёмка показывает «пилу» температурного режима: то жарко, то холодно. Команда вводит правила из руководств по обращению с памятью: увеличивает направленный обдув, меняет материалы плат на низкотепловые, ставит радиаторы и сглаживает профиль вентиляции. Параллельно выносит «холодные» SSD из горячей полки, используя оптические соединения. Итог — меньше термошока и снижение отказов. Это не магия, а следствие правил инженерии: стабильность температуры = стабильность материалов.

Кейс 3 (рыночный контекст, по новостям): планирование закупок с учётом дефицита HBM4

Компания планирует расширение ИИ‑пула, но узнаёт, что производство HBM4 на следующий год уже распродано у крупного поставщика. Решение — резервирование партий заранее, и временная стратегия: повышение эффективности текущих узлов за счёт охлаждения. Вынос SSD в прохладные зоны, снижение фан‑пауэра, аккуратные профили вентиляции, отказ от «пилы» нагрева. Суммарная выгода — больше «полезных часов» у существующих ускорителей до прихода новых партий памяти.

Разбор полётов: типовые ошибки и как их избежать

Ошибка 1. «Давайте ещё вентиляторов»

Дополнительные вентиляторы без перепланировки потоков часто создают турбулентность и локальные «мертвые зоны». Лучше меньше, но направленнее. Жидкостный контур для «печек», мягкая вентиляция для «холодных», оптика как мост между ними.

Ошибка 2. «Накопители не греются — их можно не трогать»

Накопители греть не любят вовсе. Материалы по обращению с памятью напоминают: принудительный обдув и радиаторы — это базовая гигиена. SSD в горячей полке рядом с ускорителем — как мороженое на солнце: таять будет, даже если само «холодное». Оптика позволяет вынести их из зоны риска.

Ошибка 3. «Температура важна только в пике»

Ключевое — не пик, а стабильность. Руководства по надёжности подчёркивают вред температурного циклирования. Настройте системы так, чтобы избегать «пилы»: плавные переходы и предсказуемые профили охлаждения.

Инструментарий: как измерять и доказывать пользу

Метрики

  • процент времени без троттлинга у ускорителей;
  • стабильность частот под длительной нагрузкой;
  • температурные карты до/после выноса SSD;
  • статистика отказов (до и после) для памяти и накопителей;
  • энергопотребление фан‑пауэра по зонам.

Процедуры

  • тепловизионный аудит при вводе и после изменений;
  • нагрузочные тесты с длинными плато, чтобы вскрыть «пилу» температур;
  • контроль вибрации и шума возле полок с накопителями.

На стороне фацилизации полезно следить за состоянием градирен и внешних контуров — тот самый «белый пар», о котором говорят в отчётах: визуальная часть уравнения не менее важна для предсказуемости.

Что говорят инженеры (коротко и по делу)

  • «Охлаждение — это тоже вычисления. Мы вычисляем, куда уйдёт каждый ватт».
  • «Оптика — это свобода планировки. Свобода — это меньше компромиссов в тепле».
  • «Надёжность — это гладкая температура. Зубцы пилы режут срок службы».

Производители и экосистема: куда всё движется

Рынок памяти ускоряется. По новостям, SK hynix завершила разработку HBM4 и готовится к массовому производству, а спрос на 2026 год уже зафиксирован. Параллельно индустрия прорабатывает оптическое «расширение» — подход, который Kioxia прямо связывает с возможностью выкладывать компоненты по теплу и подбирать им охлаждение. Сообщество Open Compute (например, ежегодные Tech Day в Корее) поддерживает обсуждение открытых дизайнов, где такие решения становятся нормой.

Глобальный тренд читается однозначно: выйти из эры «коробок в стойке» и войти в эру «тепловых систем с вычислениями внутри». Это звучит непривычно, но именно так выглядят зрелые архитектуры для ИИ‑нагрузок.

Заключение: что делать на практике

Если сжать всё в план на 90 дней, он будет таким:

  • примите «охлаждение-first» как требование архитектуры и внесите его в спецификации;
  • перепланируйте ряды на зоны: горячая для ускорителей, прохладная для накопителей;
  • выносите SSD на оптические соединения, снижайте фон нагрева в «холодной» зоне;
  • выполните «гигиену памяти»: принудительный обдув, низкотепловые платы, радиаторы;
  • включите термометрию и тепловизию в эксплуатацию — меряйте эффект;
  • забронируйте поставки «горячих» компонентов заранее, учитывая новости о дефиците HBM4;
  • ориентируйтесь на наработки сообщества и практические руководства — меньше теории, больше проверенных схем.

И помните главный принцип, который объединяет все источники — от заметок про оптические SSD до руководств по надёжности и отчётов о работе охлаждающих систем: тепло должно быть предсказуемым. Сделайте его таким — и дата‑центр отблагодарит вас скоростью, стабильностью и меньшими счетами. В эпоху ИИ выиграет не тот, кто поставит больше железа, а тот, кто научится правильно управлять ваттами и градусами.