Жидкостное охлаждение: новый стандарт для ИИ‑ЦОД

admin19 января 202609:12

Когда в стойку заезжает плотный ИИ‑пул из GPU и NPU, привычная «ветродуйка» перестаёт справляться. Воздух просто не успевает унести тепло: как если бы вы пытались охладить турбированный мотор, дыша на него. Отсюда перегревы, троттлинг, неуловимые сбои и растущие счета за электричество. Именно поэтому в 2025–2026 годах в отрасли оформилась одна простая, но ключевая идея: жидкостное охлаждение перестало быть опцией и стало стандартом для высокоплотных и ИИ‑нагрузок. Как прямо формулирует Huawei Digital Power: «liquid cooling is no longer optional — it's essential» и «liquid cooling is an inevitable trend».

В этой статье мы разберёмся без перегруза терминологией: что такое жидкостное охлаждение на уровне сервера и объекта, почему оно резко снижает TCO, где пролегает порог целесообразности (спойлер: около 15 кВт на стойку), и как перейти к нему по шагам, не рискуя бизнесом. Всё — на базе открытых материалов Huawei и отраслевых наблюдений, но в «переводе» на язык практики.

Почему именно жидкостное охлаждение стало стандартом для AI

Физика простыми словами

Вода и специализированные жидкости отводят тепло эффективнее воздуха — их теплоёмкость и теплопроводность выше. Поэтому жидкостное охлаждение на уровне сервера — это, как описывают специалисты Huawei, циркуляция воды или специальных хладагентов, которые забирают тепло напрямую от процессоров и модулей памяти и уносят его в контур теплообмена. Не через толстый слой воздуха и десяток вентиляторов, а «адресно», от самой горячей точки.

Результат вы видите в железе: меньше шума, стабильная температура кристаллов, выше базовые и турбочастоты под нагрузкой, меньше «зубцов» на графиках телеметрии. В масштабах стойки — возможность поднимать плотность без перехода в «режим духовки».

Спрос толкают ИИ‑нагрузки

По оценкам Huawei, сценарии с GPU и NPU неизбежно приводят к высоким плотностям — и это главный двигатель тренда. В одном из обзорных материалов компания подчёркивает: непрерывное охлаждение станет обязательной возможностью для высокоплотных контуров. И это логично: если у вас в стойке 30–60 кВт и больше, любой перерыв в теплоотводе — это не просто «горячо», это быстрый разгон до критики и остановка машин. Для ИИ‑ферм перебои в охлаждении равны простоям и потерянным эпохам обучения — то есть прямым деньгам.

Точка невозврата для воздуха — около 15 кВт/стойка

Практичное правило из инженерных блогов Huawei: при тепловой плотности выше типичного предела воздушного охлаждения — около 15 кВт на стойку — приоритет у жидкости. Можно выжимать из воздуха больше (холодные коридоры, повышенное давление, in-row), но сложность и энергозатраты растут быстрее пользы. Этот порог — хороший ориентир для планирования: всё, что стабильно выше 15 кВт/стойка, разумно переводить на жидкость.

Как это работает: простая анатомия контура

От кристалла до «сухого» градирни

Ниже — минимум «анатомии», чтобы инженер, айтишник и владелец бизнеса говорили об одном и том же:

Серверный уровень (server-level liquid cooling). В серверах стоят водоблоки на CPU/GPU и горячих компонентах. Через них циркулирует охлаждающая жидкость (вода, диэлектрические или ингибированные составы) и снимает тепло напрямую с чипа.
Стойка/ряд (CDU — Coolant Distribution Unit). В стойке или рядом стоит распределительный модуль, который отделяет «чистый» серверный контур от магистрали объекта, следит за расходом, давлением и температурой. Это своего рода «сердце» локального контура.
Объектовый уровень. Далее тепло уносится по трубам на теплообменники и далее — на сухие охладители, чиллеры или в систему утилизации тепла. На этом уровне появляется «большая автоматика»: насосные группы, клапаны, байпасы, датчики и контроллеры.

В свежих разработках Huawei встречается понятие thermal management unit — по сути, это переосмысленный узел теплового тракта, который объединяет интеллект управления, датчики и арматуру в одном звене. Идея проста: меньше «зоопарка» компонентов, больше наблюдаемости и предсказуемости. Умные алгоритмы подстраивают расходы и температуры под реальную нагрузку, а не просто «крутят насосы на максимум».

Жидкостное и гибридное охлаждение: не только про сервера

Показателен широкий контекст: у Huawei уже есть гибридное (воздух + жидкость) охлаждение в системах накопителей энергии (BESS) и полножидкостные конструкции в других энергетических продуктах. Это важно не потому, что «зарядки и ESS — это дата‑центр», а потому что подходы к надёжности, долговечности и контролю тепла унифицируются. Один и тот же инженерный здравый смысл: высокая плотность — значит жидкость; нужна управляемость и ресурс — значит интеллектуальное тепловое звено.

Про безопасность и «страх утечек»

Страх понятен: «вода и электроника — опасно». Но конструктивно жидкостные серверы — это не таз с водой, а герметичные, протестированные контуры с детекцией утечек и ограничением объёма жидкости в каждом фрагменте. В индустрии используются ингибированные составы и диэлектрики, снижающие риски. Как и в автомобилях, у нас не «ведро антифриза на моторе», а закрытая система с защитой и телеметрией.

Экономика: от PUE до TCO

Энергия: когда PUE падает вдвое

Ключевая цифра, которую можно и нужно приносить на совещания: по данным Huawei, полножидкостное охлаждение позволяет снизить энергопотребление на 96% и уменьшить PUE с 2.2 до 1.1. В реальных проектах величина эффекта будет зависеть от климата, архитектуры здания и профиля нагрузки, но вектор очевиден: тепловой тракт из «главного потребителя» становится «тонким слоем» в энергобалансе. Всё больше электроэнергии идёт на полезные вычисления, а не на прокачку воздуха.

Если говорить «на пальцах»: PUE=2.2 означает, что на каждый 1 кВт IT‑нагрузки уходит ещё 1.2 кВт на всё остальное (включая охлаждение). PUE=1.1 — это всего 0.1 кВт сверху. Разница — десятки процентов операционных затрат. Именно поэтому в материалах Huawei звучит категорично: жидкость — это уже стандарт, а не «экспериментальщина».

Надёжность и непрерывность: охлаждение как «критическая ИБП‑нагрузка»

Высокоплотный ИИ‑зал требует не только экономного, но и непрерывного охлаждения. В трендах Huawei на 2025 год подчёркивается: uninterrupted cooling становится обязательной возможностью. На практике это означает три инженерных решения:

Резервирование насосов и контуров. N+1/N+N на ключевых узлах, чтобы потеря одного элемента не превращалась в «сауну».
Питание от ИБП/БИАС не только для IT, но и для теплового тракта. Включая управляющую автоматику и критичные насосы. В противном случае при банальном просадке сети у вас «остаются живы» серверы, но им нечем дышать.
Интеллект управления. Тепловые узлы, подобные упомянутому thermal management unit, поддерживают тепловой баланс адаптивно, без перегонов жидкости «в никуда», и заранее видят деградацию элементов.

Отдельный плюс — синергия с современными системами накопления энергии. Производители уже интегрируют полужидкостное охлаждение и интеллектуальные контроллеры в BESS, а также реализуют grid‑forming (GFM) — возможность формировать сетевое напряжение при нарушениях в магистральной сети. Это прямо бьёт по риску «остановки охлаждения при скачке напряжения»: насосы и автоматика получают стабильное питание, пока сеть «плывёт».

Плотность и площадь: меньше стоек, больше полезной нагрузки

Жидкость «вытягивает» стойку выше воздушного порога ~15 кВт и даёт реальную консолидацию. Меньше стоек — меньше коммутаторов ToR, короче кабели, проще план верхнего уровня. В результате складывается эффект «второго порядка»: экономия не только на электричестве и вентиляции, но и на пространстве, инфраструктуре и операциях.

Термодинамика и производительность: устойчивая частота против троттлинга

Для CIO и владельца бизнеса перевод «с инженерного»: стабильная температура — это стабильная производительность. ИИ‑узлы под воздушным охлаждением в пиковые часы «ловят» троттлинг и «ступенчатую» производительность. Жидкость сглаживает пики и даёт ровную полку частот. Это прямо влияет на SLA: обучение/инференс укладывается в прогноз, а не сдвигается в ночь из‑за жары.

Жизненный цикл: меньше «песка» в вентилях и больше ресурса

Снижение температуры силовой и электронной части продлевает жизнь компонентов — от VRM до конденсаторов. В других продуктовых линейках Huawei отмечает, что полножидкостный дизайн ассоциирован с длительным сроком службы (10+ лет на физических устройствах другого класса). Для ИИ‑серверов логика та же: плавный тепловой режим — меньше термоциклов и отвалов. Итог — предсказуемость CAPEX‑инвестиций и меньше незапланированных простоев.

Порог перехода и дорожная карта внедрения

Где начинается «обязательная жидкость»

Удобный «светофор» для решений:

До ~10–12 кВт/стойка — воздух ещё экономичен, особенно если стойки разнесены и есть базовая организация потоков (холодные/горячие коридоры).
Около 15 кВт/стойка — порог, после которого воздух начинает требовать непропорциональных усилий; здесь жидкость уже предпочтительна.
20–30 кВт/стойка и выше — практическая «территория жидкости». ИИ‑пулы и тесные HPC‑ряды попадают сюда почти всегда.

Эти ориентиры резонируют с публикациями Huawei: для плотностей сверх ~15 кВт/стойка приоритет у жидкостных решений, а непрерывность охлаждения — must‑have.

Пошаговая миграция: без остановки бизнеса

Реалистичный план перехода, который хорошо работает в полевых проектах:

1) Аудит тепловой карты. Снимите реальный профиль: где и когда у вас пики, насколько стойки перегружены, какие «горячие пятна» стабильны.
2) Выделите пилотный ряд. Начните с самого «жаркого» ИИ‑пула. Цель — быстрый, измеримый результат: падение PUE на участке, исчезновение троттлинга, рост стабильности.
3) Выбор архитектуры. Для новых залов — полножидкостная архитектура «с нуля» (серверы с водоблоками + CDU + объектовый контур). Для действующих — гибрид: оставляете воздух как базовый фон (для вспомогательного IT), жидкость — для ИИ‑кластеров.
4) Тепловое звено и автоматика. Закладывайте единый «интеллект тепла» (thermal management unit‑класс) на уровне ряда/зала: это резко упрощает управление и даёт прогнозируемость. Цель — не «перекачивать» лишнее, а ровно держать тепловой баланс.
5) Непрерывность питания охлаждения. Подведите ИБП/источник к насосам и контроллерам тепла. Рассмотрите связку с BESS: современные накопители с жидкостным охлаждением и GFM‑функцией помогают переживать сетевые аномалии без потери охлаждения.
6) Мониторинг и SLA. Переопределите метрики: добавьте «температура кристаллов», «время до перегрева при потере питания», «реакция контура на всплески». SLA по охлаждению должен быть таким же прозрачным, как SLA по сети.

Кейсы и наблюдения «с полей»

Ниже — типичные сценарии, которые мы регулярно видим при переходе на жидкость. Они правдоподобны и логически следуют из публичных материалов и типовой инженерной практики.

ИИ‑компания с растущим кластером. Исходно — 12 кВт/стойка на воздухе, рост до 20–25 кВт на этапе масштабирования. После перевода ИИ‑пула на жидкость — исчезновение троттлинга в пиковые окна и стабилизация времени обучения. PUE участка падает к значениям, существенно ниже «воздушных». Бизнес‑эффект — предсказуемость сроков релизов моделей.
Enterprise‑ЦОД со смешанной нагрузкой. Офисные ИТ остаются на воздухе, ИИ/рендер — на жидкости. Общий PUE по площадке заметно улучшается за счёт «пулов» с жидкостной секцией. Эффект масштаба: меньше стойко‑мест, проще трассировка и меньше коммутаторов на верхнем уровне.
Региональный интегратор. В пилотном ряду внедряет thermal management unit‑подход: меньше разнородной арматуры, больше датчиков и логики. Результат — быстрый ввод без «детских болезней», точный прогноз поведения при авариях (моделируемых на стенде).

Эти кейсы не «магия», а следствие двух простых вещей: у жидкости выше эффективность теплоотвода, а у «умного теплового звена» — предсказуемость и управляемость.

Типовые возражения и как на них отвечать

«Это слишком сложно». Сложно — значит плохо спроектировано. Практика идёт к унификации узлов и контроллеров. Современные решения упрощают контур так же, как модульные ИБП упростили силовую часть.
«Это дорого». Считайте TCO. Падение PUE с 2.2 до 1.1 по данным Huawei — это фундаментальная экономия OPEX на горизонте лет. Плюс консолидация стойко‑мест и снижение аварийности.
«А если потечёт?» Герметичные контуры, детекция утечек, ограничение объёма жидкости на сегмент, ингибированные составы. Риск управляем и, как правило, ниже, чем риск перегревов и остановок на воздухе при высоких плотностях.

Что делать на практике: чек‑лист для ИИ‑ЦОД

Перед стартом проекта

Соберите телеметрию по температуре кристаллов, расходам воздуха, тепловым картам рядов.
Отметьте стойки >15 кВт — кандидаты №1 на жидкость.
Определите KPI: целевой PUE по участку, допустимые температурные колебания, целевой аптайм охлаждения.

Проектирование

Выберите архитектуру: полножидкостная «с нуля» для новых залов или гибрид для действующих.
Спроектируйте тепловое звено с интеллектуальным контролем (уровня thermal management unit), резервами насосов и линий.
Заложите непрерывность — питание от ИБП/БИАС для критичных элементов охлаждения, опционально связка с BESS c возможностями GFM.
Учтите сервис: доступность компонентов, фильтрация, стандартизированные процедуры обслуживания.

Ввод и эксплуатация

Пилотируйте на одном ряду, фиксируйте базовую линию и эффект (температуры, PUE, стабильность частот).
Обучите дежурных: что мониторить, какие тревоги критичны, как действовать при отказах.
Отработайте сценарии: потеря одного насоса, кратковременная потеря внешнего питания, всплеск нагрузки.
Масштабируйте на остальные ряды, сохраняя унифицированную архитектуру и SLA.

Почему именно сейчас

Рынок уже «переключился». В белых книгах и на отраслевых конференциях звучит одна и та же мысль: для ИИ‑инфраструктуры жидкость — мейнстрим. Это не эксперимент, а нормальная эволюция охлаждения, как переход с ламп на светодиоды. У производителей появляются зрелые серверные платформы под жидкость, у интеграторов — опыт, у вендоров инфраструктуры — готовые модули. Ожидать «чего‑то ещё» — значит добровольно оставаться в зоне низкой эффективности.

Цифры, которые стоит запомнить

~15 кВт/стойка — верхний предел, при котором воздух ещё экономичен. Выше — отдайте приоритет жидкости.
PUE 2.2 → 1.1 — ориентир улучшения при полножидкостной архитектуре по данным Huawei. Это десятки процентов экономии OPEX.
«Uninterrupted cooling» — не пожелание, а требование для высокоплотных залов. Резервы, питание, автоматика.

Заключение: фокус на простом — тепло должно уходить быстро и всегда

ИИ‑дата‑центр — это про плотность и предсказуемость. Плотность рождает тепло, а тепло — риски и расходы. Жидкостное охлаждение отвечает на оба вызова одновременно: в разы эффективнее уносит тепло и снижает энергопрофиль, стабилизируя производительность. Не случайно в отраслевых обзорах 2025–2026 годов звучит жёстко: жидкость — это не больше «опция».

На практике переход не требует революций. Начните с пилота в самом горячем ряду, заложите интеллектуальное тепловое звено и непрерывность питания, измерьте эффект и масштабируйте. В основе — те же инженерные принципы, что уже доказали себя в других высокоплотных отраслях: закрытые контуры, умная автоматика, резервирование. И не забывайте про главный критерий здравого смысла: тепло должно уходить быстро и всегда. Если сегодня воздух ещё справляется — хорошо. Но как только стойки уверенно перешагнули 15 кВт, считайте, что жидкость уже «стучится в дверь».

Итог для экономики: снижение PUE к значениям около 1.1 (по данным Huawei для полножидкостных решений), меньше стоек при той же мощности, меньше аварийности и «скрытых» простоях, а значит — меньший TCO на горизонте всего жизненного цикла. Итог для бизнеса — быстрее и предсказуемее выводить ИИ‑продукты, не упираясь в потолок термодинамики.

Если вам нужен стартовый комплект рекомендаций под вашу площадку, начинайте с трёх вопросов: где ваши стойки >15 кВт, какие из них критичны по SLA, и сколько вы готовы инвестировать в «умное» тепловое звено. Ответив на них, вы поймёте масштаб пилота и получите быстрый путь к экономике, которую невозможно было бы «выжать» из воздуха.