— Алло, Саня, у нас тут 112-я стойка с GPU-фермой ушла в thermal throttle, через пять минут аварийный shutdown всего кластера! — в динамике дрожал голос дежурного инженера ЦОДа. Саня, руководитель инфраструктурной группы, отхлебнул остывший эспрессо и без эмоций бросил: «Охлаждай теперь, как в Формуле-1». 2026-й, российские LLM разогнали дата-центры до запредельных плотностей, и классический воздушный обдув больше не спасает. Если ваш ИИ ещё не в коллапсе, это лишь вопрос времени.
По данным CNews, энергопотребление российских ЦОД подскочило на 42 % за последние два года, и главный драйвер — именно GPU-кластеры под LLM-нагрузки.
Российский рынок ЦОДов переживает тектонический сдвиг: высокоплотные стойки с GPU и жидкостное охлаждение становятся не хайпом, а единственным способом выжить под нагрузками больших языковых моделей. И главное — отечественные вендоры уже предлагают интегрированные ПАК, которые по деньгам и надёжности дают фору западным аналогам. Давайте разбираться, как не попасть в аварию и построить ИИ-инфраструктуру, которая не дымится.
Почему воздушное охлаждение больше не держит удар: анатомия высокоплотных стоек
Представьте: вы ставите карбюраторный двигатель от «Жигулей» на современный болид «Формулы-1». На холостых оборотах вроде тарахтит, но как только даёшь полный газ — поршни летят в космос. Ровно так же работают воздушные кулеры в стойках с GPU под LLM-нагрузками. Когда вычислительная плотность достигает 120 кВт на стойку — а это реальность для кластеров, тренирующих модели вроде YandexGPT 4 или GigaChat, — воздух просто не успевает отводить тепло. PUE улетает к 2.5, счета за электричество бьют рекорды, а риск аварийного отключения дамажит дорогие ускорители.
Выход ровно один — переход на жидкостное охлаждение. И тут не всё однозначно. Прямое жидкостное на чип (Direct-to-Chip) отводит тепло прямо от процессора и GPU с помощью микроканальных пластин, сохраняя совместимость с воздушным окружением в зале. Иммерсионное охлаждение погружает серверы целиком в диэлектрическую жидкость — получаем PUE до 1.03, но вносим кучу сложностей с обслуживанием. Гибридные схемы комбинируют оба подхода. По данным тестов ITPOD, иммерсионка позволяет упаковывать до 128 GPU в одну стойку без деградации производительности. Выбор напрямую зависит от вашего текущего ЦОДа: если зал уже построен под воздушный обдув, прямой чип-подход внедряется быстрее и дешевле. А если стройка с нуля — задумайтесь об иммерсионной ванне, потому что высокоплотные стойки 120 кВт ЦОД иначе и не охладить.
От санкций к суверенитету: российские ПАК, которые реально работают с LLM
«Ну да, конечно, русское железо — сплошное отставание на пять лет», — слышу я скептический голос из кулуаров. А теперь вопрос: почему же тогда промышленные заказчики массово переходят на ПАК для LLM Россия реестр Минцифры, а отечественная ИИ-инфраструктура растёт быстрее финтеха в нулевых? Ответ проще, чем кажется: импортозамещение GPU серверов 2025 года дало неожиданный побочный эффект — российские сборщики вырвались вперёд по кастомизации и техподдержке. Западный вендор предлагает коробку с GPU A100 или H100 — и дальше разбирайся сам под санкционным зонтиком. А российские компании собирают ПАК под ключ, сертифицируют железо под конкретные фреймворки и предоставляют SLA с выездом инженера за 4 часа.
Давайте пройдёмся по флагманам, потому что ИИ-инфраструктура Россия 2026 тренды — это не единороги с презентаций, а вполне осязаемые платформы.
- Inferit (Yadro): серверы на базе собственных RISC-V-совместимых процессоров с ускорителями нейросетевых вычислений. Позиционируется как полностью суверенное решение, но пока доступны только под инференс небольших моделей.
- ITPOD + Ainergy: двойной удар — ITPOD даёт иммерсионную стойку, Ainergy — серверы с картами «Эльбрус-НТ» в партнёрстве с дружественными производителями GPU. Тесты на BLOOMZ 176B показали токен/с на уровне 80% от облачных инсталляций, и это без оптимизации.
- Rubytech Скала-р: платформа с GPU от китайских линеек (BiRen, Moore Threads), заточенная под фреймворки PyTorch и TensorFlow. Получила статус в реестре Минцифры в начале 2026-го, что открывает двери для госзакупок.
- К2 НейроТех: гибридное решение с поддержкой до 64 GPU в стойке, совместимое с прямым жидкостным охлаждением. Поставляется с предустановленным стеком MLOps, что резко сокращает время развёртывания.
Сводная таблица: российские ПАК для LLM
| Платформа | Поддерживаемые GPU | Производительность (токен/с)* | Тип охлаждения | Примерная цена за узел (млн руб.) | Реестр Минцифры |
|---|---|---|---|---|---|
| Inferit (Yadro) | Собственные нейроускорители | до 1200 (BLOOMZ-176B) | Воздушное / Прямое жидкостное опционально | 55–75 | Нет |
| ITPOD + Ainergy | «Эльбрус-НТ», дружественные GPU | до 2100 (BLOOMZ-176B) | Иммерсионное (ITPOD) | 90–110 | Да (ПАК Ainergy) |
| Rubytech Скала-р | BiRen BR100, Moore Threads | до 1850 (PyTorch LLM) | Гибридное (прямое + воздушное) | 80–100 | Да |
| К2 НейроТех | BiRen, Moore Threads, совместимые с PCIe GPU | до 2600 (собственные тесты на 64 GPU) | Прямое жидкостное | 120–140 | Ожидается в 2026 |
* Заявленная производительность в токенах в секунду на инференсе BLOOMZ-176B или эквивалентных моделях, данные вендоров.
Однако стоит держать в уме и подводные камни. Китайские GPU, такие как BiRen и Moore Threads, не полностью совместимы с CUDA-экосистемой — часть кода придётся адаптировать под их SDK. Иммерсионное охлаждение требует специальных диэлектрических жидкостей (например, фторуглеродных составов) и обучения персонала работе с герметичными ваннами. Не стоит забывать и о сертификации по взрывопожарной безопасности при использовании жидкостных систем.
Главный вывод из этого зоопарка: выбирать «российское» больше не означает идти на компромисс по производительности. Вопрос лишь в том, под какую задачу и какой бюджет вы собираете кластер.
Экономика «холодного» ИИ: сколько стоит, когда окупится и как получить субсидии
«— Иван Сергеевич, вы с ума сошли? Триста миллионов на какие-то ванны с маслом! У нас и так бюджет трещит, — Елена, финансовый директор, аж поперхнулась в переговорке. — Лен, — спокойно отвечает Алексей, технический лидер AI, — а теперь посчитай: каждая минута простоя нашего AI-консультанта в пиковые часы теряет 150 тысяч рублей выручки. За прошлый месяц из-за термального троттлинга мы потеряли 18 рабочих часов кластера. Умножь, сложи, и получи, что без иммерсионки мы через полгода просто перестанем быть на плаву. А тут ещё субсидия ФРП на 50% CAPEX по программе «Цифровая экономика», плюс Минпромторг возмещает до 20% затрат на отечественное оборудование, да и льготный лизинг через РФРИТ под 0% годовых. К тому же, электропотребление упадёт на 40%, и через два года мы выйдем в плюс.»
Диалог — чистый вымысел, но калькуляция реальна. Рассмотрим гипотетический AI-стартап «НейроСфера», решивший развернуть кластер для инференса своей LLM. Инвестиции в высокоплотные стойки с жидкостным охлаждением — это не косты, а страховка от потери доли рынка. Типичный кластер из 8 GPU-серверов с прямым жидкостным охлаждением от российского вендора обойдётся примерно в 95–120 млн рублей (без учёта GPU). Добавим 180 млн на ускорители. Возврат: ежегодная экономия на электричестве и обслуживании 35–50 млн, плюс избегание простоев. При поддержке ФРП (субсидия и льготный лизинг) совокупная стоимость владения (TCO) снижается на 30% за три года. Неплохо для железа, которое когда-то называли «баловством для гиков». Дополнительный бонус: статус программного-аппаратного комплекса из реестра даёт налоговые преференции и приоритет в госзакупках.
Ваш план действий: 5 шагов к ИИ-инфраструктуре 2026
Конечно, можно продолжать охлаждать стойки вентиляторами до 2030 года. Только не удивляйтесь, когда ваш ИИ начнёт отвечать с задержкой старых dial-up модемов, а конкуренты уйдут далеко вперёд. Шутки шутками, но план внедрения прост.
- Оцените будущие GPU-нагрузки. Спрогнозируйте объём инференса и частоту дообучения моделей, переведите в пиковую потребляемую мощность. Если суммарно уже сейчас планируется больше 30 кВт на стойку — воздух не справится.
- Выберите тип охлаждения под существующий зал. Для модернизации работающего ЦОДа — прямое жидкостное на чип. Строите новый — рассмотрите иммерсионное погружное, выигрыш по PUE колоссальный.
- Подберите ПАК из таблицы. Сравните Inferit, ITPOD+Ainergy, Rubytech Скала-р, К2 НейроТех по поддержке нужного GPU, производительности на ваших моделях и стоимости. Запросите у вендоров тестовый стенд на 2–4 GPU: пусть докажут цифры в деле.
- Подайте заявку на субсидии. Изучите программы ФРП, гранты РФРИТ и льготное кредитование – сейчас государство активно поддерживает импортозамещение в ИИ.
- Запустите пилот на 3–4 недели. Подключите мониторинг, замерьте реальный токен/с и стабильность. Только после успешного пилота масштабируйте.
Теперь вы знаете: переход на высокоплотные стойки с жидкостным охлаждением — не фантазия, а рабочий план. Выберите из нашего списка подходящий ПАК, запросите пилотный тест у российского вендора и проверьте его на своих LLM-задачах. Не дайте инфраструктуре стать узким горлышком вашего ИИ-бизнеса. Остались вопросы? Напишите в комментариях — поможем с конкретными расчётами под ваш проект.
Мнение редактора
Пока одни кормят «хайп» вокруг импортозамещения, другие тихо ставят российские ПАК и считают экономию на охлаждении. ИИ приходит в российские дата-центры как цунами, и тот, кто сейчас вложится в высокоплотные стойки с иммерсионкой, через год будет снимать сливки с LLM-бума. А тот, кто будет ждать устаревших «воздушных» решений, останется на обочине, подсчитывая счета за электричество и потери от простоев. Деньги, как всегда, не пахнут — особенно если их охлаждать по науке.
Комментарии (0)
Комментариев пока нет. Будьте первым!