Блоги: заметки с тегом gpu

FP8 и Nvidia A100

Евгений Степанищев — Thu, 09 Oct 2025 22:08:18 +0500

Недавно вышла новая модель Qwen3 с 80 миллиардами параметров. Мы её решили попробовать, но оказалось, что версия фреймоворка vllm, которую мы используем, с ним несовместима. Чтобы не экспериментировать на своём оборудовании, арендовали у «Селектела» две Nvidia A100. Хотели что-нибудь поновее, но всё расхватали.

Модель рассчитывали взять квантованную до FP8, такая есть в выпущенном наборе моделей. Нам она хорошо подходит — как раз уместится в память наших карт. Я рассчитываю, что 80 миллиардов с точностью восемь бит побьют предыдущие тридцать с вдвое большей точностью.

Но нас тут ждало разочарование — карты A100 тип FP8 не поддерживают, есть только эмуляция через FP16. Так как карты с FP8 всё равно пока арендовать не получится, выделили себе четыре A100 и поставили полную модель, без квантованния. Не совсем то, что хотелось, но всё равно полезно посмотреть как встанет и немного погонять по производительности.

В итоге, «завалить» модель одновременными соединениями не вышло (модели, которые мы крутили на одной или двух H100 заваливались), время ответа от нашего эталонного промпта получилось от 3,59 секунд до 8,74. Это очень быстро.

Qwen3, T4 и разные фреймворки

Евгений Степанищев — Wed, 27 Aug 2025 23:15:04 +0500

Евгений Степанищев:

Ещё немного знаний о запуске моделей на картах T4.

Во-первых, карты T4 не поддерживают тип bfloat16, поэтому при запуске надо указать параметр dtype со значением half.

При этом, если вы используете фреймворк vllm и получаете ошибку «Unsupported conversion from f16 to f16», то вероятно у вас установлена библиотека triton с багом. Надо её либо обновить до последней версии, либо сдаунгрейдить до 3.2.0. Первое нам не помогло, а вот даунгрейд выручил.

Во-вторых, вот у нас восемь карт с памятью по 16 гигабайт каждая, всего 128 гигабайт. Модель Qwen3-30B там запустится, простой расчёт в уме для этого я показывал. А что если нам надо запустить на тех же картах ещё что-то?

Не проблема, давайте запустим не на всех картах, а скажем на пяти, 80 гигабайт же должно хватить, но не тут-то было. Количество карт, с которыми будет работать модель, должно делить 32 нацело — это особенность архитектуры модели и её запуска на фреймворке.

Соответственно, мы можем запустить Qwen3-30B только на восьми картах — на четырёх картах и меньше просто места не хватит, а остальное число карт не подходит.

Поэтому чтобы уместить на этих картах что-то ещё, надо «поджать» количество потребляемой памяти на каждой из карт. Это делается параметром gpu-memory-utilization, при этом придётся ещё и скорректировать max_model_len, чтобы генерируемое умещалось в кеши.

И последнее. Это слабо связано с предыдущим, но куда-то записать хочется. Чтобы скомилировать llama.cpp восьмой версией GCC, надо использовать следующие команды:

cmake -S llama.cpp -B llama.cpp/build \
  -DCMAKE_CUDA_ARCHITECTURES=75 \
  -DCMAKE_CUDA_FLAGS="-fPIC" \
  -DCMAKE_CXX_STANDARD=17 \
  -DCMAKE_CXX_STANDARD_LIBRARIES="-lstdc++fs" \
  -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON

cmake --build llama.cpp/build --config Release -j --clean-first \
--target llama-cli llama-gguf-split llama-server

Добавлено позже: проблема тут в том, что GCC до версии 10 не содержит std::filesystem в стандартной библиотеке, её можно подключить снаружи, но надо, чтобы она попала в конец линковки.

GPU и охлаждение

Евгений Степанищев — Sun, 24 Aug 2025 02:37:58 +0500

Евгений Степанищев:

Вот проблема хорошего решения которой я не знаю.

Дано: серверный корпус, специально разработанный под установку графических ускорителей. Внутри установлены две карты Nvidia H100, которые греются, как сволочи. Не сказать, что на критических температурах, но как-то слишком горячо.

Проблема, как я её понимаю, в том, что в корпусе есть вентиляторы, есть датчики на материнской плате и процессорах и система корпуса знает обороты какого вентилятора поднять, чтобы всё это не перегрелось. Но у графических ускорителей свои датчики, о которых эта система не имеет ни малейшего понятия.

В теории всем этим мог бы управлять Линукс, который там стоит, но он тоже понятия не имеет какими вентиляторами надо подуть, чтобы картам стало легче. То ли у нас это не настроено, то ли в принципе не настраивается.

Проблему решили, выставив повышенные обороты на вентиляторах корпуса. Теперь всё холодное даже под нагрузкой — на графических ускорителях около 30 градусов. Но как будто должно быть какое-то более изящное решение.

Какая модель у меня запустится?

Евгений Степанищев — Fri, 15 Aug 2025 20:10:06 +0500

Евгений Степанищев:

Как узнать какая нейромодель у запустится на конкретной видеокарте? Вот, например, приходит к нам заказчик и говорит — у нас есть только две Nvidia T4, запустится ли на ней модель, которую вы используете? Как быстро ответить на этот вопрос?

Судя по спецификации, каждая T4 имеет на борту 16 гигабайт видеопамяти. Для целей, на которые нам выделяют видеокарты, мы используем модель Qwen 3-30B, то есть у неё 30 миллиардов параметров.

Каждый параметр хранится в двух байтах, плюс процентов 20 надо накинуть на всякие буферы. В итоге, получается, что нам нужно 30×2+20% = 80 гигабайт. 20% я грубо накидываю, можно вычислять точнее, но для прикидки сойдёт.

Две карты по 16 могут работать вместе, современные фреймворки так умеют, то есть совокупно у нас всего 32 гигабайта. То есть модель не умещается?

Полная модель не уместится, но есть квантованные версии. Дело в том, что модели хранят свои параметры в виде чисел с плавающей точкой. Чем точнее мы храним эти числа, тем лучше работает модель (в своих пределах, конечно). Если памяти у нас мало, хорошее решение — снизить точность. Модель от этого «поглупеет», но это может оказаться некритично.

Мы выбрали квантование в 4 бита, то есть по половинке байта на модель. Таким образом, потребуется 30×0,5+20% = 18 гигабайт. Чуть-чуть не влезаем на одну видеокарту, но прогноз такой, что две должно хватить.

Большую группу пользователей эти видеокарты не вывезут — всё-таки мощность у них невелика, но для небольших организаций (десятки человек) на наших задачах работать будет.

Квантованная модель Qwen3-30B, работающий на 2×Nvidia T4 16 ГБ

Ещё немного про Nvidia H100 NVL

Евгений Степанищев — Sun, 10 Aug 2025 20:44:18 +0500

Евгений Степанищев:

Надо бы записать ещё немного фактов про Nvidia H100 NVL, которую мы недавно запускали. А то забудется, а в интернете очень мало описано опыта людьми, которые делали что-либо с ней руками.

Блок питания с подходящим для питания энвидевских карт разъёмом

Во-первых, повторюсь, — как я уже писал, карточка может работать в двух режимах, потребляя 310 или 400 Ватт. Отличается она в них, как легко догадаться, производительностью.

Сначала мы запустили её в менее производительном режиме, так было быстрее — переходник я просто купил на «Авито» за наличку и забрал в течение часа. Позже мы получили блок питания, у которого есть специальный разъём для мощных видеокарт, с которого можно снять до 600 Ватт включительно.

Во-вторых, в спецификации написано, что карта работает на шинах четвёртого и пятого поколения. На самом деле это не так, в интернете встречаются ссылки, где упоминается, что карта работает и на шине третьего поколения, просто обмен с ней будет медленнее. Могу на практическом опыте утверждать — это правда, на третьем поколении тоже работает.

И, наконец, в-третьих, с этим мы боролись дольше всего. Если плата видна на шине (команда ls-pci), но драйвер её не видит, загляните в dmesg. Возможно там видно ошибки, которые я привёл на скриншоте.

Если это так, включите в БИОСе опцию RBAR (ReBAR, Resizeable BAR), а в параметры ядра добавьте опцию pci=realloc (последнее, возможно, не обязательно, но утверждать не берусь).

Китайская Nvidia A100

Евгений Степанищев — Wed, 06 Aug 2025 20:01:38 +0500

Евгений Степанищев:

У одного из клиентов в качестве оборудования для запуска нейросетевых моделей обнаружилось чудо-чудное — две карты Nvidia A100 96GB. Чудо заключается в том, что согласно спецификации на сайте производителя таких карт не существует — бывают только на 40 и 80 гигабайт, да и 500 Ватт они не кушают.

Я только вчера где-то читал, что в Китае есть огромный вторичный рынок энвидевских видеокарт — китайцы научились их ремонтировать и улучшать.

Оказывается под «улучшать» понимается наращивание памяти и разблокировка дополнительных ядер. При этом, чтобы всё это можно было использовать, на видеокарту заливается взломанная прошивка.

Вот, кстати, непонятно — ядра заблокированы потому что они неисправны или это маркетинговый ход. Если первое, значит они могут работать с ошибками, а как их диагностировать и на чём это скажется — ума не приложу.

Добавлено позднее: в комментариях в канале справедливо заметили, что может быть и то и другое. Раньше так тоже делали — в процессоре делали дополнительные ядра, тестировали и, даже если все ядра были исправными, всё равно выключали часть, чтобы выпускать процессоры в рамках одной линейки.

Питание для Nvidia Tesla H100 NVL

Евгений Степанищев — Wed, 30 Jul 2025 18:24:07 +0500

Евгений Степанищев:

Хочу записать себе новые знания.

Видеокарта Nvidia Tesla H100, про которую я вчера писал, вставляется в шину PCIe пятого поколения. Оттуда она может получить максимум 75 Ватт, тогда как карте надо больше. Она может работать, согласно спецификации, в одном из двух режимов — с потреблением 310 или 400 Ватт в пике.

Для этого используется вот такой кабель. Ток, который он может подвести от разъёма материнской платы, ограничен сечением проводов внутри кабеля. Оно может различаться в зависимости от производителя. Но как карта узнаёт сколько мощности ей можно получить, чтобы не пережечь кабель?

Оказывается, для этого используется специальный интерфейс, четыре контакта которого видно слева.

Два провода из четырёх кодируют ток, который может отдавать кабель, остальные два сейчас не используются. Сигналы 0 и 1 на этих проводах означают мощность от 151 до 300 Ватт, 1 и 0 — от 301 до 450.

Бывают токи и выше, кодировка для них тоже предусмотрена, для этого используются провода с большим количеством «хвостов» — три или четыре.

Nvidia Tesla H100 NVL

Евгений Степанищев — Tue, 29 Jul 2025 21:13:04 +0500

Евгений Степанищев:

Вот так выглядит видеокарта Nvidia Tesla H100 NVL — одна из трёх карт, на которых мы гоняем различные модели искусственного интеллекта. Сбоку видно, что она большая, но и толщина у неё огого — в два пальца. Извините, что не достал, страшно доставать карту стоимостью в несколько миллионов из антистатического пакетика — вдруг статикой убъёшь.

На этой карте мы гоняем небольшие пока модели — примерно 30—32 миллиарда параметров (Qwen3, Magistral, Mistral, T-Pro 2 и так далее), но в перспективе там будет работать что-то побольше — ≈600 миллиардов или около того.

К слову, взаимодействие с хвалёной моделью T-Pro 2 (её делал Т-Банк) меня как-то разочаровало — медленная и иногда циклится на цифрах. Я попробовал её, помимо всего прочего, на написании эскуэль-запросов, так она иногда вместо имён таблиц внезапно начинает генерить огромные числа. Я ни разу не дождался конца, поэтому не знаю есть ли там вообще конец.

DeepSeek R1 на A100

Евгений Степанищев — Fri, 14 Mar 2025 14:06:56 +0500

Евгений Степанищев:

Как я уже писал, мы попробовали позапускать «Дипсик Эр1» на разных конфигурациях графических ускорителей NVIDIA A100. Запускали не полную модель, а квантизованную. Неясно насколько она глупее на наших задачах, бегло попробовали разные тесты, как будто бы от квантизации она пострадала несильно.

Я собирался написать об этом ещё раз, когда мы разберёмся с подходящей конфигурацией, но как-то позабыл.

Выводы следующие.

Для того, чтобы модель поместилась в видеопамять, суммарно нужно около 150 гигабайт. То есть две Nvidia A100 по 80 ГБ подходят. Эта конфигурация позволяет работать одному пользователю в один момент времени. Остальные будут ждать, когда ресурс освободится. Соответственно, конфигурация, которая у меня на скриншоте, может отвечать одновременно двум пользователям.

При этом оперативная память почти не используется. Её можно выделять очень мало.

Если модель в видеопамять не умещается, она может загружаться в оперативную память, но при этом скорость её работы сильно падает, не советую.

Ядер центрального процессора при этом много не надо. Иногда по непонятной причине они нагружаются, но не сильно. Около пары десятков ядер хватает за глаза, можно было уменьшать, но мы этот параметр не крутили.

Покупать при этом, конечно же, надо не A100, а H100, у них сейчас самое выгодное соотношение цена/вычислительная мощность. Ждать их дольше, но оно того стоит.

Горячие русские нейросети

Евгений Степанищев — Wed, 08 Feb 2023 12:52:41 +0500

Евгений Степанищев:

Недавно показывал наш набор начинающего гуртовщика нейросетей. На днях мы докупили недостающее и собрали машинку для экспериментов, которую я мучаю уже второй день.

На ней достаточно успешно запустился мой прототип и даже показал очень хорошие результаты по качеству, но время работы оставляет желать лучшего — всё-таки карточки, которые у нас стоят, довольно старенькие — 2016-го года.

В этой связи очень вовремя у меня в комментариях появился представитель «Селектела», вчера мы связались, надеюсь сегодня получится взять у них что-нибудь более мощное.

Температура 42,7° на корпусе, внутри ещё жарче

Если один процесс наша машина ещё вытягивает, то двадцать процессов, запущенные параллельно, тут же превратили корпус в финскую баню — снаружи температура почти 43°, на центральном процессоре — 79, слишком горячо. Такое ощущение, что моё кунг-фу пока не позволяет эффективно перераспределить задачу на GPU.

Показатели с сенсоров на процессоре, было 79° С, ещё двадцать градусов и вскипит вода в водяном охлаждении

В общем, эксперимент по запуску параллельных процессов пришлось прервать, побоялся перегреть процессор. Попробую ещё запустить двадцать потоков, может так эффективнее будет.

Будем дрессировать нейросети

Евгений Степанищев — Fri, 03 Feb 2023 20:52:29 +0500

Евгений Степанищев:

Мой интерес к искусственному интеллекту до сих пор был скорее частным — на работе мы этот класс алгоритмов почти не использовали, хотя и делали осторожные подходы к предмету. Но всё меняется — в последнее время активно исследуем тему, дошли даже до того, чтобы попробовать растить собственные модели. Всё это пока немного «на коленке», первые опыты — собираем своей первый стенд из того, что удалось быстро раздобыть.

Моя прелесть — две немного уже старенькие NVIDIA Tesla M10 (P2405)

Мать s2066, 8xDDR4, Asus, PRIME X299-A II, Intel X299, процессор Intel, s2066, Core i9 9820X, 3300Мгц, 10 ядер, L3 16,5MB с водяным охлаждением

Потом собираемся прикупить четыре «Теслы» T4, чтобы вставить их в серверный четырёхюнитовый корпус, но это всё быстро в наше время не раздобыть.