Исследователи удваивают скорость обучения ИИ, просто сокращая время простоя графического процессора

Обучение больших языковых моделей обходится очень дорого. Дело не только в увеличении количества графических процессоров, но и в том, насколько эффективно вы их используете. А по мере масштабирования моделей даже небольшая неэффективность может обернуться огромными затратами времени и энергии.

Теперь команда исследователей из Массачусетского технологического института, сотрудничающая с такими компаниями, как NVidia, заявляет, что нашла удивительно практичный способ восстановить потраченные впустую вычислительные ресурсы во время обучения — в некоторых случаях общее время обучения сокращается почти вдвое.

Наши социальные сети: MAX, Telegram, VK, Dzen, Rutube

Проблема, на которую они нацелены, заключается в обучении с подкреплением (RL), особенно на этапе, известном как “развертывание”. На этом этапе модель генерирует несколько возможных ответов, чтобы узнать, какое поведение приводит к лучшим результатам. Это важно для LLM, ориентированных на логику, но в то же время требует много времени.

На самом деле, на стадию внедрения может приходиться до 85% общего времени выполнения. Виной всему то, что исследователи называют “неравномерным распределением” длин ответов. Большинство сгенерированных ответов завершаются быстро. Но небольшое количество из них выполняется намного дольше, чем в среднем. Поскольку графическим процессорам требуется синхронизация, более быстрые из них часто простаивают в ожидании завершения работы отставших.

Решение команды Массачусетского технологического института, получившее название Taming the Long Tail (TLT), полностью устраняет эту проблему. Вместо того, чтобы позволить графическим процессорам простаивать в течение долгих поколений, TLT использует это время простоя для обучения облегченной “черновой” модели на лету. Эта уменьшенная модель непрерывно обучается на основе основной модели в процессе обучения.

Идея основана на спекулятивном декодировании, методе, при котором уменьшенная модель предсказывает токены раньше основной модели, так что несколько токенов могут быть проверены параллельно. Традиционное спекулятивное декодирование основано на фиксированной черновой модели, которая быстро устаревает по мере развития первичной модели в процессе обучения с подкреплением.

TLT изменяет эту динамику. Переобучая составителя, используя ресурсы, которые в противном случае не использовались бы, система поддерживает соответствие черновой модели основной модели, не требуя дополнительных выделенных вычислений.

В ходе экспериментов с несколькими учебными программами, ориентированными на логическое мышление, и наборами реальных данных были получены значительные результаты. Исследователи сообщают о повышении скорости обучения от 70% до 210% по сравнению со строгими базовыми показателями, что фактически удваивает скорость обучения во многих сценариях. Важно отметить, что точность модели осталась неизменной.

Есть также интересное дополнительное преимущество: постоянно обучаемый составитель сам по себе становится полезным артефактом. Поскольку он обучается вместе с основной моделью, он может служить эффективной моделью логического вывода в определенных контекстах.

Эта работа указывает на более широкую тему исследований в области искусственного интеллекта в настоящее время: оптимизация, а не грубая сила. Вместо бесконечного наращивания кластеров исследователи все чаще ищут способы повысить производительность уже имеющегося оборудования.

Если такие подходы, как TLT, окажутся эффективными в более крупных промышленных масштабах, они могут значительно снизить как финансовые, так и экологические затраты на обучение логическим моделям следующего поколения.

AppSetter | Android | ПК | Новости | Сравнения и обзоры