Как стать автором
Обновить

Почему создание больших ИИ обходится в миллиарды — и как китайский стартап DeepSeek кардинально изменил рынок

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров1.5K
Автор оригинала: Laura Hood

Современные системы искусственного интеллекта, такие как ChatGPT от OpenAI, Gemini от Google и Claude от Anthropic, поразили воображение общественности, создавая беглый текст на нескольких языках в ответ на запросы пользователей. Эти компании также попали в заголовки газет благодаря огромным суммам, которые они вложили в создание всё более мощных моделей.

Китайский ИИ-стартап DeepSeek разрушил ожидания относительно того, сколько денег необходимо для создания новейших и лучших ИИ. Тем самым они поставили под сомнение миллиардные инвестиции крупных игроков рынка ИИ.

Я изучаю машинное обучение. Подрывной дебют DeepSeek связан не с каким-то потрясающим технологическим прорывом, а с проверенной временем практикой: поиском эффективности. В области, которая потребляет огромные вычислительные ресурсы, это оказалось очень важным.

Где скрываются затраты

Разработка таких мощных систем искусственного интеллекта начинается с создания большой языковой модели. Большая языковая модель предсказывает следующее слово на основе предыдущих слов. Например, если начало предложения звучит так: «Теория относительности была открыта Альбертом», то большая языковая модель может предсказать, что следующим словом будет «Эйнштейн». Большие языковые модели обучаются таким предсказаниям в процессе, который называется предварительным обучением.

Предварительное обучение требует большого количества данных и вычислительных мощностей. Компании собирают данные, просматривая веб-страницы и сканируя книги. Вычисления обычно осуществляются с помощью графических процессоров, или GPU. Почему именно графических? Оказывается, и компьютерная графика, и искусственные нейронные сети, лежащие в основе больших языковых моделей, опираются на одну и ту же область математики, известную как линейная алгебра. Большие языковые модели хранят внутри себя сотни миллиардов чисел, называемых параметрами или весами. Именно эти веса изменяются в процессе предварительного обучения.

Однако предварительного обучения недостаточно для создания такого потребительского продукта, как ChatGPT. Предварительно обученная большая языковая модель обычно не очень хорошо выполняет инструкции человека. Она также может не соответствовать предпочтениям человека. Например, она может выводить вредные или оскорбительные выражения, которые часто встречаются в текстах в Интернете.

Поэтому предварительно обученная модель обычно проходит дополнительные этапы обучения. Одним из таких этапов является настройка инструкций, когда модели показывают примеры человеческих инструкций и ожидаемых реакций. После настройки инструкций наступает этап, называемый обучением с подкреплением на основе обратной связи от человека. На этом этапе аннотаторам показывают несколько ответов большой языковой модели на одну и ту же подсказку. Затем аннотаторов просят указать, какой ответ им больше нравится.

Легко понять, как возрастают затраты при создании модели ИИ: наём высококлассных специалистов в области ИИ, строительство центра обработки данных с тысячами графических процессоров, сбор данных для предварительного обучения и выполнение предварительного обучения на графических процессорах. Кроме того, затраты связаны со сбором данных и вычислениями на этапах настройки инструкций и обучения с подкреплением на основе обратной связи от людей.

В совокупности затраты на создание передовой модели ИИ могут достигать 100 миллионов долларов США. Обучение на GPU является значительной составляющей общей стоимости.

Расходы не заканчиваются, когда модель готова. Когда модель развёрнута и отвечает на запросы пользователя, она использует больше вычислений, известных как время тестирования [test time] или подсчёт времени выдачи [inference time compute]. Для вычислений времени тестирования также требуются графические процессоры. В декабре 2024 года OpenAI объявила о новом феномене, который они наблюдали в своей последней модели o1: по мере увеличения количества вычислений во время тестирования модель лучше справлялась с задачами на логическое мышление, таких как математическая олимпиада и конкурсные задачи по кодированию.

Снижение потребления ресурсов

Таким образом, казалось, что путь к созданию лучших в мире моделей ИИ — это инвестирование в большее количество вычислений как при обучении, так и при выводе. Но затем на арену вышла компания DeepSeek и изменила эту тенденцию.

В моделях серии V, кульминацией которой является модель V3, использован ряд оптимизаций, позволяющих сделать обучение передовых моделей искусственного интеллекта значительно более экономичным. В их техническом отчёте говорится, что на обучение V3 ушло менее 6 миллионов долларов. Они признают, что в эту стоимость не входят расходы на наём команды, проведение исследований, опробование различных идей и сбор данных. Но 6 миллионов долларов — это всё равно впечатляюще малая цифра для обучения модели, которая конкурирует с ведущими моделями ИИ, разработанными с гораздо большими затратами.

Снижение затрат произошло не благодаря одной волшебной кнопке. Это было сочетание множества разумных инженерных решений, включая использование меньшего количества битов для представления весов модели, инновации в архитектуре нейронной сети и снижение накладных расходов на обмен данными между графическими процессорами.

Интересно отметить, что из-за американских экспортных ограничений в отношении Китая команда DeepSeek не имела доступа к высокопроизводительным GPU, таким как Nvidia H100. Вместо этого они использовали графические процессоры Nvidia H800, которые Nvidia разработала как менее производительные, чтобы они соответствовали американским экспортным ограничениям. Работа с этим ограничением, похоже, позволила команде DeepSeek проявить ещё большую изобретательность.

DeepSeek также внедрила инновации, чтобы сделать вывод более дешёвым, снизив стоимость запуска модели. Более того, они выпустили модель под названием R1, которая сопоставима с моделью o1 от OpenAI в задачах рассуждения.

Они выложили в открытый доступ все веса моделей для V3 и R1. Любой желающий может скачать и доработать или настроить свои модели. Кроме того, DeepSeek выпустила свои модели под разрешительной лицензией MIT, которая позволяет другим использовать модели в личных, академических или коммерческих целях с минимальными ограничениями.

Обнуляя ожидания

DeepSeek кардинально изменила ландшафт больших моделей ИИ. Открытая весовая модель, обученная экономичным способом, теперь стоит в одном ряду с более дорогими и закрытыми моделями, требующими платной подписки.

Исследовательскому сообществу и фондовому рынку потребуется некоторое время, чтобы приспособиться к этой новой реальности.

Теги:
Хабы:
Если эта публикация вас вдохновила и вы хотите поддержать автора — не стесняйтесь нажать на кнопку
+2
Комментарии9

Публикации

Истории

Работа

Data Scientist
69 вакансий

Ближайшие события

11 – 13 февраля
Epic Telegram Conference
Онлайн
27 марта
Deckhouse Conf 2025
Москва
25 – 26 апреля
IT-конференция Merge Tatarstan 2025
Казань