Как стать автором
Обновить

xAI открыл веса и архитектуру языковой модели Grok-1

Время на прочтение3 мин
Количество просмотров14K

Иллюстрация от Midjourney

Стартап Илона Маска xAI открыл исходники языковой модели Grok-1 под лицензией Apache 2.0. В виде торрента предлагают скачать 300 ГиБ файлов с весами MoE-модели c 314 млрд параметров.

В последние месяцы заметную долю внимания в области искусственного интеллекта перетянула на себя OpenAI. Эта компания зародилась в декабре 2015 года как исследовательская организация, к основанию которой приложили руку многие заметные личности сферы высоких технологий. В том числе среди них был Илон Маск.

В 2018 году Маск покидает OpenAI из-за разногласий в целях. Позднее он будет спорить, что организация нарушила миссию, ради которой её основали. Конкретные детали этого конфликта уточняются в последние недели.

Впрочем, Илон не оставил попыток заняться ИИ. В апреле прошлого года бизнесмен пообещал создать стартап, чтобы сделать большую языковую модель (БЯМ) без предвзятостей. За месяц до этого Маск учредил X Corp., в которую переименовал компанию Twitter. Аналогично и новый стартап он назвал xAI, хотя и сделал его отдельной от X Corp. структурой.

В ноябре 2023 года стартап xAI представил БЯМ Grok. Чат-ботом сначала могли пользоваться только избранные, кого пригласил лично Маск. Затем доступ выдали подпичикам X Premium+, более дорогого ($16 в месяц или $168 в год вместо $8 или $84 у Premium) тарифа платной подписки на сервис микроблогов X.

В прошлый понедельник, 11 марта 2024 года, Маск пообещал вывести Grok в open source. Конкретный день назван не был, в лаконичном твите было указано лишь «на этой неделе».

Если учитывать, что неделя в США начинатся с воскресенья, обещание Илон не сдержал. Лишь шесть дней спустя, в воскресенье 17 марта, в 22:12 по московскому времени в микроблоге проекта появилась запись «░W░E░I░G░H░T░S░I░N░B░I░O░».

Текст твита — это шутка про разгул спама с порнографией, на который уже несколько недель жалуются пользователи X. Боты для привлечения трафика распространяют призывы заглянуть в описание профиля, где стоит ссылка на какой-нибудь мошеннический сайт. В данном случае ссылка ведёт на файлы для запуска БЯМ.

Стиль распространения модели тоже что-то напоминает. До этого стартап Mistral AI запомнился сообществу ИИ релизами моделей в виде твитов (1, 2) с магнет-ссылками на торренты с файлами. При этом Mistral AI ничего не объясняла: не было ни пресс-релизов, ни заявлений о производительности в бенчмарках, ни хотя бы пояснений, что внутри.


Содержимое файла RELEASE

В случае xAI небольшое описание всё же есть. Заявлено, что Grok-1 — это модель типа mixture of experts (8 экспертов, где 2 активных) на 314 млрд параметров, где активных параметров 86 млрд. Эту БЯМ xAI обучила с нуля. Опубликованная модель — базовая, тонкой настройки для какой-либо конкретной задачи не имеет.

Поскольку в модели 314 млрд параметров, то эксцентричный стиль Маска потребовал бы выпустить файлы в прошлый четверг. Дело в том, что дата 14 марта в американской традиции записывается как 3/14, отчего называется днём числа $\pi$. Вполне вероятно, что Илон так и хотел сделать, а специалисты xAI к круглой дате попросту опоздали.

Почти 300 ГиБ файлов с весами Grok-1 распространяют с помощью торрент-файла на сайте Academic Torrents или по магнет-ссылке. Инструкции по запуску БЯМ размещены в репозитории github.com/xai-org/grok-1 и на Hugging Face. Понятно, что модель такого огромного размера потребует значительного объёма памяти видеокарт для инференса.

xAI пишет, что модель обучали на некоем большом объёме текстовых данных. Источники данных для обучения Grok-1 не указаны.

Как опубликованный код, так и веса Grok-1 лицензированы под Apache 2.0. Это значит, что производные работы разрешено распространять под другой лицензией и даже переделывать в проприетарный коммерческий продукт.

На деле это значит, что отныне для создания конкурента OpenAI и Anthropic может сгодиться дообучение модели Grok-1. Отсутствие необходимости создавать собственный претрейн потенциально сэкономит миллионы долларов. Такое предположение высказал специалист машинного обучения Андрей Бурков.

Возможно, на это и рассчитывает xAI: релиз модели подкреплён пожеланием «Happy coding!».
Теги:
Хабы:
Всего голосов 21: ↑19 и ↓2+23
Комментарии18

Другие новости

Истории

Работа

Data Scientist
82 вакансии

Ближайшие события