Как стать автором
Обновить

Зоопарк трансформеров: большой обзор моделей от BERT до Alpaca

Уровень сложностиСложный
Время на прочтение59 мин
Количество просмотров21K
Всего голосов 28: ↑28 и ↓0+28
Комментарии15

Комментарии 15

Ориентироваться в потоке статей, моделей и подходов стало непросто даже вовлечённым специалистам.

Невовлеченным еще сложнее.
Благодарю за объемный анализ.


… надо бы а) внимательнее изучить те работы, что я пропустил или проглядел мельком; б) лучше структурировать всю информацию о моделях и разных практических техниках, которая у меня накопилась за последние годы.

Масса информации, но по прочтении статьи ощущение незаконченности — нет суммирующих выводов.
Сложно понять, как использовать эту информацию. Начинающим самим сделать выводы не по силам.
Может было бы полезно добавить тренды, обратить внимание на модели с максимальным потенциалом?

Спасибо за обратную связь. Вы правы, в ближайшее время сформулирую и добавлю выводы.

Спасибо, вот еще в копилку. Да, основной вывод что "моделей много и будет больше"

Было бы интересно разобраться как сравнивать и выбирать модели для разных целей. Когда нужны трансформеры, когда другие NN или вообще не NN.

Тут есть много пользовательских бенчмарков, но в них еще сложнее разобраться чем в самих моделях)

Эта таблица от того же автора, что и каталог по моей первой ссылке) С полноценными сравнениями есть сложности, в т.ч. и в статьях. При выборе подхода я обычно отталкиваюсь от задачи, простые дискриминативные кейсы (обычно всякие классификации) с большим объекмом данных можно с высоким качеством решать с помощью линейных моделей или простых CNN. Некоторые задачи разметки и NER могут эффективно решаться с помощью регулярок и правил на грамматиках. Но в остальных случаях я бы скорее решал не "трансформер или не трансформер", а "какой именно трансформер" с т.з. решаемых задач, размеров и поддержки языков. Тут при выборе можно опираться на лидерборды разных бенчмарков, например https://huggingface.co/spaces/mteb/leaderboard

Да, спасибо. Был бы интересен именно такой анализ от типа задачи -> подход к выбору модели

Спасибо большое. Видно, что проделана огромная работа.

Отличный обзор. Стараюсь отслеживать эту тему, но узнал о многих моделях из вашей статьи.
Но как же вы пропустили vicuna? По моим "ощущениям" сильно лучше чем alpaca.
А раз у вас получается хорошо излагать знания в текстовом виде - есть такие проекты как "llama.cpp", "Auto-GPT". Возможно сможете рассказать о них и их скрещивании большой аудитории.

Я могу навскидку назвать ещё десяток интересных моделей, которые можно было бы упомянуть, но времени на всех не хватает. Тем не менее, vicuna действительно хороша, добавил немного информации из её блог-поста. По поводу других тем - спасибо, подумаю.

Кажется, это новая реальность прогресса в сфере языковых моделей, которая отлично проиллюстрирована на картинке под спойлем

Смотреть

Где-то там ещё есть Koala, например. Каждый день что-то новое появляется!

Есть, это тот же каталог, что и в первой моей ссылке, но выложенный в виде статьи на arxiv

Не ИИ, а просто нейросети, ИИ пока ещё не создано, к сожалению.

Помогите разобраться пож. На https://huggingface.co/models 192тыс опенсорс моделей (+30тыс чекпоинтов), все вариации трансформеров. У вас и др. уважаемых источников их ~100. Это разница в определении?

Одни и те же типы моделей могут обучаться разными организациями, на разных данных, языках, в разных размерах и версиях. В transformers типы моделей указаны в доке, например https://huggingface.co/docs/transformers/model_doc/roberta (см. слева столбец с разными классами моделей).

Статья хорошая, но со спойлерами перебор - я устал по ним жать чтобы открыть.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий