Комментарии 15
Ориентироваться в потоке статей, моделей и подходов стало непросто даже вовлечённым специалистам.
Невовлеченным еще сложнее.
Благодарю за объемный анализ.
… надо бы а) внимательнее изучить те работы, что я пропустил или проглядел мельком; б) лучше структурировать всю информацию о моделях и разных практических техниках, которая у меня накопилась за последние годы.
Масса информации, но по прочтении статьи ощущение незаконченности — нет суммирующих выводов.
Сложно понять, как использовать эту информацию. Начинающим самим сделать выводы не по силам.
Может было бы полезно добавить тренды, обратить внимание на модели с максимальным потенциалом?
Спасибо за обратную связь. Вы правы, в ближайшее время сформулирую и добавлю выводы.
Спасибо, вот еще в копилку. Да, основной вывод что "моделей много и будет больше"
Было бы интересно разобраться как сравнивать и выбирать модели для разных целей. Когда нужны трансформеры, когда другие NN или вообще не NN.
Тут есть много пользовательских бенчмарков, но в них еще сложнее разобраться чем в самих моделях)
Эта таблица от того же автора, что и каталог по моей первой ссылке) С полноценными сравнениями есть сложности, в т.ч. и в статьях. При выборе подхода я обычно отталкиваюсь от задачи, простые дискриминативные кейсы (обычно всякие классификации) с большим объекмом данных можно с высоким качеством решать с помощью линейных моделей или простых CNN. Некоторые задачи разметки и NER могут эффективно решаться с помощью регулярок и правил на грамматиках. Но в остальных случаях я бы скорее решал не "трансформер или не трансформер", а "какой именно трансформер" с т.з. решаемых задач, размеров и поддержки языков. Тут при выборе можно опираться на лидерборды разных бенчмарков, например https://huggingface.co/spaces/mteb/leaderboard
Спасибо большое. Видно, что проделана огромная работа.
Отличный обзор. Стараюсь отслеживать эту тему, но узнал о многих моделях из вашей статьи.
Но как же вы пропустили vicuna? По моим "ощущениям" сильно лучше чем alpaca.
А раз у вас получается хорошо излагать знания в текстовом виде - есть такие проекты как "llama.cpp", "Auto-GPT". Возможно сможете рассказать о них и их скрещивании большой аудитории.
Я могу навскидку назвать ещё десяток интересных моделей, которые можно было бы упомянуть, но времени на всех не хватает. Тем не менее, vicuna действительно хороша, добавил немного информации из её блог-поста. По поводу других тем - спасибо, подумаю.
Кажется, это новая реальность прогресса в сфере языковых моделей, которая отлично проиллюстрирована на картинке под спойлем
Смотреть
Где-то там ещё есть Koala, например. Каждый день что-то новое появляется!
Не ИИ, а просто нейросети, ИИ пока ещё не создано, к сожалению.
Помогите разобраться пож. На https://huggingface.co/models 192тыс опенсорс моделей (+30тыс чекпоинтов), все вариации трансформеров. У вас и др. уважаемых источников их ~100. Это разница в определении?
Одни и те же типы моделей могут обучаться разными организациями, на разных данных, языках, в разных размерах и версиях. В transformers типы моделей указаны в доке, например https://huggingface.co/docs/transformers/model_doc/roberta (см. слева столбец с разными классами моделей).
Статья хорошая, но со спойлерами перебор - я устал по ним жать чтобы открыть.
Зоопарк трансформеров: большой обзор моделей от BERT до Alpaca