Комментарии / Профиль murat

Мурат Апишев@murat_apishev

NLP-инженер

О методах позиционного кодирования в Transformer

@murat_apishev 13 дек 2023 в 21:08

Не сталкивался с таким в трансформерах, не очень понятен смысл: придется добавлять проекционные слои для перевода в исходную размерность, и на выходе все равно будет вектор, содержащий совокупную информацию, просто вложенную чуть сложнее. Плюс в относительных методах чаще или делается просто поворот вектора, или добавляется скалярная величина, а не вектор

О методах позиционного кодирования в Transformer

@murat_apishev 13 дек 2023 в 21:03

Да, просто сокращено

О методах позиционного кодирования в Transformer

@murat_apishev 13 дек 2023 в 19:12

Все так, кэширование позволяет при генерации токена производить подсчет внимания только для этого токена, это стандартный механизм.

«ИИ без границ»: как научить Transformer обрабатывать длинные тексты

@murat_apishev 16 ноя 2023 в 19:24

Да, этот подход пропустил, спасибо, может добавлю позже
Матричные умножения работают сильно быстрее. Но идея верная, и это похоже на то, что делается в FlashAttention

Зоопарк трансформеров: большой обзор моделей от BERT до Alpaca

@murat_apishev 8 мая 2023 в 10:47

Одни и те же типы моделей могут обучаться разными организациями, на разных данных, языках, в разных размерах и версиях. В transformers типы моделей указаны в доке, например https://huggingface.co/docs/transformers/model_doc/roberta (см. слева столбец с разными классами моделей).

Зоопарк трансформеров: большой обзор моделей от BERT до Alpaca

@murat_apishev 6 мая 2023 в 10:36

Эта таблица от того же автора, что и каталог по моей первой ссылке) С полноценными сравнениями есть сложности, в т.ч. и в статьях. При выборе подхода я обычно отталкиваюсь от задачи, простые дискриминативные кейсы (обычно всякие классификации) с большим объекмом данных можно с высоким качеством решать с помощью линейных моделей или простых CNN. Некоторые задачи разметки и NER могут эффективно решаться с помощью регулярок и правил на грамматиках. Но в остальных случаях я бы скорее решал не "трансформер или не трансформер", а "какой именно трансформер" с т.з. решаемых задач, размеров и поддержки языков. Тут при выборе можно опираться на лидерборды разных бенчмарков, например https://huggingface.co/spaces/mteb/leaderboard

Зоопарк трансформеров: большой обзор моделей от BERT до Alpaca

@murat_apishev 6 мая 2023 в 10:29

Есть, это тот же каталог, что и в первой моей ссылке, но выложенный в виде статьи на arxiv

Зоопарк трансформеров: большой обзор моделей от BERT до Alpaca

@murat_apishev 6 мая 2023 в 10:28

Я могу навскидку назвать ещё десяток интересных моделей, которые можно было бы упомянуть, но времени на всех не хватает. Тем не менее, vicuna действительно хороша, добавил немного информации из её блог-поста. По поводу других тем - спасибо, подумаю.

Зоопарк трансформеров: большой обзор моделей от BERT до Alpaca

@murat_apishev 4 мая 2023 в 16:14

Спасибо за обратную связь. Вы правы, в ближайшее время сформулирую и добавлю выводы.

Информация

Специализация