Search
Write a publication
Pull to refresh
24
0
Мурат Апишев @murat_apishev

NLP-инженер, Python-разработчик

Send message

Не сталкивался с таким в трансформерах, не очень понятен смысл: придется добавлять проекционные слои для перевода в исходную размерность, и на выходе все равно будет вектор, содержащий совокупную информацию, просто вложенную чуть сложнее. Плюс в относительных методах чаще или делается просто поворот вектора, или добавляется скалярная величина, а не вектор

Все так, кэширование позволяет при генерации токена производить подсчет внимания только для этого токена, это стандартный механизм.

  • Да, этот подход пропустил, спасибо, может добавлю позже

  • Матричные умножения работают сильно быстрее. Но идея верная, и это похоже на то, что делается в FlashAttention

Одни и те же типы моделей могут обучаться разными организациями, на разных данных, языках, в разных размерах и версиях. В transformers типы моделей указаны в доке, например https://huggingface.co/docs/transformers/model_doc/roberta (см. слева столбец с разными классами моделей).

Эта таблица от того же автора, что и каталог по моей первой ссылке) С полноценными сравнениями есть сложности, в т.ч. и в статьях. При выборе подхода я обычно отталкиваюсь от задачи, простые дискриминативные кейсы (обычно всякие классификации) с большим объекмом данных можно с высоким качеством решать с помощью линейных моделей или простых CNN. Некоторые задачи разметки и NER могут эффективно решаться с помощью регулярок и правил на грамматиках. Но в остальных случаях я бы скорее решал не "трансформер или не трансформер", а "какой именно трансформер" с т.з. решаемых задач, размеров и поддержки языков. Тут при выборе можно опираться на лидерборды разных бенчмарков, например https://huggingface.co/spaces/mteb/leaderboard

Есть, это тот же каталог, что и в первой моей ссылке, но выложенный в виде статьи на arxiv

Я могу навскидку назвать ещё десяток интересных моделей, которые можно было бы упомянуть, но времени на всех не хватает. Тем не менее, vicuna действительно хороша, добавил немного информации из её блог-поста. По поводу других тем - спасибо, подумаю.

Спасибо за обратную связь. Вы правы, в ближайшее время сформулирую и добавлю выводы.

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Registered
Activity

Specialization

Data Analyst, ML Engineer
Lead