vladbalv 18 окт 2022 в 10:01

Экзибит, прокачай мой трансформер или Основные идеи по улучшению модели трансформера с 2018 по 2020 год (часть 2)

10 мин

3.9K

Блог компании ГК ЛАНИТМашинное обучение*Natural Language Processing*

Перевод

+29

Комментарии 3

kitaisky 18 окт 2022 в 18:17

Это все конечно интересно, но на практике упирается в то, какую архитектуру выберут и предобучат большие дяди, и после этого будут использовать для решения своих задач все остальные.

vladbalv 18 окт 2022 в 23:16

не совсем согласен. многие из этих моделей есть в transformers в huggingface - их можно брать, самостоятельно обучать или дообучать. или например подсмотреть код и реализовать аналогичную архитектуру, но не из 10 слоев, а из 3, и тогда намного проще ее будет обучить
некоторые обучают маленькие берты (см. rubert-tiny) даже на google colab :)

kitaisky 19 окт 2022 в 07:40

Именно что "самостоятельно" обучать - основная проблема таки как раз в этом. Про дистилляцию -возможно, но таки опять же тут сетку нужно учить с нуля. Возмьжно небольшие сетки на такой архитектуре могут хорошо подходить для решения кааих-то задач, не связанных с языковым моделязыковым моделированием, гдк нужны гигантские объемы данных - я бы с удовольствием почитал о применении указанных выше архитектур к каким-нибудь табличкам, рядам и прочему.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий