Как стать автором
Обновить

Экзибит, прокачай мой трансформер или Основные идеи по улучшению модели трансформера с 2018 по 2020 год (часть 2)

Время на прочтение10 мин
Количество просмотров3.1K
Всего голосов 26: ↑25 и ↓1+29
Комментарии3

Комментарии 3

Это все конечно интересно, но на практике упирается в то, какую архитектуру выберут и предобучат большие дяди, и после этого будут использовать для решения своих задач все остальные.

не совсем согласен. многие из этих моделей есть в transformers в huggingface - их можно брать, самостоятельно обучать или дообучать. или например подсмотреть код и реализовать аналогичную архитектуру, но не из 10 слоев, а из 3, и тогда намного проще ее будет обучить
некоторые обучают маленькие берты (см. rubert-tiny) даже на google colab :)

Именно что "самостоятельно" обучать - основная проблема таки как раз в этом. Про дистилляцию -возможно, но таки опять же тут сетку нужно учить с нуля. Возмьжно небольшие сетки на такой архитектуре могут хорошо подходить для решения кааих-то задач, не связанных с языковым моделязыковым моделированием, гдк нужны гигантские объемы данных - я бы с удовольствием почитал о применении указанных выше архитектур к каким-нибудь табличкам, рядам и прочему.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий