Как стать автором
Обновить

Комментарии 21

Отличная работа, коллеги

Твердый ридинг

Слово аттеншн используется не в значении "внимание". Тут это действительно отдельные термины, у которых свое значение.

Вообще вопрос как правильно переводить термины, тут и аттеншн выглядит криво, и матрицей внимания это не назовёшь. И русских терминов и не появится, учитывая, что вся информация на английском.

Ну может быть. Однако, когда attention в данном контексте имеют ввиду именно тот самый механизм внутри Attention-based слоя. Т.е. ссылаются на термин, который широко используется в актуальных статьях. А термин "механизм внимания" не так распространён, и, например, у меня не сразу бы возникла эта ассоциация. Даже в той статье все эти термины дублируются на английском по этой причине.

К тому же global attention - это достаточно свежий термин. В итоге придётся придумывать свой перевод для него? Глобальное внимание будет совсем непонятно звучать.

Так, может, вообще не заморачиваться с переводами? И придумывать ничего не нужно будет.)

А «global attention» звучит гораздо понятнее, чем «глобальное внимание»? И с «позишн энкодингом» мы тоже справиться, стало быть, не можем?:)

В первую очередь идёт проект/идея -> следом за ней терминология. Если будет много работ от русскоязычных авторов, будет больше вероятность того, что будут использовать термины на русском языке.

Вам что важнее, чтобы было понятнее для людей в контексте, или чтобы сохранить чистоту русского языка?

В любом случае хабр больше про идеи, а не про русский язык

>Слово аттеншн используется не в значении "внимание". Слово аттеншн используется не в значении "внимание". 

Как это? Именно в этом значении и используется.

Используется в качестве названия особой схемы архитектуры нейроной сети.

Ну так эта схема архитектуры и называется "внимание"

Разрешается взять jax в руки и слепить новую архитектуру со слоями "скрепы", "кузькина мать", "многоглавые орлы", уделать трансформеры^w преобразователи и пускай остальной мир мучается с переводами

(Именно jax. Pytorch от лукавого, запрещенного)

Круто.

3 слоя
hidden_size = 312

Ути пути, она такая маленькая, что она на телефоне будет летать. Осталось придумать что за текст на телефоне можно классифицировать

Кстати, други. Заморозили всё кроме глобал внимания и позиций, а что с МЛМ головой?

Прошу прощения, не заметил)
МЛМ голова тоже заморожена, так как ее веса для tiny-bert-2 так же есть на хаггинг фейса

с замороженной млм головой как-то не выравниается и лосс не падает( нам пришлось разморозить

Вообще это странно. У меня хорошо все было. Вы про свой кейс или конкретно про мою модель? (я кстати по-разному пытался, и размораживать и пытался побить предобученный тайни берт, но выходит, что он и так очень оптимален на MLM, достичь его точности получалось, но превзойти нет)

чего кстати не скажешь о base версии, там я размораживал MLM голову (это кажется единственная модель, где я это делал), ибо прям недоученная базовая модель была

для tiny так и есть, мы большую модельку хотели довыровнять на 4к контекст

Я бы в такой постановке попробовал бы двухэтапно, сначала новые веса дотюнить только, потом разморозить млм (ну и возможно саму модель с маленьким лр), но надо экспериментировать))

Зарегистрируйтесь на Хабре, чтобы оставить комментарий