Комментарии 21
Отличная работа, коллеги
Твердый ридинг
для русского языка
- матрица аттеншна
- эмбеддинги
- позишн энкодинг 0_0
Просто напомню:
https://habr.com/ru/news/717646/
Слово аттеншн используется не в значении "внимание". Тут это действительно отдельные термины, у которых свое значение.
Вообще вопрос как правильно переводить термины, тут и аттеншн выглядит криво, и матрицей внимания это не назовёшь. И русских терминов и не появится, учитывая, что вся информация на английском.
Почему не назовёшь?
Именно так и называют.
https://neerc.ifmo.ru/wiki/index.php?title=%D0%9C%D0%B5%D1%85%D0%B0%D0%BD%D0%B8%D0%B7%D0%BC_%D0%B2%D0%BD%D0%B8%D0%BC%D0%B0%D0%BD%D0%B8%D1%8F
Ну может быть. Однако, когда attention в данном контексте имеют ввиду именно тот самый механизм внутри Attention-based слоя. Т.е. ссылаются на термин, который широко используется в актуальных статьях. А термин "механизм внимания" не так распространён, и, например, у меня не сразу бы возникла эта ассоциация. Даже в той статье все эти термины дублируются на английском по этой причине.
К тому же global attention - это достаточно свежий термин. В итоге придётся придумывать свой перевод для него? Глобальное внимание будет совсем непонятно звучать.
Так, может, вообще не заморачиваться с переводами? И придумывать ничего не нужно будет.)
А «global attention» звучит гораздо понятнее, чем «глобальное внимание»? И с «позишн энкодингом» мы тоже справиться, стало быть, не можем?:)
В первую очередь идёт проект/идея -> следом за ней терминология. Если будет много работ от русскоязычных авторов, будет больше вероятность того, что будут использовать термины на русском языке.
Вам что важнее, чтобы было понятнее для людей в контексте, или чтобы сохранить чистоту русского языка?
В любом случае хабр больше про идеи, а не про русский язык
>Слово аттеншн используется не в значении "внимание". Слово аттеншн используется не в значении "внимание".
Как это? Именно в этом значении и используется.
Разрешается взять jax в руки и слепить новую архитектуру со слоями "скрепы", "кузькина мать", "многоглавые орлы", уделать трансформеры^w преобразователи и пускай остальной мир мучается с переводами
(Именно jax. Pytorch от лукавого, запрещенного)
del
Круто.
3 слоя
hidden_size = 312
Ути пути, она такая маленькая, что она на телефоне будет летать. Осталось придумать что за текст на телефоне можно классифицировать
Кстати, други. Заморозили всё кроме глобал внимания и позиций, а что с МЛМ головой?
Прошу прощения, не заметил)
МЛМ голова тоже заморожена, так как ее веса для tiny-bert-2 так же есть на хаггинг фейса
с замороженной млм головой как-то не выравниается и лосс не падает( нам пришлось разморозить
Вообще это странно. У меня хорошо все было. Вы про свой кейс или конкретно про мою модель? (я кстати по-разному пытался, и размораживать и пытался побить предобученный тайни берт, но выходит, что он и так очень оптимален на MLM, достичь его точности получалось, но превзойти нет)
чего кстати не скажешь о base версии, там я размораживал MLM голову (это кажется единственная модель, где я это делал), ибо прям недоученная базовая модель была
Собираем русскоязычный лонгформер шаг за шагом