kazzand 14 сен 2023 в 17:33

Собираем русскоязычный лонгформер шаг за шагом

8 мин

7.8K

Блог компании МТСБлог компании MTS AINatural Language Processing*

✏️ Технотекст 2023

+38

Комментарии 21

Andriljo 14 сен 2023 в 18:27

Отличная работа, коллеги

DarthPadla 14 сен 2023 в 21:52

Твердый ридинг

s_f1 15 сен 2023 в 09:42

для русского языка

матрица аттеншна
эмбеддинги
позишн энкодинг 0_0

Просто напомню:
https://habr.com/ru/news/717646/

-1

MarkWatney 15 сен 2023 в 11:44

Слово аттеншн используется не в значении "внимание". Тут это действительно отдельные термины, у которых свое значение.

Вообще вопрос как правильно переводить термины, тут и аттеншн выглядит криво, и матрицей внимания это не назовёшь. И русских терминов и не появится, учитывая, что вся информация на английском.

s_f1 15 сен 2023 в 12:38

Почему не назовёшь?
Именно так и называют.
https://neerc.ifmo.ru/wiki/index.php?title=%D0%9C%D0%B5%D1%85%D0%B0%D0%BD%D0%B8%D0%B7%D0%BC_%D0%B2%D0%BD%D0%B8%D0%BC%D0%B0%D0%BD%D0%B8%D1%8F

MarkWatney 15 сен 2023 в 15:04

Ну может быть. Однако, когда attention в данном контексте имеют ввиду именно тот самый механизм внутри Attention-based слоя. Т.е. ссылаются на термин, который широко используется в актуальных статьях. А термин "механизм внимания" не так распространён, и, например, у меня не сразу бы возникла эта ассоциация. Даже в той статье все эти термины дублируются на английском по этой причине.

К тому же global attention - это достаточно свежий термин. В итоге придётся придумывать свой перевод для него? Глобальное внимание будет совсем непонятно звучать.

mDoll 19 сен 2023 в 08:37

Так, может, вообще не заморачиваться с переводами? И придумывать ничего не нужно будет.)

А «global attention» звучит гораздо понятнее, чем «глобальное внимание»? И с «позишн энкодингом» мы тоже справиться, стало быть, не можем?:)

MarkWatney 19 сен 2023 в 15:37

В первую очередь идёт проект/идея -> следом за ней терминология. Если будет много работ от русскоязычных авторов, будет больше вероятность того, что будут использовать термины на русском языке.

Вам что важнее, чтобы было понятнее для людей в контексте, или чтобы сохранить чистоту русского языка?

В любом случае хабр больше про идеи, а не про русский язык

Kergan88 2 ноя 2023 в 14:30

>Слово аттеншн используется не в значении "внимание". Слово аттеншн используется не в значении "внимание".

Как это? Именно в этом значении и используется.

MarkWatney 2 ноя 2023 в 17:13

Используется в качестве названия особой схемы архитектуры нейроной сети.

Kergan88 3 ноя 2023 в 05:25

Ну так эта схема архитектуры и называется "внимание"

Guul 18 сен 2023 в 10:29

Разрешается взять jax в руки и слепить новую архитектуру со слоями "скрепы", "кузькина мать", "многоглавые орлы", уделать трансформеры^w преобразователи и пускай остальной мир мучается с переводами

(Именно jax. Pytorch от лукавого, запрещенного)

MarkWatney 15 сен 2023 в 15:03

del

Guul 18 сен 2023 в 11:09

Круто.

3 слоя
hidden_size = 312

Ути пути, она такая маленькая, что она на телефоне будет летать. Осталось придумать что за текст на телефоне можно классифицировать

Andriljo 23 окт 2023 в 15:59

Кстати, други. Заморозили всё кроме глобал внимания и позиций, а что с МЛМ головой?

kazzand 19 янв в 13:07

Прошу прощения, не заметил)
МЛМ голова тоже заморожена, так как ее веса для tiny-bert-2 так же есть на хаггинг фейса

Andriljo 19 янв в 13:12

с замороженной млм головой как-то не выравниается и лосс не падает( нам пришлось разморозить

kazzand 19 янв в 13:18

Вообще это странно. У меня хорошо все было. Вы про свой кейс или конкретно про мою модель? (я кстати по-разному пытался, и размораживать и пытался побить предобученный тайни берт, но выходит, что он и так очень оптимален на MLM, достичь его точности получалось, но превзойти нет)

kazzand 19 янв в 13:20

чего кстати не скажешь о base версии, там я размораживал MLM голову (это кажется единственная модель, где я это делал), ибо прям недоученная базовая модель была

Andriljo 19 янв в 13:27

для tiny так и есть, мы большую модельку хотели довыровнять на 4к контекст

kazzand 19 янв в 13:31

Я бы в такой постановке попробовал бы двухэтапно, сначала новые веса дотюнить только, потом разморозить млм (ну и возможно саму модель с маленьким лр), но надо экспериментировать))

Зарегистрируйтесь на Хабре, чтобы оставить комментарий