alenusch Aug 22 2023 at 09:43

От полиглота к эксперту: модели mGPT для малых языков России и стран СНГ

Easy

13 min

7.3K

SberDevices corporate blogMachine learning * Natural Language Processing *

+36

Comments 22

AigizK Aug 22 2023 at 12:31

Спасибо большое за такой подарок.
Кто нибудь еще бы выложил скрипты для обучения под nstruct,chat и тд :)

alenusch Aug 22 2023 at 13:15

Вообще примеров много должно быть, так как модели в HF формате. Посмотрю.

Тут скорее трудность в том, что инструкции надо на нужном языке найти в достаточном количестве.

rPman Aug 22 2023 at 17:24

Подскажите пожалуйста, почему исследователи обучают и малые и большие модели вместо одной большой сразу? Как можно переиспользовать результат обучения малых моделей (в вашем случае моноязыковые) для обучения большой (мультиязыковой)? Использовалась ли генерация текстов (в т.ч. перевод через промежуточный язык) для расширения обучающей выборки?

averkij Aug 23 2023 at 06:59

Подскажите пожалуйста, почему исследователи обучают и малые и большие модели вместо одной большой сразу?

Во-первых, чем больше модель, тем она потенциально умнее, но тем сложнее и дороже её учить и труднее использовать (понадобится много видеопамяти, чтобы запустить и ещё больше, чтобы дообучить).

Во-вторых, для решения многих задач вовсе не обязательно иметь большую модель на много миллиардов весов.

Конкретно эти модели вполне можно дообучить на пользовательских GPU. Например, на болталку или какие-то утилитарные задачи. Если бы они были большие (100B, например), вы бы уже так просто их не доучили и даже не запустили бы.

Как можно переиспользовать результат обучения малых моделей (в вашем случае моноязыковые) для обучения большой (мультиязыковой)?

Они не для этого, они как раз для задач, связанных с одним конкретным языком. Мультиязычная модель побольше уже есть — mGPT-13B.

Использовалась ли генерация текстов (в т.ч. перевод через промежуточный язык) для расширения обучающей выборки?

Cинтетические данные вообще надо использовать с осторожностью, а под малые языки ещё и в принципе нет качественных переводчиков. В этом случае модель будет усваивать ошибки машинного перевода. А для более популярных языков в задачах машинного перевода, например, так да, делают (back translation).

MajorMotokoKusanagi Aug 23 2023 at 08:36

Модели с диалектами вроде мишарского татарского или горного марийского и лугового марийского?

averkij Aug 23 2023 at 14:27

Пока нет. Если у вас есть тексты на этих диалектах или вы знаете, где их найти, то делитесь.

delvin-fil Aug 23 2023 at 12:31

Уважаемый Сбер. А просто гигачат когда заработает?

averkij Aug 23 2023 at 14:26

Привет. А вроде работает, проверьте, пожалуйста.

delvin-fil Aug 25 2023 at 23:33

не работает

averkij Aug 26 2023 at 05:07

Мощный у вас UI.

Попробуйте перезайти, поспрашивал несколько человек, у них работает.

delvin-fil Aug 26 2023 at 23:22

Нет, не работает :(

shukrd Aug 28 2023 at 05:41

прошу прощения. кажется, в приведенном примере кода ошибка. надо указывать pad_token_id=1

alenusch Sep 4 2023 at 08:46

Всё так, спасибо ??

nikolay_karelin Sep 6 2023 at 18:33

Попробовал несколько экспериментов с моделью mGPT-1.3B-belorussian. К сожалению, на простейших примерах (продолжения наиболее популярных текстов из белорусской литературы) продолжения бессмысленные и часть даже не на кириллице.

Можно ли где-то глянуть результаты тестов?

alenusch Sep 7 2023 at 07:13

Напишите пожалуйста мне на Fenogenova.A.S@sberbank.ru. Для белорусского и в оригинальной мгпт и моно версии была высоковатая перплексия.
Можем поделиться прогонами тестов, давайте вместе разбираться.
Если у вас есть также дополнительно тексты для тестов и дообучения, было бы здорово.

nikolay_karelin Sep 18 2023 at 10:36

Спасибо!

Пока не добрался, но обязательно спишусь.

nchaly Dec 5 2023 at 09:53

Например: https://colab.research.google.com/drive/1r6JBN6E06_2Qr1NGyCm3fTDHqJFgh3VM?usp=sharing

Генерит в основном некий шум, причем на других языках (азербайджанский?). Использовать такое невозможно.

MAXH0 Sep 15 2023 at 08:44

А по какому принципу отбирались языки?.. Например, есть осетинский, но нет адыгских языков (кабардинского и черкесского). Языки то очень интересные( для тех кто понимает! ;)

alenusch Sep 16 2023 at 16:38

Вы правы, очень интересные, и мы только за обучить модели для кабардинского и черкесского языков.
Выбор был связан лишь с тем, что мы не нашли достаточно открытых данных для них. Если у вас есть корпуса или понимание откуда такие данные можно раздобыть, поделитесь пожалуйста с нами =)

MAXH0 Sep 18 2023 at 06:54

Я по пробую спросить у людей работающих по профилю. СКОЛЬКО открытых данных нужно и как их размечать в корпуса? Скиньте Т.З.
З/Ы
Поговорил с учителями кабардинского. Они говорят, что тексты точно должны быть. Как вы смотрите на проект для школьников по формированию корпуса? Как я понимаю все упирается в объем размеченных текстов...

alenusch Sep 22 2023 at 10:17

Неструктурированные как можно больше, гигабайтами, чтобы сделать моноязычную отдельную модель
Если структурные данные и корпуса, то нужно понимать для каких целей, какие задачи решаем
Напишите пожалуйста на Fenogenova.A.S@sberbank.ru мы уже с ребятами в официальной переписке подхватим

zoldaten Dec 19 2024 at 07:22

есть возможность https://huggingface.co/ai-forever/ruGPT-3.5-13B в gguf перевести, чтобы простые смертные могли пользоваться ?