Pull to refresh

Comments 21

Спасибо большое за такой подарок.
Кто нибудь еще бы выложил скрипты для обучения под nstruct,chat и тд :)

Вообще примеров много должно быть, так как модели в HF формате. Посмотрю.

Тут скорее трудность в том, что инструкции надо на нужном языке найти в достаточном количестве.

Подскажите пожалуйста, почему исследователи обучают и малые и большие модели вместо одной большой сразу? Как можно переиспользовать результат обучения малых моделей (в вашем случае моноязыковые) для обучения большой (мультиязыковой)? Использовалась ли генерация текстов (в т.ч. перевод через промежуточный язык) для расширения обучающей выборки?

Подскажите пожалуйста, почему исследователи обучают и малые и большие модели вместо одной большой сразу?

Во-первых, чем больше модель, тем она потенциально умнее, но тем сложнее и дороже её учить и труднее использовать (понадобится много видеопамяти, чтобы запустить и ещё больше, чтобы дообучить).


Во-вторых, для решения многих задач вовсе не обязательно иметь большую модель на много миллиардов весов.


Конкретно эти модели вполне можно дообучить на пользовательских GPU. Например, на болталку или какие-то утилитарные задачи. Если бы они были большие (100B, например), вы бы уже так просто их не доучили и даже не запустили бы.


Как можно переиспользовать результат обучения малых моделей (в вашем случае моноязыковые) для обучения большой (мультиязыковой)?

Они не для этого, они как раз для задач, связанных с одним конкретным языком. Мультиязычная модель побольше уже есть — mGPT-13B.


Использовалась ли генерация текстов (в т.ч. перевод через промежуточный язык) для расширения обучающей выборки?

Cинтетические данные вообще надо использовать с осторожностью, а под малые языки ещё и в принципе нет качественных переводчиков. В этом случае модель будет усваивать ошибки машинного перевода. А для более популярных языков в задачах машинного перевода, например, так да, делают (back translation).

Модели с диалектами вроде мишарского татарского или горного марийского и лугового марийского?

Пока нет. Если у вас есть тексты на этих диалектах или вы знаете, где их найти, то делитесь.

Уважаемый Сбер. А просто гигачат когда заработает?

Привет. А вроде работает, проверьте, пожалуйста.


Мощный у вас UI.


Попробуйте перезайти, поспрашивал несколько человек, у них работает.

прошу прощения. кажется, в приведенном примере кода ошибка. надо указывать pad_token_id=1

Попробовал несколько экспериментов с моделью mGPT-1.3B-belorussian. К сожалению, на простейших примерах (продолжения наиболее популярных текстов из белорусской литературы) продолжения бессмысленные и часть даже не на кириллице.

Можно ли где-то глянуть результаты тестов?

Напишите пожалуйста мне на Fenogenova.A.S@sberbank.ru. Для белорусского и в оригинальной мгпт и моно версии была высоковатая перплексия.
Можем поделиться прогонами тестов, давайте вместе разбираться.
Если у вас есть также дополнительно тексты для тестов и дообучения, было бы здорово.

Спасибо!

Пока не добрался, но обязательно спишусь.

А по какому принципу отбирались языки?.. Например, есть осетинский, но нет адыгских языков (кабардинского и черкесского). Языки то очень интересные( для тех кто понимает! ;)

Вы правы, очень интересные, и мы только за обучить модели для кабардинского и черкесского языков.
Выбор был связан лишь с тем, что мы не нашли достаточно открытых данных для них. Если у вас есть корпуса или понимание откуда такие данные можно раздобыть, поделитесь пожалуйста с нами =)

Я по пробую спросить у людей работающих по профилю. СКОЛЬКО открытых данных нужно и как их размечать в корпуса? Скиньте Т.З.
З/Ы
Поговорил с учителями кабардинского. Они говорят, что тексты точно должны быть. Как вы смотрите на проект для школьников по формированию корпуса? Как я понимаю все упирается в объем размеченных текстов...

Неструктурированные как можно больше, гигабайтами, чтобы сделать моноязычную отдельную модель
Если структурные данные и корпуса, то нужно понимать для каких целей, какие задачи решаем
Напишите пожалуйста на Fenogenova.A.S@sberbank.ru мы уже с ребятами в официальной переписке подхватим

Sign up to leave a comment.