@tg_bomze Jun 29 2024 at 19:17

Irbis-7B или как мы учили ЛЛМку казахскому языку

Medium

7 min

6.1K

Natural Language Processing *

From sandbox

+17

Comments 16

@Rybolos Jun 29 2024 at 22:25

Очень здорово!

А какой датасет используется для претрейна? Или хотя бы какой у него жанровый состав

@tg_bomze Jun 30 2024 at 06:23

Какие-то на ХФ нашли (вики, оскар, новости), какие-то данные сами пособирали (книжки, статьишки и еще новости, но посвежее).

@Halt Jun 30 2024 at 12:34

Норм. А корпус то наш использовали? https://qazcorpus.kz/?lang=ru

@Pol1mus Jun 30 2024 at 04:21

gemma2 9b пробовали? Не знаю как с казахским а русским она владеет идеально, при примерно таких же размерах и требованиях как ллама3-8б и мистраль.

@tg_bomze Jun 30 2024 at 06:27

Увы Gemma2 9b не пробовали (как и ллама3), ибо на момент работы они еще небыли опубликованы. В следующих статьях, когда получим новые результаты, обязательно отпишусь и сравню с последними модельками.

@Halt Jun 30 2024 at 12:42

Сегодня буквально тестировал гемму вторую. Подтверждаю, языковое чутье и словоупотребление на русском у нее заметно лучше. Ллама3 русский понимает, но пишет как иностранец, местами конфабулируя несуществующие в лексиконе слова. А гемма просто говорит.

Но она очень скупа на объяснения. Другие модели обычно не заткнешь — вываливают под страницу текста, а эта как задолбанный программист: отвечает одним абзацем, по делу, точно, но ощущение что ей впадлу говорить. Приходится клещами тянуть и задавать уточняющие вопросы.

@Shannon Jun 30 2024 at 13:14

В противовес лламе3 есть Qwen2, она обучалась на 27 языках и имея примерно тот же уровень качества как и ллама3, является так сказать "мультиязычной" моделью.

@Halt Jun 30 2024 at 13:27

Квен я тоже гонял, но что-то мне не зашло. Для прикладных задач может быть, но именно как оракул мне оно показалось не очень.

@Kiridan Jul 3 2024 at 13:02

Он к тому же дико упëртый – датасет безбожно устаревший, но от своего "мнения" не отступится, как его ни тычь в актуальную инфу.

@AigizK Jun 30 2024 at 05:44

И про архитектуру можете сказать?

@tg_bomze Jun 30 2024 at 06:36

Трансформер (так как мы отталкивались от Мистрала)

@Kentuss16 Jun 30 2024 at 09:31

А по затратам сколько обошлось?

@tg_bomze Jun 30 2024 at 09:35

Сказать сложно, ибо работа продолжается дальше. А касаемо тех результатов, что были достигнуты и описаны в статье, можете примерно прикинуть: на тот момент это были 3 недели аренды 2хH100

@SnekiKestril Jun 30 2024 at 09:25

Можете пожалуйста рассказать по подробнее как добавлять словарь ? Хочу сделать также для Азербайджанского, есть много текстов (новости-вики- книги) как из них расширить словарь ?

@tg_bomze Jun 30 2024 at 09:31

Ну одним расширением словаря не отделаться, придется дополнительно учить модель (как я и писал в статье). Токенизатор учили с помощью библиотеки sentencepiece. Далее объединяли с токенизатором из базовой модели (так как мы учили только на казахских текстах, важно было иметь токены и для английского). После мерджа удалили дубликаты (около 5к токенов).

@AigizK Jul 2 2024 at 05:31

Я правильно понимаю, вы взяли Mistral-7B, добавили доп токены, и дообучили на своих данных?
Если так, то почему у вас всякие суммаризации перестали работать?