Comments 16
Очень здорово!
А какой датасет используется для претрейна? Или хотя бы какой у него жанровый состав
Какие-то на ХФ нашли (вики, оскар, новости), какие-то данные сами пособирали (книжки, статьишки и еще новости, но посвежее).
Норм. А корпус то наш использовали? https://qazcorpus.kz/?lang=ru
gemma2 9b пробовали? Не знаю как с казахским а русским она владеет идеально, при примерно таких же размерах и требованиях как ллама3-8б и мистраль.
Увы Gemma2 9b не пробовали (как и ллама3), ибо на момент работы они еще небыли опубликованы. В следующих статьях, когда получим новые результаты, обязательно отпишусь и сравню с последними модельками.
Сегодня буквально тестировал гемму вторую. Подтверждаю, языковое чутье и словоупотребление на русском у нее заметно лучше. Ллама3 русский понимает, но пишет как иностранец, местами конфабулируя несуществующие в лексиконе слова. А гемма просто говорит.
Но она очень скупа на объяснения. Другие модели обычно не заткнешь — вываливают под страницу текста, а эта как задолбанный программист: отвечает одним абзацем, по делу, точно, но ощущение что ей впадлу говорить. Приходится клещами тянуть и задавать уточняющие вопросы.
И про архитектуру можете сказать?
Можете пожалуйста рассказать по подробнее как добавлять словарь ? Хочу сделать также для Азербайджанского, есть много текстов (новости-вики- книги) как из них расширить словарь ?
Ну одним расширением словаря не отделаться, придется дополнительно учить модель (как я и писал в статье). Токенизатор учили с помощью библиотеки sentencepiece. Далее объединяли с токенизатором из базовой модели (так как мы учили только на казахских текстах, важно было иметь токены и для английского). После мерджа удалили дубликаты (около 5к токенов).
Я правильно понимаю, вы взяли Mistral-7B, добавили доп токены, и дообучили на своих данных?
Если так, то почему у вас всякие суммаризации перестали работать?
Irbis-7B или как мы учили ЛЛМку казахскому языку