Search
Write a publication
Pull to refresh

Comments 16

Очень здорово!

А какой датасет используется для претрейна? Или хотя бы какой у него жанровый состав

Какие-то на ХФ нашли (вики, оскар, новости), какие-то данные сами пособирали (книжки, статьишки и еще новости, но посвежее).

gemma2 9b пробовали? Не знаю как с казахским а русским она владеет идеально, при примерно таких же размерах и требованиях как ллама3-8б и мистраль.

Увы Gemma2 9b не пробовали (как и ллама3), ибо на момент работы они еще небыли опубликованы. В следующих статьях, когда получим новые результаты, обязательно отпишусь и сравню с последними модельками.

Сегодня буквально тестировал гемму вторую. Подтверждаю, языковое чутье и словоупотребление на русском у нее заметно лучше. Ллама3 русский понимает, но пишет как иностранец, местами конфабулируя несуществующие в лексиконе слова. А гемма просто говорит.

Но она очень скупа на объяснения. Другие модели обычно не заткнешь — вываливают под страницу текста, а эта как задолбанный программист: отвечает одним абзацем, по делу, точно, но ощущение что ей впадлу говорить. Приходится клещами тянуть и задавать уточняющие вопросы.

В противовес лламе3 есть Qwen2, она обучалась на 27 языках и имея примерно тот же уровень качества как и ллама3, является так сказать "мультиязычной" моделью.

Квен я тоже гонял, но что-то мне не зашло. Для прикладных задач может быть, но именно как оракул мне оно показалось не очень.

Он к тому же дико упëртый – датасет безбожно устаревший, но от своего "мнения" не отступится, как его ни тычь в актуальную инфу.

И про архитектуру можете сказать?

Трансформер (так как мы отталкивались от Мистрала)

А по затратам сколько обошлось?

Сказать сложно, ибо работа продолжается дальше. А касаемо тех результатов, что были достигнуты и описаны в статье, можете примерно прикинуть: на тот момент это были 3 недели аренды 2хH100

Можете пожалуйста рассказать по подробнее как добавлять словарь ? Хочу сделать также для Азербайджанского, есть много текстов (новости-вики- книги) как из них расширить словарь ?

Ну одним расширением словаря не отделаться, придется дополнительно учить модель (как я и писал в статье). Токенизатор учили с помощью библиотеки sentencepiece. Далее объединяли с токенизатором из базовой модели (так как мы учили только на казахских текстах, важно было иметь токены и для английского). После мерджа удалили дубликаты (около 5к токенов).

Я правильно понимаю, вы взяли Mistral-7B, добавили доп токены, и дообучили на своих данных?
Если так, то почему у вас всякие суммаризации перестали работать?

Sign up to leave a comment.

Articles