efreelancer18 часов назад

Реставрация ruGPT-3 XL или как я вернул к жизни забытую русскую языковую модель

Средний

8 мин

8.4K

Машинное обучение * Искусственный интеллект

Туториал

+25

Комментарии 9

ComputerPers 15 часов назад

Отличная работа, статья очень зашла

efreelancer 8 часов назад

Благодарю за комментарий, мне просто очень захотелось вновь порабоать с этой моделькой и пару дней спустя поулчился этот пост)

UtrobinMV 12 часов назад

Мое личное предположение, что архитектура DeepSeek просто более удачная, а это тоже немаловажно. Поэтому и свернули в ту сторону. Тем более что не нужно было бы писать и адаптировать инференс.

efreelancer 8 часов назад

В целом согласен, DeepSeek и правда очень удачная архитектура, она очень похожа на архитектуру Llama, но с нюансами MoE и поддержкой мультихед аттеншен, просто проявилась она на четыре года позже отечественных экспериментов над архитектурой GPT2 в моделях ruGPT, сделаю смелое предположение, но мне кажется, что если бы наш бигтех не забросил попытки делать что-то своё, то вероятно архитектура ruGPT конкурировала бы сейчас с другими решениями.

В случае с ruGPT инференс тоже не нужно было сильно адаптировать, эта архитектура по сути глубокая модификация GPT2 и работает соответствующим образом, на её основе в 21м году стоило бы делать какие-то специализированные модели, инстракт, чат, кодовые модели и так далее, но к сожалению в паблик выпускались только foundation.

mrbp_old 12 часов назад

Тот случай, когда задачу начинали решать математики, инженеры, программисты, одаренные и гениальные творцы, а потом пришел "эффективный менеджер" и всех увёл в другую сторону. И в результате то, что должно было стать с прекрасной каретой - превратилось в тыкву. А сама идея и подход осталось пылиться на полках как история.

efreelancer 7 часов назад

Как там было пять лет назад сказать уже сложно, но имеем что имеем, добротная архитектура и занятные модельки на её основе заброшены, а ведь люди которые их делали (в посте будет ссылочка на научную работу) потратили на них много времени и сил, мне просто не хотелось чтобы их труд пропадал даром, авось кто заинтересуется в ruGPT3 XL когда-нибудь.

ash_lm 1 час назад

Скрытый текст

Мне кажется это какой-то рандомайзер фраз.

Anton_Timofeev 59 минут назад

В статье же написано, что это классический GPT - т.е. продолжатель фраз, и на диалог её не дообучали.

ash_lm 52 минуты назад

Я читал в начале, что "умеет только продолжать текст", не совсем было понятно как она работает поэтому и поставил. Но на мой взгляд это реально рандомайзер и что там от нейросети не совсем понятно.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий