Комментарии 10
Статья полезная, только не совсем понимаю, почему бы не выбрать более новую модель для дообучения)
Здравствуйте,конечно,можно было бы использовать новые большие модели,но их нельзя было бы дообучить на бесплатных мощностях или большинстве локальных ПК) Поэтому выбрал модель,которую может попробовать каждый
В будущем обязательно напишу статью,про дообучение действительно большой модели с использованием квантования
Какую модель лучше взять для русского языка?
Здравствуйте,для русского языка можно брать дообученные модели, такие как ruGPT,например,ruGPT3. Эти модели есть на huggiface в открытом доступе
Добрый день, я верно понимаю что ruGPT3 будет лучше чем yaLLM?
Больше всего интересует вопрос дообучения на большом количестве русскоязычного текста и непонятно что будет лучше в плане работы в ограниченных условиях (отсутствие большого количества GPU).
В этом свете показательная статья "История о том, как фронтендер YaLM 100B на одной RTX 3070 TI запускал" - хотелось бы именно так повторить.
ruGPT, YaLM 100B как и Saiga всех видов - это всё давно устаревшие модели. Если вам нужна просто качественная модель для русского языка, то возьмите одну из современных, которые обучались на русском корпусе текстов, например:
Aya-32b - https://huggingface.co/spaces/CohereForAI/aya_expanse
Qwen2.5 - https://huggingface.co/spaces/Qwen/Qwen2.5
Каждая из них будет на две головы лучше, чем вы дообучите какую-то из моделей, плюс они обладают хорошим уровнем рассуждений и логики.
Для запуска не нужно супер железо, если взять gguf формат, они даже на CPU запустятся с приемлемой скоростью.

Благодарю!
Я верно понимаю, там же, на Huggingface есть и описание как запускать и минимальное железо?
И все же, каким образом можно указанные LLM дообучить для работы с конкретным пластом знаний? Что можно почитать/посмотреть по этому поводу?
Здравствуйте,на счёт того,указаны ли минимальные требования для загрузки и запуска моделей,я не уверен,но их можно найти в интернете.Дообучить любые языковые модели можно способом,предложеным в статье,но этот способ не всегда подходит для некотрых задач. Поэтому есть возможность использовать другие способы,которые можно использовать для дообучения действительно "больших" моделей. Ссылка на статью другого автора на эту тему:
https://habr.com/ru/articles/860892/
Попробуйте модели семейства qwen 2.5. Они неплохо знают русский язык.
Дообучаем языковую модель GPT2 с помощью Torch