@Viacheslav-hub Nov 17 2024 at 18:25

Дообучаем языковую модель GPT2 с помощью Torch

Hard

11 min

3.9K

Python * Machine learning * Programming *

Tutorial

+16

Comments 10

@d00m911 Nov 17 2024 at 18:50

Статья полезная, только не совсем понимаю, почему бы не выбрать более новую модель для дообучения)

@Viacheslav-hub Nov 17 2024 at 18:57

Здравствуйте,конечно,можно было бы использовать новые большие модели,но их нельзя было бы дообучить на бесплатных мощностях или большинстве локальных ПК) Поэтому выбрал модель,которую может попробовать каждый

В будущем обязательно напишу статью,про дообучение действительно большой модели с использованием квантования

@DeskundigeICT Nov 19 2024 at 11:05

К тому же GPT2 - свободная программа, в отличие от новых поколений, доступных только у дяди Сэма на облаке. Плюс новое - это хорошо забытое старое:)

@binque Nov 18 2024 at 07:00

Какую модель лучше взять для русского языка?

@Viacheslav-hub Nov 18 2024 at 08:05

Здравствуйте,для русского языка можно брать дообученные модели, такие как ruGPT,например,ruGPT3. Эти модели есть на huggiface в открытом доступе

@SerJ_82 Nov 20 2024 at 07:05

Добрый день, я верно понимаю что ruGPT3 будет лучше чем yaLLM?
Больше всего интересует вопрос дообучения на большом количестве русскоязычного текста и непонятно что будет лучше в плане работы в ограниченных условиях (отсутствие большого количества GPU).
В этом свете показательная статья "История о том, как фронтендер YaLM 100B на одной RTX 3070 TI запускал" - хотелось бы именно так повторить.

@Shannon Nov 20 2024 at 09:09

ruGPT, YaLM 100B как и Saiga всех видов - это всё давно устаревшие модели. Если вам нужна просто качественная модель для русского языка, то возьмите одну из современных, которые обучались на русском корпусе текстов, например:

Aya-32b - https://huggingface.co/spaces/CohereForAI/aya_expanse
Qwen2.5 - https://huggingface.co/spaces/Qwen/Qwen2.5

Каждая из них будет на две головы лучше, чем вы дообучите какую-то из моделей, плюс они обладают хорошим уровнем рассуждений и логики.
Для запуска не нужно супер железо, если взять gguf формат, они даже на CPU запустятся с приемлемой скоростью.

@SerJ_82 Nov 25 2024 at 11:19

Благодарю!
Я верно понимаю, там же, на Huggingface есть и описание как запускать и минимальное железо?
И все же, каким образом можно указанные LLM дообучить для работы с конкретным пластом знаний? Что можно почитать/посмотреть по этому поводу?

@Viacheslav-hub Nov 25 2024 at 11:28

Здравствуйте,на счёт того,указаны ли минимальные требования для загрузки и запуска моделей,я не уверен,но их можно найти в интернете.Дообучить любые языковые модели можно способом,предложеным в статье,но этот способ не всегда подходит для некотрых задач. Поэтому есть возможность использовать другие способы,которые можно использовать для дообучения действительно "больших" моделей. Ссылка на статью другого автора на эту тему:

https://habr.com/ru/articles/860892/

@d00m911 Nov 18 2024 at 12:17

Попробуйте модели семейства qwen 2.5. Они неплохо знают русский язык.