Комментарии / Профиль efreelancer / Хабр

Software Developer

ПрофильСтатьи6Посты1НовостиКомментарии34

GGUF: квантизация с калибровкой (imatrix)

efreelancer 22 окт 2025 в 20:08

Выбор датасета влияет на то как будет вести себя квантованная модель, а для публикации взял датасет wiki лишь в качестве простого и понятного примера.

GGUF: квантизация с калибровкой (imatrix)

efreelancer 7 окт 2025 в 19:01

Можно попробовать поэксперементировать с количеством слоёв, но в целом да, для создания imatrix чтобы было быстро нужно хорошее железо и порядочно памяти.

GGUF: квантизация с калибровкой (imatrix)

efreelancer 7 окт 2025 в 16:59

Привет! Рад, что статья понравилась.

Время генерации сильно зависит от видеокарты, от того, сколько слоёв загружено на неё, и от размера обучающего датасета. В примере, описанном мною в данной публикации, использовался RTX 4090 на 24 ГБ, в которую было загружено 10 слоёв модели.

Подготовка imatrix происходила на 500 сэмплах из датасета русской Википедии (один сэмпл - одна страница). На это ушло примерно 2 часа. Квантование GGUF, используя полученный imatrix, заняло ещё пару минут - процесс очень быстрый, долго только imatrix файл создать, но всё равно это в разы быстрее, чем обучать адаптер через LoRA, например.

GGUF: квантизация с калибровкой (imatrix)

efreelancer 7 окт 2025 в 12:57

Рад, что пригодилось, сам давно хотел разобраться с этой темой.

Google запускает SALT: Новый способ ускоренного обучения больших моделей AI с помощью малых

efreelancer 7 янв 2025 в 10:11

Не рекламы ради, но я как-раз задачу специфического обучения маленьких моделей на разных наборах датасетов решил в проекте impruver.

В нём можно найти множество конфигураций для обучения малюток семейства rugpt3 {small, medium, large} под датасеты saiga2 и некоторые другие, даже модели навроде nanoGPT from-scratch обучать можно, но в целом мой проект позволяет дообучить какую угодно модель доступную через transformers.

Проект ruMorpheme — позволяет обучить модель для морфемного...

efreelancer 3 окт 2024 в 11:34

Полагаю имеется ввиду то как это делают на сайтах морфемного анализа, пожалуй это можно было бы через рендер картинки, скажем какой-нибудь canvas или типа того, реализовать

Хорошая идейка, подумаю, спасибо!

Распределённый инференс llama.cpp через RPC

efreelancer 16 сен 2024 в 15:06

Занятный проект, судя по коду поддерживается ограниченное количество моделей и предполагается использовать оригинальные веса, без квантизации GGUF или какой бы то ни было ещё, docker-образов нет, плюс смотрю там нет автоматики и все конфигурации будет необходимо прописывать вручную.

Cпасибо за ссылочку, проект пощупаю и сравню с аналогами.

Распределённый инференс llama.cpp через RPC

efreelancer 15 сен 2024 в 09:55

Если я правильно понял в формате RPC схемы все низовые работы по инференсу происходят на стороне бэкенда, следовательно если мы имеем систему из нескольких серверов работа будет распределена между ними равномерно (с учётом доступной rpc-server RAM или VRAM), следовательно можно предположить, что вся работа с кешем и его хранение будет происходить на бэкенде.

Косвенно для меня это подтверждается в этой issue на гитхабе, если в двух словах, то пользователь жалуется на сегфолты когда он отключает кеширование на стороне бэкенда.

А вот как это всё синхронизируется мне пока что непонятно.

Распределённый инференс llama.cpp через RPC

efreelancer 14 сен 2024 в 23:51

Серъёзных замеров ещё не проводил, поэтому точных цифр дать не смогу, производительность замерял на следующих схемах: 1x RTX 3050, 1x RTX 4090 и пара из этих видекарт соединённых по RPC (сеть 1Гбит), вот gist с замерами.

Это кажется странным, но в режиме RPC инференс либо чуть быстрее, либо такой же как на самой быстрой карте.

UPD. Добавлю, что основная моя цель была не в том, чтобы ускорить инференс (хотя это было бы приятным бонусом), а в том чтобы выпонять его на кластере из маломощных микрокомпьютеров, которые по отдельности не способны на инференс больших моделей, скажем на жмене RaspberryPi CM3.

Распределённый инференс llama.cpp через RPC

efreelancer 14 сен 2024 в 17:31

Тогда зачем в некоторых фреймворках для распребеленного запуска упоминаются требовпния к сети?

Думаю это нужно для того чтобы запустить инференс можно было быстрее, так как инференс выполняет только после того как все слои будут выгружены на бэкенды. Иными словами если у есть модель скажем 13B и чекпоинты которой весят кажется 9Гб и есть два бэкенда нужно залить на каждый бэкенд 4.5Гб данных.

Следовательно моя гипотезав в том, что чем быстрее сеть, тем быстрее запустится инференс.

Обучение модели токсификации текстов с помощью TorchTune, подробное руководство

efreelancer 26 апр 2024 в 13:56

Добавил чуть больше букв в том месте где была цитата, чтобы было понятно, что там модель нагенерила.

Обучение модели токсификации текстов с помощью TorchTune, подробное руководство

efreelancer 26 апр 2024 в 13:50

У MTS была публикация про детоксикатор, в этой работе они как-раз создали модель, которая удаляет из сообщений "токсичность". А ещё есть метрика MERA под названием ruDetox, которая оценивает насколько хорошо русскоязычные модели справляются с задачами удаления ругательств из текста.

Так что в контексте языковых моделей под токсичностью имеют ввиду именно нецензурные выражения.

Ну а шуточная модель которую я обучил делает строго противоположную работу, отсюда и название "токсикатор" :)

Обучение модели токсификации текстов с помощью TorchTune, подробное руководство

efreelancer 26 апр 2024 в 10:08

Правильного ответа на данный вопрос к сожалению не знаю. Мне кажется, что различить подобное крайне сложно, лично у меня градация во время сборки датасета была простая: есть мат - токсичное, нет - обычное. Насколько это оптимальная градация думаю лучше у специалистов из области психологии или лингвистики уточнить.

Обучение модели токсификации текстов с помощью TorchTune, подробное руководство

efreelancer 26 апр 2024 в 09:35

Конечно можно, если соединить токсикатор и детоксикатор то может получиться неплохой бенчмарк, сейчас попробую собрать нечто подобное.

Обучение модели токсификации текстов с помощью TorchTune, подробное руководство

efreelancer 26 апр 2024 в 09:32

Вот результаты тестов на 100 образцах текста из сплита dev датасета toxicator-ru.

Обучение модели токсификации текстов с помощью TorchTune, подробное руководство

efreelancer 26 апр 2024 в 09:31

Примеры тут.

Обучение модели токсификации текстов с помощью TorchTune, подробное руководство

efreelancer 26 апр 2024 в 08:48

Отличное замечание, сейчас займусь скриптиком.

Дообучение ruGPT-3.5 13B с LoRA

efreelancer 14 окт 2023 в 22:22

Приветствую! Уточните пожалуйста ошибку, если получится то ссылочкой на Gist, чтобы не писать много текста.

В корне проекта будет файл test_gigasaiga.py, он как-раз демонстрирует то как можно запустить дообученный мною слой LoRA адаптера. У Вас получилось его запустить? Заработало ли?

Дообучение ruGPT-3.5 13B с LoRA

efreelancer 14 окт 2023 в 11:35

Покопался в исходных кодах проекта rulm, нашёл в скрипте train одну любопытную незадокументированную переменную окружения WORLD_SIZE, по умолчанию она равна 1, а если сделать больше 1, то включается режим DataParallel.

...

world_size = int(os.environ.get("WORLD_SIZE", 1))
ddp = world_size != 1

...

if ddp:
  device_map = {"": int(os.environ.get("LOCAL_RANK") or 0)}
  gradient_accumulation_steps = trainer_config["gradient_accumulation_steps"]
  gradient_accumulation_steps = gradient_accumulation_steps // world_size
  trainer_config["gradient_accumulation_steps"] = gradient_accumulation_steps

И дальше эти параметры передаются модели.

Пример использования:

WORLD_SIZE=2 python3 -m "src.train" ...

У меня сегодня тоже возникла задача решить проблему с нехваткой памяти (уже правда в рамках обучения другой нейросети), поэтому полез настраивать device_map и max_memory опции, чтобы тренировка, если места мало, могла залезать в системную оперативную память, вот как сделал:

model = model_types[model_type].from_pretrained(
  model_name,
  load_in_8bit=True,
  device_map='auto',
  max_memory={0: f'{int(torch.cuda.mem_get_info()[0] / 1024 ** 3) - 2}GB'},
  torch_dtype=torch_dtype,
  use_flash_attention_2=use_flash_attention_2
)

Дообучение ruGPT-3.5 13B с LoRA

efreelancer 13 окт 2023 в 11:37

Попробуйте Mistral дообученную на датасетах rulm (есть демка на HuggingFace).

У Серёжи есть мама Татьяна и папа Денис. И ещё у Серёжи есть брат Иван. Кем Ивану приходится Татьяна?
Иван - сын Татьяны, так как он является братом Серёжи, а мама Серёжи - Татьяна.

Я пошёл в магазин и купил 10 яблок. Два яблока я отдал соседу и два ремонтнику. Потом я купил ещё 5 яблок и одно из них съел. Также я отдал три банана моему брату. Сколько яблок у меня осталось?
Вы купили 10 яблок, отдали два соседу и два ремонтнику, что составляет 4 яблока. Затем вы купили ещё 5 яблок и съели одно из них, что оставляет вам 4-3=1 яблоко. Также вы отдали три банана своему брату, но это не влияет на количество яблок у вас. Осталось вам 1 яблоко.

В рейтинге: Не участвует

Откуда: Москва, Москва и Московская обл., Россия

Зарегистрирован: 29 августа 2019

Активность: 11 марта в 23:00

Бэкенд разработчик, ML разработчик

Ведущий

Linux

PHP

Python

Многопоточность

Нейронные сети

Машинное обучение

Kubernetes

Golang

Высоконагруженные системы

Информация

Специализация