Комментарии / Профиль Kirili4ik / Хабр

Гельван Кирилл@Kirili4ik

Yet another DL enthusiast

Подписчики

Как мы готовим RL для Alignment в больших языковых моделях: опыт команды YandexGPT

Kirili4ik 8 июн 2024 в 18:46

В итоге для DPO требуется датасет (такой же как для reward model, т.е. со сравнением ответов A>B), а для PPO только запросы. Не является ли это ощутимым преимуществом PPO, ведь раз нам нужны только запросы, то мы имеем кратно больше данных?

Или дело в том что при использовании PPO мы все равно "ограничены" знаниями reward model, обученной на тех же самых размеченных данных?

Ускорение инференса модели BERT с помощью ONNX и ONNX Runtime на примере решения задачи классификации текста

Kirili4ik 1 фев 2023 в 07:41

Спасибо за хорошую статью.

Подскажите, а есть ли ощутимые изменения качества при квантизации? Одинаковы ли они при различных способах квантизации? Я так понимаю, вы не учитывали это при выборе модели?

Few-Shot NER, или Как перестать размечать и начать жить

Kirili4ik 11 фев 2022 в 09:02

В прямом. Чтобы понять, насколько Few-Shot модель качественная (протестировать), мы обучаем ее классификировать новые N классов имея для каждого K примеров (напр. 3-5 фото собак каждой породы) и затем смотрим на качество классификации на этих новых классах (породах собак).

Более подробно про это можно почитать тут или тут.

Few-Shot NER, или Как перестать размечать и начать жить

Kirili4ik 8 фев 2022 в 14:38

Добрый день!

Cпасибо за информацию о соревновании, но, к сожалению, дедлайн уже почти наступил ? В статье приведены результаты для англйиского датасета Few-NERD Inter, что уже подтверждает вышеизоженное практически, по сравнению с моделями на основе bert-base.

Вскоре мы планиурем поделиться новыми успехами в решении NER задач.