Обновить
4
0
Гельван Кирилл@Kirili4ik

Yet another DL enthusiast

Отправить сообщение

В итоге для DPO требуется датасет (такой же как для reward model, т.е. со сравнением ответов A>B), а для PPO только запросы. Не является ли это ощутимым преимуществом PPO, ведь раз нам нужны только запросы, то мы имеем кратно больше данных?

Или дело в том что при использовании PPO мы все равно "ограничены" знаниями reward model, обученной на тех же самых размеченных данных?

Спасибо за хорошую статью.

Подскажите, а есть ли ощутимые изменения качества при квантизации? Одинаковы ли они при различных способах квантизации? Я так понимаю, вы не учитывали это при выборе модели?

В прямом. Чтобы понять, насколько Few-Shot модель качественная (протестировать), мы обучаем ее классификировать новые N классов имея для каждого K примеров (напр. 3-5 фото собак каждой породы) и затем смотрим на качество классификации на этих новых классах (породах собак).

Более подробно про это можно почитать тут или тут.

Добрый день!

Cпасибо за информацию о соревновании, но, к сожалению, дедлайн уже почти наступил ? В статье приведены результаты для англйиского датасета Few-NERD Inter, что уже подтверждает вышеизоженное практически, по сравнению с моделями на основе bert-base.

Вскоре мы планиурем поделиться новыми успехами в решении NER задач.

Информация

В рейтинге
Не участвует
Откуда
Москва, Москва и Московская обл., Россия
Работает в
Дата рождения
Зарегистрирован
Активность