Обновить
2
0

Пользователь

Отправить сообщение

Датасеты до и после очистки, а также веса классификаторов мы выложили. А сгенерированные шутки нет, у них не такое качество, чтобы ими хотелось делиться.

Конечно, до. И потом на очищенных данных обучали.

Выдавать шутки из базы никогда не было целью исследования. Мы хотели понизить токсичность выдаваемых шуток, но сохранить их оригинальность (с последним не очень, да и с первым тоже - в основном из-за смещенной разметки).

В продакшене этот метод нигде не используется. Делаем научные исследования, которые могут нас потенциально подвинуть ближе к пониманию того, как вообще модели обрабатывают язык, и делимся ими с коммьюнити.

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность