Датасеты до и после очистки, а также веса классификаторов мы выложили. А сгенерированные шутки нет, у них не такое качество, чтобы ими хотелось делиться.
Выдавать шутки из базы никогда не было целью исследования. Мы хотели понизить токсичность выдаваемых шуток, но сохранить их оригинальность (с последним не очень, да и с первым тоже - в основном из-за смещенной разметки).
В продакшене этот метод нигде не используется. Делаем научные исследования, которые могут нас потенциально подвинуть ближе к пониманию того, как вообще модели обрабатывают язык, и делимся ими с коммьюнити.
Датасеты до и после очистки, а также веса классификаторов мы выложили. А сгенерированные шутки нет, у них не такое качество, чтобы ими хотелось делиться.
Конечно, до. И потом на очищенных данных обучали.
Выдавать шутки из базы никогда не было целью исследования. Мы хотели понизить токсичность выдаваемых шуток, но сохранить их оригинальность (с последним не очень, да и с первым тоже - в основном из-за смещенной разметки).
В продакшене этот метод нигде не используется. Делаем научные исследования, которые могут нас потенциально подвинуть ближе к пониманию того, как вообще модели обрабатывают язык, и делимся ими с коммьюнити.