Комментарии 3
Спасибо за интересную статью! Я заметила, что выбранные аугментации в основном оперируют токенами. А не было ли мысли рассмотреть аугментации на уровне символов? Например, удаление пробела (как будто человек говорит очень быстро), или замена буквы похожей по звучанию?
лет 10+ назад генерировал так синонимы доменов, через google translate)
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Долой рандом, или ищем лучшие настройки для аугментации текстов