DenisIndenbom7 окт 2021 в 09:43

AntiToxic Bot — бот, распознающий токсичных пользователей в телеграм чатах

2 мин

12K

Python * Natural Language Processing *

Из песочницы

Комментарии 26

amarao 7 окт 2021 в 10:57

Я сейчас покажу пример токсичного комментария, по мотивам IRL чата. И что ваш бот на это скажет?

Чтобы дать комментарию должную токсичность, я вынужден использовать имена личные. Заранее прошу прощения, но комментарий требует.

Дениска, ты, конечно, молодец с этой идеей, и наверное, кто-то наивный даже поверит, что оно работает, но мы-то серьёзные люди и всё понимаем, правда?

Ещё раз прошу прощения, но это реальный парофраз недавно пролетевшей токсичной реплики в рабочем чате.

НЛО прилетело и опубликовало эту надпись здесь

Kwent 7 окт 2021 в 11:19

Человек справится

Расставьте:
1. Жизни черных важны
2. Жизни белых важны

MentalBlood 7 окт 2021 в 12:12

Ну и что тут токсичного?

Надо так:

Жизни черных не важны
Жизни белых не важны

Kwent 7 окт 2021 в 12:54

"не токсичные фразы" это фразы с токсичностью близкой к 0, оператор сравнения должен быть определен и для них, условно фраза с 0.1 токсичности токсичнее фразы с 0.05, так что "отсортировать по токсичности" можно все :)

MentalBlood 7 окт 2021 в 12:07

Токсичность уровня "Хабр"

eternum 7 окт 2021 в 12:11

Хохотнул на "Вы уроды!!!"
"Уроды - это нехорошо! Но на Вы - это хорошо! В целом на троечку. Не нарушайте..."

stekov27 7 окт 2021 в 12:30

Может проще культуру в чате взрастить, чтоб саморегуляцией, могли поправить оступившегося? Товарищей что приходят похамить проще и дешевле сразу банить.

ну и пример для бота - "котик, ты что совсем дурачок?" намеренно смазал на "дурачок".

По факту это вопрос, а не оскорбление.)

Wizard_of_light 7 окт 2021 в 12:58

ИМХО, только как первая линия обороны сойдёт. Не, появление автобанхамера обычно таки поднимает культуру общения, но, к сожалению, обычно только с уровня банальной ругани до уровня утонченных издевательств. К тому же меняющаяся повесточка заставит постоянно переучивать нейросеть и в части ключевых слов и фраз - люди постоянно находят новые способы обидеться.

tuxi 7 окт 2021 в 13:22

Эта проблема решается, нахождением датасета побольше и усложнением архитектуры нейросети

Другими словами, чтобы достичь 99% эффективности, нужен датасет с 99% всех возможных реплик и оборотов, так?

AlexNikiforov 9 окт 2021 в 15:33

Тут скорее исходный датасет кривоват, как будто не человек его делал, а нейросеть.

iandarken 7 окт 2021 в 14:47

А он умеет в сарказм и пассивную агрессию?

sunsexsurf 8 окт 2021 в 16:44

В сарказм вообще мало чего умеет, на самом деле.

НЛО прилетело и опубликовало эту надпись здесь

amarao 7 окт 2021 в 20:31

Рано или поздно эту проблему кто-то решит, потому что на самом деле, токсичность найти проще, чем сарказм или язвительность.

Для сравнения:

Будет грандиозный успех, как в прошлый деплой было. // Сарказм.
Прошлый деплой мы долго не забудем, спасибо тебе. // Язвительность.
Только такому мастеру деплоев как ты мы можем поручить создать новый инфоповод. // токсичность

Все три обсуждают следующий деплой в контексте предыдущего, который закончился 8 часовым дауном (фейсбука), например. При том, что второй обидный, он заслуженный. А вот третий - чистой воды токсичность.

НЛО прилетело и опубликовало эту надпись здесь

sunsexsurf 8 окт 2021 в 16:48

1/ не понял в чем преимущество нейронок по сравнению с svm (именно для данной задачи toxic comments)

2/ не увидел гиперпараметров (и как их подбирали), почему выбрана именно такая архитектура? (В принципе, вытекает из первого вопроса.)

Kwent 13 окт 2021 в 08:54

преимущество нейронок в том, что текст (картинки и звук туда же) - это неструктурированные данные, где нейронки классику выкинули давно и безвозвратно, в качестве "мерила" могу предложить любое соревнование, где опытным путем показано преимущество: качество работы. Например, 4 года назад в https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge уже на первом месте CNN+RNN

sunsexsurf 13 окт 2021 в 09:01

1/ не горячился бы насчет "классику выкинули давно". Соревнование, которое вы приводите, это соревнование не про 1/0, а про то, какая именно токсичность. И поэтому если речь все же про 1/0, то, как написал выше, классика продолжает работать.

2/ если есть ссылка на модель - не могли бы дать поиграться?

Kwent 13 окт 2021 в 09:53

1/0 от какая именно отличается по сути активацией и функцией потерь, не больше. Жду пример, где классика работает лучше в обработке естественного языка, если классика продолжает работать :)

В том же соревновании куча кернелов, с которыми можно поиграться, например один из последних на берте https://www.kaggle.com/oceands/bert-model-for-dummies

P. S. Кажется, вы немного отстали от темы, очень тяжело объяснять, почему атомные ледоколы лучше парусных. NLP уже давно про глубокое и сложное "word to vector", и модели отличаются тем, какую новую крутую штуку вы придумаете, которая красиво переведет слова в латентное пространство. "Детские" TF-IDF, SVM, мешки слов и прочие архаизмы работают только в купе с новыми методами в качестве поддержки, "чистая классика" проигрывает непозволительно много на всех задачах NLP.

sunsexsurf 13 окт 2021 в 11:21

да, возможно отстал, ок. на кернелы погляжу, ок. Про то, что NLP - это про эмбеддинги - это понятно.

butsan 9 окт 2021 в 16:26

Необходимо добавить распознавание мимики лица пишущего в чат человека, чтобы по микро мимике регистрировать наличие желания по-токсикозить в процессе написания сообщения.

kai3341 9 окт 2021 в 23:01

Я открыл исходники. В исходниках много прекрасного

DenisIndenbom 10 окт 2021 в 16:03

Прошу прощение за мой "прекрасный" код.

Если в нём, что то не так можно сделать pull request.

kai3341 10 окт 2021 в 17:08

Мне бы свои конюшни разгрести.

А ваш код вам и разгребать. С таким отношением я не удивлён, куда мы катимся, почему всё так тормозит и глючит на элементарных задачах. Успехов.

DenisIndenbom 10 окт 2021 в 18:13

Если в нём, что то не так можно сделать pull request.

Я имел виду, что вы можете помочь исправить ошибки(сделав pull request), если у вас есть на то желание. В любом случае я не надеялся на помощь и код разгребать всё равно мне.

Спасибо, что указали на некоторые ошибки.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий