uncontrollable17 ноя 2019 в 14:49

Нейросеть для определения хейтеров — «не, ну это бан»

4 мин

12K

Big Data * Data Mining * Python * Визуализация данных * Машинное обучение *

+14

Комментарии 19

Carduelis 17 ноя 2019 в 15:28

А представьте, была бы официальная фича от хабра, позволяющая постпроцессить комментарии?
Например, базируясь на карме или ручной модерации, автор статьи мог бы подключить специальный постпроцессор.
API сделать довольно простым, никаких интерактивных элементов, а простой вывод определенного HTML под/над/вместо комментария.

Статьи подобного рода были бы в разы живее, интерактивнее и веселее!

Если автор статьи сделает Firebase Extension с такой фичей, цены бы не было! Жаль, пока они не монетизируются (но в будущем, говорят, будут).

НЛО прилетело и опубликовало эту надпись здесь

Wolches 18 ноя 2019 в 13:31

Чей-то ник забрал

aamonster 17 ноя 2019 в 15:50

Страничка, на которой можно поэкспериментировать с готовой сетью, есть?

Интересно посмотреть один крайний случай: я, когда хочу обидеть и унизить человека, предельно вежлив с ним. Живые люди понимают правильно – а сеть? Вижу две крайности в зависимости от обучающей выборки: или считать все преувеличенно вежливые тексты "добрыми", или считать все токсичными. А как научить различать (на обозримого размера выборке) – не представляю.

olartamonov 17 ноя 2019 в 16:27

Фейсбук с его системой модерации давно на этот вопрос ответил: никак не научить, бань всех, Господь отберёт своих. Контекст никакая нейросеть понять не может.

algotrader2013 18 ноя 2019 в 10:24

Я бы оценивал реакцию на посты человека. Если вежливые посты одного человека раз за разом вызывают шквал гнева и оскорблений от незамеченных за этим ранее людей, то что-то с этим человеком явно не так.

tuxi 17 ноя 2019 в 16:35

Не замучается ли нейросеть оценивать уровень негатива или сарказма, провоцирующие последующий флейм и оскорбления?

Да нет, наверное.

Ноги в руки и вперёд! Или барабан на шею и с песнями!

Базара нет.

Ну и классика

Косил косой косой косой

OLZ1 18 ноя 2019 в 05:46

Ещё ёкарный бабай:)

aol-nnov 17 ноя 2019 в 16:36

Пока вы тут фантазируете, мы там уже применяем!

www.linux.org.ru/forum/development/15041564 и www.linux.org.ru/forum/talks/15075051 отакшта!

Zoolander 18 ноя 2019 в 03:26

а вы можете написать статью, как это сделано?

aol-nnov 18 ноя 2019 в 03:39

Я не автор той штуки, я лишь подопытный, да и не сильно разумею в нейросетках… По ссылкам на лор есть возможность найти автора и его проект на гитхабе )

Zoolander 18 ноя 2019 в 03:17

Я не понял из статьи, кроме удаления символов у вас есть еще обработка? К примеру, препроцессор, удаляющий служебные части речи, и нормализатор, который сбрасывает все остальные слова в одну форму (1 падеж, 1 число, 1 род)?

Если нет, то такой препроцессор и нормализатор должны по идее еще повысить точность, запускать их надо на всех наборах комментариев — и тестовых, и боевых — до скармливания нейронке

tmteam 18 ноя 2019 в 10:10

14к примеров при 30к столбцов-признаков это очень мало. Вы пробовали поиграться с размерностью токенизации?

Insolita 18 ноя 2019 в 12:36

А что за датасет? Какой-то публичный, или сами собирали?

IGR2014 18 ноя 2019 в 12:44

Всё это конечно хорошо, но половина предложений из примера на вашем скрине в зависимости от контекста может быть как токсичными, так и вполне нормальными выражениями. Удаётся ли распознавать «токсичность» в отличии от контекста?
Первое что банально приходит на ум в качестве примера — собака женского пола одним небезызвестным словом. Боюсь, у вас однозначно будет распознаваться ругательством, что доставит неприятности, скажем, какому-нибудь форуму собаководов)

pythonchik 18 ноя 2019 в 12:48

Просто полносвязными сетями анализировать — для тренировки еще сойдет. Но в этом случае мы ориентируемся только на наличие — отсутствие слов.
Следующий шаг — поиграйтесь со стеммингом как минимум. И вперед, к LSTM и RNN/

QuickJoey 18 ноя 2019 в 12:51

Подключаем её к блоку комментариев, чтобы hate_level выводился в процессе написания комментария. Люди стараются обмануть сеть, хейтерские комментарии скармливаются обратно в обучение сетки.

Elemir 18 ноя 2019 в 19:02

А где вы брали датасет?

НЛО прилетело и опубликовало эту надпись здесь

Зарегистрируйтесь на Хабре, чтобы оставить комментарий