uncontrollable Nov 17 2019 at 17:49

Нейросеть для определения хейтеров — «не, ну это бан»

4 min

11K

Python*Data Mining*Big Data*Data visualization*Machine learning*

+17

Comments 19

Carduelis Nov 17 2019 at 18:28

А представьте, была бы официальная фича от хабра, позволяющая постпроцессить комментарии?
Например, базируясь на карме или ручной модерации, автор статьи мог бы подключить специальный постпроцессор.
API сделать довольно простым, никаких интерактивных элементов, а простой вывод определенного HTML под/над/вместо комментария.

Статьи подобного рода были бы в разы живее, интерактивнее и веселее!

Если автор статьи сделает Firebase Extension с такой фичей, цены бы не было! Жаль, пока они не монетизируются (но в будущем, говорят, будут).

UFO just landed and posted this here

Wolches Nov 18 2019 at 16:31

Чей-то ник забрал

-1

aamonster Nov 17 2019 at 18:50

Страничка, на которой можно поэкспериментировать с готовой сетью, есть?

Интересно посмотреть один крайний случай: я, когда хочу обидеть и унизить человека, предельно вежлив с ним. Живые люди понимают правильно – а сеть? Вижу две крайности в зависимости от обучающей выборки: или считать все преувеличенно вежливые тексты "добрыми", или считать все токсичными. А как научить различать (на обозримого размера выборке) – не представляю.

olartamonov Nov 17 2019 at 19:27

Фейсбук с его системой модерации давно на этот вопрос ответил: никак не научить, бань всех, Господь отберёт своих. Контекст никакая нейросеть понять не может.

algotrader2013 Nov 18 2019 at 13:24

Я бы оценивал реакцию на посты человека. Если вежливые посты одного человека раз за разом вызывают шквал гнева и оскорблений от незамеченных за этим ранее людей, то что-то с этим человеком явно не так.

-1

tuxi Nov 17 2019 at 19:35

Не замучается ли нейросеть оценивать уровень негатива или сарказма, провоцирующие последующий флейм и оскорбления?

Да нет, наверное.

Ноги в руки и вперёд! Или барабан на шею и с песнями!

Базара нет.

Ну и классика

Косил косой косой косой

-1

OLZ1 Nov 18 2019 at 08:46

Ещё ёкарный бабай:)

aol-nnov Nov 17 2019 at 19:36

Пока вы тут фантазируете, мы там уже применяем!

www.linux.org.ru/forum/development/15041564 и www.linux.org.ru/forum/talks/15075051 отакшта!

Zoolander Nov 18 2019 at 06:26

а вы можете написать статью, как это сделано?

aol-nnov Nov 18 2019 at 06:39

Я не автор той штуки, я лишь подопытный, да и не сильно разумею в нейросетках… По ссылкам на лор есть возможность найти автора и его проект на гитхабе )

Zoolander Nov 18 2019 at 06:17

Я не понял из статьи, кроме удаления символов у вас есть еще обработка? К примеру, препроцессор, удаляющий служебные части речи, и нормализатор, который сбрасывает все остальные слова в одну форму (1 падеж, 1 число, 1 род)?

Если нет, то такой препроцессор и нормализатор должны по идее еще повысить точность, запускать их надо на всех наборах комментариев — и тестовых, и боевых — до скармливания нейронке

tmteam Nov 18 2019 at 13:10

14к примеров при 30к столбцов-признаков это очень мало. Вы пробовали поиграться с размерностью токенизации?

Insolita Nov 18 2019 at 15:36

А что за датасет? Какой-то публичный, или сами собирали?

IGR2014 Nov 18 2019 at 15:44

Всё это конечно хорошо, но половина предложений из примера на вашем скрине в зависимости от контекста может быть как токсичными, так и вполне нормальными выражениями. Удаётся ли распознавать «токсичность» в отличии от контекста?
Первое что банально приходит на ум в качестве примера — собака женского пола одним небезызвестным словом. Боюсь, у вас однозначно будет распознаваться ругательством, что доставит неприятности, скажем, какому-нибудь форуму собаководов)

pythonchik Nov 18 2019 at 15:48

Просто полносвязными сетями анализировать — для тренировки еще сойдет. Но в этом случае мы ориентируемся только на наличие — отсутствие слов.
Следующий шаг — поиграйтесь со стеммингом как минимум. И вперед, к LSTM и RNN/

QuickJoey Nov 18 2019 at 15:51

Подключаем её к блоку комментариев, чтобы hate_level выводился в процессе написания комментария. Люди стараются обмануть сеть, хейтерские комментарии скармливаются обратно в обучение сетки.

Elemir Nov 18 2019 at 22:02

А где вы брали датасет?

UFO just landed and posted this here

Show the best of all time