Как стать автором
Обновить

Комментарии 19

А представьте, была бы официальная фича от хабра, позволяющая постпроцессить комментарии?
Например, базируясь на карме или ручной модерации, автор статьи мог бы подключить специальный постпроцессор.
API сделать довольно простым, никаких интерактивных элементов, а простой вывод определенного HTML под/над/вместо комментария.


Статьи подобного рода были бы в разы живее, интерактивнее и веселее!


Если автор статьи сделает Firebase Extension с такой фичей, цены бы не было! Жаль, пока они не монетизируются (но в будущем, говорят, будут).

НЛО прилетело и опубликовало эту надпись здесь

Чей-то ник забрал

Страничка, на которой можно поэкспериментировать с готовой сетью, есть?


Интересно посмотреть один крайний случай: я, когда хочу обидеть и унизить человека, предельно вежлив с ним. Живые люди понимают правильно – а сеть? Вижу две крайности в зависимости от обучающей выборки: или считать все преувеличенно вежливые тексты "добрыми", или считать все токсичными. А как научить различать (на обозримого размера выборке) – не представляю.

Фейсбук с его системой модерации давно на этот вопрос ответил: никак не научить, бань всех, Господь отберёт своих. Контекст никакая нейросеть понять не может.

Я бы оценивал реакцию на посты человека. Если вежливые посты одного человека раз за разом вызывают шквал гнева и оскорблений от незамеченных за этим ранее людей, то что-то с этим человеком явно не так.

Не замучается ли нейросеть оценивать уровень негатива или сарказма, провоцирующие последующий флейм и оскорбления?
Да нет, наверное.
Ноги в руки и вперёд! Или барабан на шею и с песнями!
Базара нет.
Ну и классика
Косил косой косой косой
Ещё ёкарный бабай:)
а вы можете написать статью, как это сделано?

Я не автор той штуки, я лишь подопытный, да и не сильно разумею в нейросетках… По ссылкам на лор есть возможность найти автора и его проект на гитхабе )

Я не понял из статьи, кроме удаления символов у вас есть еще обработка? К примеру, препроцессор, удаляющий служебные части речи, и нормализатор, который сбрасывает все остальные слова в одну форму (1 падеж, 1 число, 1 род)?

Если нет, то такой препроцессор и нормализатор должны по идее еще повысить точность, запускать их надо на всех наборах комментариев — и тестовых, и боевых — до скармливания нейронке
14к примеров при 30к столбцов-признаков это очень мало. Вы пробовали поиграться с размерностью токенизации?

А что за датасет? Какой-то публичный, или сами собирали?

Всё это конечно хорошо, но половина предложений из примера на вашем скрине в зависимости от контекста может быть как токсичными, так и вполне нормальными выражениями. Удаётся ли распознавать «токсичность» в отличии от контекста?
Первое что банально приходит на ум в качестве примера — собака женского пола одним небезызвестным словом. Боюсь, у вас однозначно будет распознаваться ругательством, что доставит неприятности, скажем, какому-нибудь форуму собаководов)
Просто полносвязными сетями анализировать — для тренировки еще сойдет. Но в этом случае мы ориентируемся только на наличие — отсутствие слов.
Следующий шаг — поиграйтесь со стеммингом как минимум. И вперед, к LSTM и RNN/
Подключаем её к блоку комментариев, чтобы hate_level выводился в процессе написания комментария. Люди стараются обмануть сеть, хейтерские комментарии скармливаются обратно в обучение сетки.

А где вы брали датасет?

НЛО прилетело и опубликовало эту надпись здесь
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории