shushurikhin 6 авг 2021 в 14:23

Почти доброе место: как интернет пытались сделать менее злым и что из этого вышло

4 мин

12K

Блог компании SelectelМашинное обучение*Научно-популярноеИскусственный интеллектСоциальные сети и сообщества

+39

Комментарии 47

sinc_func 6 авг 2021 в 14:43

+15

НЛО прилетело и опубликовало эту надпись здесь

Kwent 6 авг 2021 в 15:31

Ну, во-первых, ваш пример в зависимости от контекста может быть токсичным, например, где шьет явно произносится (по аналогии с разговорной речью) как эвфемизм ("ой, а твоя мать вообще шьет всему району" там). Вы же не специально взяли слово шьет, ведь все всё понимают, правда?)

Во-вторых, твоя и наша тоже понятно, во всем известном ругательстве действительно твоя, а не наша, то есть даже нейтральная фраза "твоя мать шьет" более токсична, чем "наша мать шьет", если нас вынудить определить здесь оператор сравнения.

В-третьих, пунктуация это по сути интонация на письме. Если мы говорим о форумах, то точка там редкий гость и часто встречается для подчеркивания эмоций (резкости там, завершения разговора, передачи отрицательного настроения, например: "Ясно.")

В-четвертых, а какой порог-то? Если бахнуть порог 90%, то все ваши фразы нейтральны и все ок :)

НЛО прилетело и опубликовало эту надпись здесь

Kwent 6 авг 2021 в 16:03

Чувствую себя каким-то адвокатом дьявола, ну # же типичный пример символа замены как и @: f#ck

Ну и в моем мире <любая фраза>!!!!! такое себе, и чем больше восклицательных знаков тем страшнее

Нужно понимать, что сервис учился на размеченных людьми данных, а люди уже давно в подобных задачах работают хуже людей. Вот смотрите, как бы вы отранжировали фразы по токсичности с одной, двумя и тремя точками? И главное почему так? Или ваша позиция в том, что это задача принципиально нерешаема?
P.S. разницу в 5-10% я бы не считал значимой когда мы в середине интервала

Я не совсем понимаю ваших претензий, как по мне работает ожидаемо и нормально, очевидно, что любое изменение фразы меняет ее токсичность (если нет, то могу объяснить), и мы видим что для сравнительно нейтральной фразы (с явным закосом под сложный тест) оценки действительно не высокие, он же не дает 99% ответ, правда? 50-60 это возможно не так уж и много, мы не знаем распределения, вдруг там вообще нормальное и 50 - максимально нейтральная фраза?

НЛО прилетело и опубликовало эту надпись здесь

Kwent 6 авг 2021 в 16:21

По поводу шить, я не про значение шить а про "твоя мать <что угодно>" в контексте может быть эвфемизмом, на этот он и агрится, просто "твоя мать <что угодно>" вероятнее что-то плохое чем "наша мать <что угодно>" для сервиса и для меня тоже.

По поводу странно - вы тестируете явно граничный случаи, а работает оно на обычных :) Ну и еще раз акцентирую, что 50-60% это много - вы сами себе придумали, мы не знаем какие пороги в том же reddite (как минимум я не знаю).

По поводу токенизации - ваши представления об NLP устарели, токенизация - вынужденное зло и если можно было бы делать без нее - делали бы сразу, сейчас в топ решениях ее в явном виде нет. Точнее она есть, но токен != слово (мне показалось вы это имеете ввиду) точка - тоже токен, а слово не всегда целиком является токеном, а иногда токен это несколько слов.

Scinolim 6 авг 2021 в 17:11

Для нейросети достоверность должна быть больше 90-95% чтобы считать сообщение токсичным (как и с любой другой классификацией). Всё что меньше — белый шум. На русском языке оно плохо обучено, но в любом случае упоминание «твоя мать {действие}» в любом контексте в комментариях под публичными новостями — явно грубо.

Kwent 6 авг 2021 в 17:17

у "нейросети" в общем случае нет процентов, будем честным, часто полученные выходы преобразуют некой функцией, чтобы результаты стали более понятны для человека, в этом случае, видимо, немного неудачно сделали :)

Scinolim 6 авг 2021 в 17:24

Обычно результат классификатора лежит в диапазоне значений вектора 0..1. Если ниже, чем 0.9, то в большинстве случаев это значит, что нейросеть не может уверенно классифицировать вход.

Kwent 6 авг 2021 в 17:40

В этой паре предложений столько предположений, которые мы не можем узнать и проверить :) Да и такого "обычно" нет, "обычно" - 0.5, а вот в моей сетке сейчас 0.72, все не так однозначно.

LynXzp 7 авг 2021 в 03:39

Для нейросети достоверность должна быть больше 90-95%

В зависимости ошибка какого рода более дорогая. Если это сайтик элитной сети школ с модерацией комментариев, то лучше сотни ложных срабатываний с оповещениями модератору, чем одно пропущенное сообщение.

fndrey357 8 авг 2021 в 21:24

Интересно, как эта хрень отреагирует на "Твой брат - прокурор, шьет" и "Твоему брату шьют".

ncr 6 авг 2021 в 15:14

С появлением интернета у человечества впервые в истории появилась возможность массово спускать пар виртуально, без рукоприкладства и последствий.
Казалось бы, живи и радуйся.
Но нет, это токсично и недопустимо, надо цензурировать и делать вид, что мы все добрые и пушистые.
А в том, что очередной подросток возьмет ружжо и спустит пар в ближайшей школе, конечно же, будут виноваты видеоигры.

+15

Scinolim 6 авг 2021 в 17:21

Основная направленность Percpective — избегать токсичности в публичных комментариях, в которых неуместны переходы на личности. А этот API всего лишь инструмент для движков форумов, на замену примитивному антимату.

unsignedchar 7 авг 2021 в 12:59

избегать токсичности в публичных комментариях, в которых неуместны переходы на личности

Если интересуют только нетоксичные комментарии — не проще ли живых людей до комментирования не допускать, нагенерировать нужных комментариев ~~нейросетью~~ специально обученными писателями?

sundmoon 22 сен 2021 в 21:13

У системы никаких "интересов", её цель дрессировка, именно дрессировка живых людей.

sibirier 6 авг 2021 в 22:39

… массово спускать пар без последствий

ну, не совсем без последствий. кибербуллинг до добра не доводит. кто-то может заявить «так это за дело», но это самосуд. виновных должны наказывать те, у кого есть на это полномочия (и после следствия, а не по прихоти любого обратившегося), а не все подряд. иначе так можно* затравить любого, даже невиновного.
* — ~~пока ещё~~ «есть возможность», а не «разрешено».

kortique 7 авг 2021 в 15:55

Я больше поверю, что привычка безнаказанно материться и оскорблять людей, сформированная в интернете, быстрее приведёт к привычке повторять этот опыт на постоянной основе, ибо уже станет для индивида нормой, чем фингал под глазом в дочатовские времена после первой неудачной попытки сострить о матери собеседника.

Если надо спустить пар - иди в зал. А если очень хочется кого-то унизить, то пожалуйста, но будь готов к ответственности.

engine9 7 авг 2021 в 19:52

Ну тут спорно, кстати. Есть инфа, что если прибегать к какой-то деятельности то она закрепляется через обыкновенное научение. Например, если человек через крик и оскорбления "выпускает" гнев, то он движется к тому чтобы чаще применять эту практику.

Мне эта тенденция (ограничивать высказывания людей) робо-цензурой напоминает лечение диареи путём затыкания ануса пробкой. А стоит учить людей справляться с обидой (подавляющее большинство людей не осознаёт, что эмоция обиды это продукт их собственного неуправляемого поведения и требований, но это отдельная тема для разговора). И еще хорошей "прививкой" против словесного насилия является восппитание. Но кого это волнует, проще озлобленных и обиженных загонять под гнёт лицемерной толерастии которая является лишь имитацией настоящей терпимости.

Tanner 6 авг 2021 в 15:33

Мне кажется, в каком-то разговоре с Джорданом "Лобстером" Питерсоном проскальзывало такое обобщение, что юмор -- это исходно консервативная вещь, так как юмор почти всегда основан на недосказанности, на каких-то общеизвестных вещах, которые, тем не менее, редко вербализуются. А социальные активисты, наоборот, постоянно объясняют что-то: 150 лет назад они объясняли, что такое пролетариат и эксплуатация, сейчас они объясняют, что такое апроприация и менсплейнинг. Объяснения -- это что-то противоположное юмору. Поэтому социальный активизм не бывает смешным.

Так вот, я думаю, может быть так, что социальные активисты, захватившие сегодня сферу IT, чувствуют идеологическую враждебность юмора, поэтому так серьёзно настроены бороться с ним.

Другое объяснение подобным эксцессам, которое приходит мне в голову: в IT работает очень много людей, которые воспринимают юмор иначе, чем большинство, просто в силу диагноза (диссоциальники, аутисты и т. д.). Они или не понимают, за какую безнадёжную задачу берутся, или, наоборот, формализация юмора для них является очень интересной задачей, профессиональным вызовом. В любом случае, антисоциальности своей работы они не осознают.

lealxe 6 авг 2021 в 19:41

Извините, первое объяснение хорошее, и второе тоже, но не согласен, что в этом есть что-то антисоциальное.

То есть я хорошо понимаю людей, которым, как вы сказали, интересна задача.

Проблема не в том, что кто-то разрабатывает системы фильтрации и оценки, и неважно, по какому признаку, проблема в том, что есть одна сторона/группа, принимающая решения, кому говорить, а кому молчать.

Если бы медиум для коммуникации с этой точки зрения был как Usenet, с индивидуальной системой фильтрации и оценки для каждого (как киллфайлы там), то проблемой это бы не было, даже наоборот - позволило бы такой системе существовать в современном интернете с огромным количеством злонамеренных людей и ботов.

Tanner 6 авг 2021 в 20:51

То есть убивает не оружие, убивает человек. Если я правильно понял ваш аргумент.

Но такие технологии, как описаны в этой статье -- это, похоже, такое особое оружие, которое даёт преимущество только одной стороне конфликта. Даже под открытыми лицензиями. По крайней мере, нам сейчас понятно, как всё это можно использовать в целях цензуры или слежки, а вот на благо отдельного человека -- нет, непонятно.

lealxe 6 авг 2021 в 21:08

Да, но еще смотрите последний абзац. Хотя, к сожалению, пока такого p2p-реддита вроде бы еще нет.

Я бы скорее сравнил это с ядерным оружием, которое с точки зрения некоторых сдерживает количество и масштаб войн на планете.

То есть если все централизованные платформы будут захвачены цензурой, то люди со временем поймут, для чего нужна децентрализация.

nin-jin 6 авг 2021 в 15:36

рекомендует пользователю покончить с собой. Токсичности нет

Это грубости нет, а токсичность как раз в полный рост.

ksr123 9 авг 2021 в 17:03

Понапридумывали новых «терминов», а их определения забыли сформулировать.

НЛО прилетело и опубликовало эту надпись здесь

Kvakosavrus 6 авг 2021 в 22:38

Жуть какая. Ужасом и безнадежностью веет от таких статей.

vit1251 8 авг 2021 в 04:57

Так конечно, так как решение очевидно проблемы лежит в развитии культуры у людей. Психологическе здоровье этих самых комментаторов первоочередная цель. Понимание, что например оскорбление или токсичность это как ходить измазанными в дерьме или даже преступление (ударить кого-то это хулиганство, а вот гадость вполне нормально - хотя были в государственных законах какие-то подвижки в этом направлении). Сегодня в городах люди вроде прилично одеты, а среди молодежи полно модников, что им можно позавидовать. Странно, что в области коммуникации нет подобной культуры (только фантики и обертки)? А направление нейронных сетей это как фотошопить грязную одежду или скрывать ее за цензурой (черными квадратами) или не обращать на это внимание. Я ожидал от Facebook немного большего в конце концов там Марк он же учился в Гарварде и раз уж он позиционировал себя как меняющего формат общения, то можно было бы не останавливаться и продолжать движение.

unsignedchar 8 авг 2021 в 11:58

Странно, что в области коммуникации нет подобной культуры

Ничего странного на самом деле. Культура в общении IRL складывалась исторически в течение тысячелетий. И за несоблюдение культурных традиций можно ощутимо пострадать. А в общении в интернетах сложившихся традиций нет, сдерживающих факторов как в IRL тоже нет.

vit1251 8 авг 2021 в 23:08

С историей конечно полным полно было воин и доказательств, что культура важна и ее нужно уважать, но я думаю, что память у людей короткая. Одно поколение и все уже опять с нуля чистенькие и поносят в разные стороны. Думаю, что культуру нужно прививать на уровне школы или вторая мысль, что наверное общение в интернете слишком доступное. Скажем если бы каждый окмментарий стоил бы денег, то наверное люди сто раз подумали что писать и кому писать. А если бы ввести ответственность например за оскорбление, то и вовсе комментарии будут крайне аккуратными. Я думаю, что вопрос постепенно назреет и станет рассматриваться как часть законодательства.

unsignedchar 9 авг 2021 в 09:13

Скажем если бы каждый окмментарий стоил бы денег

Если бы каждое слово стоило денег.. Хотя слово серебро, а молчание золото, например. Предки понимали толк а самоцензуре

А если бы ввести ответственность например за оскорбление

А как у нас по поводу ответственности за оскорбление IRL? За оскорбление некоторых можно получить по лицу, за других - по закону, а в основном нет никакой ответственности. И в интернетах так же.

vit1251 11 авг 2021 в 18:29

А как у нас по поводу ответственности за оскорбление IRL? За оскорбление некоторых можно получить по лицу, за других - по закону, а в основном нет никакой ответственности. И в интернетах так же.

Так в IRL тяжело заловить оскорбителя, так как нужно зафиксировать, а фиксировать нельзя, так как шпионская техника запрещена и выходит, что нужны свидетели, а свидетели тоже могут врать и т.д. А с Интернетами сам факт сообщения уже можно расценивать как сообщение и тут даже нейронные сети писать не нужно - ситуация на лицо. Другое дело, что люди сами должны дойти до этого ... Можно рассмотреть и противоположное движение людей, которые оскорбляют. Взять и спросить, а какую цель преследуют и скорее всего тут ответ будет один это агрессия направленная в себя из-за неудовлетворенности в каких-то собственных потребностях. От ущемленного эго и заканчивая обидой за то что наступили в транспорте за ногу.

unsignedchar 12 авг 2021 в 00:10

А с Интернетами сам факт сообщения уже можно расценивать как сообщение

Нельзя. Без нотариально заверенной цифровой подписи под каждым байтом невозможно доказать, что сообщение действительно отправлено Васей Пушкиным.

vit1251 12 авг 2021 в 11:37

Без нотариально заверенной цифровой подписи

Просто большая часть сервисов по прежнему работают в серой зоне (не производят достаточную проверку подлинности), а так многие сервисы вводят авторизацию по телефонному номеру и работают по защищенным каналам. Вопрос прнятия государством просто этого факта и я думаю, что рано или поздно мы получим такие системы. Вот уже ВКонтакте не позволяет без привязки к номеру телефона зайти и многие дургие сервисы. Так что нотариальные заверения цифровой подписью остались в прошлом, а настоящее уже на подходе. Думаю, что скоро популяризируют работу под персональными сертификатами (не знаю как точно их называют, но помню была клиентская авторизация в WebMoney ещё в 2000-е так организована).

unsignedchar 12 авг 2021 в 11:55

Тогда в серую зону уйдет управление сертификатами. Помните ту историю, когда продали квартиру с помощью цифровой подписи, полученной в немного подзрительном удостоверяющем центре? Насколько я помню, виноватых не было.

vit1251 12 авг 2021 в 12:03

Согласен. Сейчас мы видим начальный этап развития. Погодите еще вчера выход в Интернет происходил по модему через телефон. Я думаю, что нужно просто какое-то время.

t13s 10 авг 2021 в 10:34

Мне кажется, проблема рассматривается только с одной стороны: до активного развития этих ваших интернетов всяческие обиженки сидели дома и на "токсичность" (дома, на работе, etc...) "оскорблялись" молча. Сейчас же соцсети предоставляют отличную возможность обижаться публично, для чего много ума не требуется. Чем вышеуказанные персоны, собственно, и пользуются.

Чтобы осознать масштаб изменений, пересмотрите, например, Хауса (который снимался не очень-то и давно): там в каждой серии присутствуют примерно годовой бюджет расистских и сексистских шуток, который может позволить себе все медиа сегодня. А сейчас Гай Ричи выглядит ооочень смелым со своим джентельменским "ну, ты черный и ты урод".

ra3vdx 7 авг 2021 в 01:21

Ну, алгоритмы ФБ - притча во языцех. Можно схватить бан на месяц за использование слова "укроп" в рецепте окошки.

Что же касается токсичности и уровня озлобленности - для меня было ценным опытом сравнения комментариев в русскоязычном и англоязычном разделах ютюба.

ksr123 9 авг 2021 в 18:22

Меня за «расстреляли меня, внучок» забанили.

IluhaSMV 7 авг 2021 в 15:54

Все эти попытки цензурить злые комментарии в интернете являются лишь борьбой со следствиями проблемы, а не с её причинами. Какие люди, такой интернет. Когда сами изменимся, только тогда интернет станет более приятным и добрыми местом.

funca 9 авг 2021 в 23:21

У комментов есть эффект положительной обратной связи. Люди имеют тенденцию подхватывать настрой и потом отвечать в том же духе, нередко повышая градус накала страстей. Поскольку они это повторяют из дня в день здесь есть и воспитательный момент. И тогда становится справедливым обратное: какой интернет, такие и люди. На моей памяти цензура в пабликах была всегда, начиная со времен анархо-фидонета.

Xuxicheta 8 авг 2021 в 22:37

Токсичность, агрессия - топливо для дискуссии. Сделайте полемику доброй и она заглохнет.

funca 9 авг 2021 в 23:10

Кстати хорошее замечание. Этим заметно выделяются полемики в рунете. Может поэтому весь остальной мир считает нас немного дикарями?

unsignedchar 10 авг 2021 в 10:44

В 99,99% под дискуссией понимается срачь. Многим нравится, никого насильно дискутировать не заставляют. Есть даже телевизионные ток шоу в подобных форматах.

teecat 9 авг 2021 в 14:20

И попробуй докажи, что это у вас с получателем такая внутренняя шутка.

Не смешно. Работал я в пейджинговой компании. Так вот — претензии получатель отправлял не тому, кто надиктовал, а к пейджинговой компании. ПРиходили с юристами, и да — им возмещали моральный ущерб. Так что ограничения — не шутки операторов

Manwe_SandS 10 авг 2021 в 20:30

в Сколково ставят в один ряд разговоры о политике и о самоубийствах, понятно.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий