Как стать автором
Обновить

Почти доброе место: как интернет пытались сделать менее злым и что из этого вышло

Время на прочтение4 мин
Количество просмотров12K
Всего голосов 43: ↑41 и ↓2+39
Комментарии47

Комментарии 47

НЛО прилетело и опубликовало эту надпись здесь

Ну, во-первых, ваш пример в зависимости от контекста может быть токсичным, например, где шьет явно произносится (по аналогии с разговорной речью) как эвфемизм ("ой, а твоя мать вообще шьет всему району" там). Вы же не специально взяли слово шьет, ведь все всё понимают, правда?)

Во-вторых, твоя и наша тоже понятно, во всем известном ругательстве действительно твоя, а не наша, то есть даже нейтральная фраза "твоя мать шьет" более токсична, чем "наша мать шьет", если нас вынудить определить здесь оператор сравнения.

В-третьих, пунктуация это по сути интонация на письме. Если мы говорим о форумах, то точка там редкий гость и часто встречается для подчеркивания эмоций (резкости там, завершения разговора, передачи отрицательного настроения, например: "Ясно.")

В-четвертых, а какой порог-то? Если бахнуть порог 90%, то все ваши фразы нейтральны и все ок :)

НЛО прилетело и опубликовало эту надпись здесь

Чувствую себя каким-то адвокатом дьявола, ну # же типичный пример символа замены как и @: f#ck

Ну и в моем мире <любая фраза>!!!!! такое себе, и чем больше восклицательных знаков тем страшнее

Нужно понимать, что сервис учился на размеченных людьми данных, а люди уже давно в подобных задачах работают хуже людей. Вот смотрите, как бы вы отранжировали фразы по токсичности с одной, двумя и тремя точками? И главное почему так? Или ваша позиция в том, что это задача принципиально нерешаема?
P.S. разницу в 5-10% я бы не считал значимой когда мы в середине интервала

Я не совсем понимаю ваших претензий, как по мне работает ожидаемо и нормально, очевидно, что любое изменение фразы меняет ее токсичность (если нет, то могу объяснить), и мы видим что для сравнительно нейтральной фразы (с явным закосом под сложный тест) оценки действительно не высокие, он же не дает 99% ответ, правда? 50-60 это возможно не так уж и много, мы не знаем распределения, вдруг там вообще нормальное и 50 - максимально нейтральная фраза?

НЛО прилетело и опубликовало эту надпись здесь

По поводу шить, я не про значение шить а про "твоя мать <что угодно>" в контексте может быть эвфемизмом, на этот он и агрится, просто "твоя мать <что угодно>" вероятнее что-то плохое чем "наша мать <что угодно>" для сервиса и для меня тоже.

По поводу странно - вы тестируете явно граничный случаи, а работает оно на обычных :) Ну и еще раз акцентирую, что 50-60% это много - вы сами себе придумали, мы не знаем какие пороги в том же reddite (как минимум я не знаю).

По поводу токенизации - ваши представления об NLP устарели, токенизация - вынужденное зло и если можно было бы делать без нее - делали бы сразу, сейчас в топ решениях ее в явном виде нет. Точнее она есть, но токен != слово (мне показалось вы это имеете ввиду) точка - тоже токен, а слово не всегда целиком является токеном, а иногда токен это несколько слов.

Для нейросети достоверность должна быть больше 90-95% чтобы считать сообщение токсичным (как и с любой другой классификацией). Всё что меньше — белый шум. На русском языке оно плохо обучено, но в любом случае упоминание «твоя мать {действие}» в любом контексте в комментариях под публичными новостями — явно грубо.

у "нейросети" в общем случае нет процентов, будем честным, часто полученные выходы преобразуют некой функцией, чтобы результаты стали более понятны для человека, в этом случае, видимо, немного неудачно сделали :)

Обычно результат классификатора лежит в диапазоне значений вектора 0..1. Если ниже, чем 0.9, то в большинстве случаев это значит, что нейросеть не может уверенно классифицировать вход.

В этой паре предложений столько предположений, которые мы не можем узнать и проверить :) Да и такого "обычно" нет, "обычно" - 0.5, а вот в моей сетке сейчас 0.72, все не так однозначно.

Для нейросети достоверность должна быть больше 90-95%
В зависимости ошибка какого рода более дорогая. Если это сайтик элитной сети школ с модерацией комментариев, то лучше сотни ложных срабатываний с оповещениями модератору, чем одно пропущенное сообщение.

Интересно, как эта хрень отреагирует на "Твой брат - прокурор, шьет" и "Твоему брату шьют".

С появлением интернета у человечества впервые в истории появилась возможность массово спускать пар виртуально, без рукоприкладства и последствий.
Казалось бы, живи и радуйся.
Но нет, это токсично и недопустимо, надо цензурировать и делать вид, что мы все добрые и пушистые.
А в том, что очередной подросток возьмет ружжо и спустит пар в ближайшей школе, конечно же, будут виноваты видеоигры.
Основная направленность Percpective — избегать токсичности в публичных комментариях, в которых неуместны переходы на личности. А этот API всего лишь инструмент для движков форумов, на замену примитивному антимату.
избегать токсичности в публичных комментариях, в которых неуместны переходы на личности


Если интересуют только нетоксичные комментарии — не проще ли живых людей до комментирования не допускать, нагенерировать нужных комментариев нейросетью специально обученными писателями?

У системы никаких "интересов", её цель дрессировка, именно дрессировка живых людей.

… массово спускать пар без последствий

ну, не совсем без последствий. кибербуллинг до добра не доводит. кто-то может заявить «так это за дело», но это самосуд. виновных должны наказывать те, у кого есть на это полномочия (и после следствия, а не по прихоти любого обратившегося), а не все подряд. иначе так можно* затравить любого, даже невиновного.
* — пока ещё «есть возможность», а не «разрешено».

Я больше поверю, что привычка безнаказанно материться и оскорблять людей, сформированная в интернете, быстрее приведёт к привычке повторять этот опыт на постоянной основе, ибо уже станет для индивида нормой, чем фингал под глазом в дочатовские времена после первой неудачной попытки сострить о матери собеседника.

Если надо спустить пар - иди в зал. А если очень хочется кого-то унизить, то пожалуйста, но будь готов к ответственности.

Ну тут спорно, кстати. Есть инфа, что если прибегать к какой-то деятельности то она закрепляется через обыкновенное научение. Например, если человек через крик и оскорбления "выпускает" гнев, то он движется к тому чтобы чаще применять эту практику.

Мне эта тенденция (ограничивать высказывания людей) робо-цензурой напоминает лечение диареи путём затыкания ануса пробкой. А стоит учить людей справляться с обидой (подавляющее большинство людей не осознаёт, что эмоция обиды это продукт их собственного неуправляемого поведения и требований, но это отдельная тема для разговора). И еще хорошей "прививкой" против словесного насилия является восппитание. Но кого это волнует, проще озлобленных и обиженных загонять под гнёт лицемерной толерастии которая является лишь имитацией настоящей терпимости.

Мне кажется, в каком-то разговоре с Джорданом "Лобстером" Питерсоном проскальзывало такое обобщение, что юмор -- это исходно консервативная вещь, так как юмор почти всегда основан на недосказанности, на каких-то общеизвестных вещах, которые, тем не менее, редко вербализуются. А социальные активисты, наоборот, постоянно объясняют что-то: 150 лет назад они объясняли, что такое пролетариат и эксплуатация, сейчас они объясняют, что такое апроприация и менсплейнинг. Объяснения -- это что-то противоположное юмору. Поэтому социальный активизм не бывает смешным.

Так вот, я думаю, может быть так, что социальные активисты, захватившие сегодня сферу IT, чувствуют идеологическую враждебность юмора, поэтому так серьёзно настроены бороться с ним.

Другое объяснение подобным эксцессам, которое приходит мне в голову: в IT работает очень много людей, которые воспринимают юмор иначе, чем большинство, просто в силу диагноза (диссоциальники, аутисты и т. д.). Они или не понимают, за какую безнадёжную задачу берутся, или, наоборот, формализация юмора для них является очень интересной задачей, профессиональным вызовом. В любом случае, антисоциальности своей работы они не осознают.

Извините, первое объяснение хорошее, и второе тоже, но не согласен, что в этом есть что-то антисоциальное.

То есть я хорошо понимаю людей, которым, как вы сказали, интересна задача.

Проблема не в том, что кто-то разрабатывает системы фильтрации и оценки, и неважно, по какому признаку, проблема в том, что есть одна сторона/группа, принимающая решения, кому говорить, а кому молчать.

Если бы медиум для коммуникации с этой точки зрения был как Usenet, с индивидуальной системой фильтрации и оценки для каждого (как киллфайлы там), то проблемой это бы не было, даже наоборот - позволило бы такой системе существовать в современном интернете с огромным количеством злонамеренных людей и ботов.

То есть убивает не оружие, убивает человек. Если я правильно понял ваш аргумент.

Но такие технологии, как описаны в этой статье -- это, похоже, такое особое оружие, которое даёт преимущество только одной стороне конфликта. Даже под открытыми лицензиями. По крайней мере, нам сейчас понятно, как всё это можно использовать в целях цензуры или слежки, а вот на благо отдельного человека -- нет, непонятно.

Да, но еще смотрите последний абзац. Хотя, к сожалению, пока такого p2p-реддита вроде бы еще нет.

Я бы скорее сравнил это с ядерным оружием, которое с точки зрения некоторых сдерживает количество и масштаб войн на планете.

То есть если все централизованные платформы будут захвачены цензурой, то люди со временем поймут, для чего нужна децентрализация.

рекомендует пользователю покончить с собой. Токсичности нет

Это грубости нет, а токсичность как раз в полный рост.

Понапридумывали новых «терминов», а их определения забыли сформулировать.

НЛО прилетело и опубликовало эту надпись здесь

Жуть какая. Ужасом и безнадежностью веет от таких статей.

Так конечно, так как решение очевидно проблемы лежит в развитии культуры у людей. Психологическе здоровье этих самых комментаторов первоочередная цель. Понимание, что например оскорбление или токсичность это как ходить измазанными в дерьме или даже преступление (ударить кого-то это хулиганство, а вот гадость вполне нормально - хотя были в государственных законах какие-то подвижки в этом направлении). Сегодня в городах люди вроде прилично одеты, а среди молодежи полно модников, что им можно позавидовать. Странно, что в области коммуникации нет подобной культуры (только фантики и обертки)? А направление нейронных сетей это как фотошопить грязную одежду или скрывать ее за цензурой (черными квадратами) или не обращать на это внимание. Я ожидал от Facebook немного большего в конце концов там Марк он же учился в Гарварде и раз уж он позиционировал себя как меняющего формат общения, то можно было бы не останавливаться и продолжать движение.

Странно, что в области коммуникации нет подобной культуры


Ничего странного на самом деле. Культура в общении IRL складывалась исторически в течение тысячелетий. И за несоблюдение культурных традиций можно ощутимо пострадать. А в общении в интернетах сложившихся традиций нет, сдерживающих факторов как в IRL тоже нет.

С историей конечно полным полно было воин и доказательств, что культура важна и ее нужно уважать, но я думаю, что память у людей короткая. Одно поколение и все уже опять с нуля чистенькие и поносят в разные стороны. Думаю, что культуру нужно прививать на уровне школы или вторая мысль, что наверное общение в интернете слишком доступное. Скажем если бы каждый окмментарий стоил бы денег, то наверное люди сто раз подумали что писать и кому писать. А если бы ввести ответственность например за оскорбление, то и вовсе комментарии будут крайне аккуратными. Я думаю, что вопрос постепенно назреет и станет рассматриваться как часть законодательства.

Скажем если бы каждый окмментарий стоил бы денег

Если бы каждое слово стоило денег.. Хотя слово серебро, а молчание золото, например. Предки понимали толк а самоцензуре

А если бы ввести ответственность например за оскорбление

А как у нас по поводу ответственности за оскорбление IRL? За оскорбление некоторых можно получить по лицу, за других - по закону, а в основном нет никакой ответственности. И в интернетах так же.

А как у нас по поводу ответственности за оскорбление IRL? За оскорбление некоторых можно получить по лицу, за других - по закону, а в основном нет никакой ответственности. И в интернетах так же.

Так в IRL тяжело заловить оскорбителя, так как нужно зафиксировать, а фиксировать нельзя, так как шпионская техника запрещена и выходит, что нужны свидетели, а свидетели тоже могут врать и т.д. А с Интернетами сам факт сообщения уже можно расценивать как сообщение и тут даже нейронные сети писать не нужно - ситуация на лицо. Другое дело, что люди сами должны дойти до этого ... Можно рассмотреть и противоположное движение людей, которые оскорбляют. Взять и спросить, а какую цель преследуют и скорее всего тут ответ будет один это агрессия направленная в себя из-за неудовлетворенности в каких-то собственных потребностях. От ущемленного эго и заканчивая обидой за то что наступили в транспорте за ногу.

А с Интернетами сам факт сообщения уже можно расценивать как сообщение

Нельзя. Без нотариально заверенной цифровой подписи под каждым байтом невозможно доказать, что сообщение действительно отправлено Васей Пушкиным.

Без нотариально заверенной цифровой подписи

Просто большая часть сервисов по прежнему работают в серой зоне (не производят достаточную проверку подлинности), а так многие сервисы вводят авторизацию по телефонному номеру и работают по защищенным каналам. Вопрос прнятия государством просто этого факта и я думаю, что рано или поздно мы получим такие системы. Вот уже ВКонтакте не позволяет без привязки к номеру телефона зайти и многие дургие сервисы. Так что нотариальные заверения цифровой подписью остались в прошлом, а настоящее уже на подходе. Думаю, что скоро популяризируют работу под персональными сертификатами (не знаю как точно их называют, но помню была клиентская авторизация в WebMoney ещё в 2000-е так организована).

Тогда в серую зону уйдет управление сертификатами. Помните ту историю, когда продали квартиру с помощью цифровой подписи, полученной в немного подзрительном удостоверяющем центре? Насколько я помню, виноватых не было.

Согласен. Сейчас мы видим начальный этап развития. Погодите еще вчера выход в Интернет происходил по модему через телефон. Я думаю, что нужно просто какое-то время.

Мне кажется, проблема рассматривается только с одной стороны: до активного развития этих ваших интернетов всяческие обиженки сидели дома и на "токсичность" (дома, на работе, etc...) "оскорблялись" молча. Сейчас же соцсети предоставляют отличную возможность обижаться публично, для чего много ума не требуется. Чем вышеуказанные персоны, собственно, и пользуются.

Чтобы осознать масштаб изменений, пересмотрите, например, Хауса (который снимался не очень-то и давно): там в каждой серии присутствуют примерно годовой бюджет расистских и сексистских шуток, который может позволить себе все медиа сегодня. А сейчас Гай Ричи выглядит ооочень смелым со своим джентельменским "ну, ты черный и ты урод".

Ну, алгоритмы ФБ - притча во языцех. Можно схватить бан на месяц за использование слова "укроп" в рецепте окошки.

Что же касается токсичности и уровня озлобленности - для меня было ценным опытом сравнения комментариев в русскоязычном и англоязычном разделах ютюба.

Меня за «расстреляли меня, внучок» забанили.

Все эти попытки цензурить злые комментарии в интернете являются лишь борьбой со следствиями проблемы, а не с её причинами. Какие люди, такой интернет. Когда сами изменимся, только тогда интернет станет более приятным и добрыми местом.

У комментов есть эффект положительной обратной связи. Люди имеют тенденцию подхватывать настрой и потом отвечать в том же духе, нередко повышая градус накала страстей. Поскольку они это повторяют из дня в день здесь есть и воспитательный момент. И тогда становится справедливым обратное: какой интернет, такие и люди. На моей памяти цензура в пабликах была всегда, начиная со времен анархо-фидонета.

Токсичность, агрессия - топливо для дискуссии. Сделайте полемику доброй и она заглохнет.

Кстати хорошее замечание. Этим заметно выделяются полемики в рунете. Может поэтому весь остальной мир считает нас немного дикарями?

В 99,99% под дискуссией понимается срачь. Многим нравится, никого насильно дискутировать не заставляют. Есть даже телевизионные ток шоу в подобных форматах.

И попробуй докажи, что это у вас с получателем такая внутренняя шутка.

Не смешно. Работал я в пейджинговой компании. Так вот — претензии получатель отправлял не тому, кто надиктовал, а к пейджинговой компании. ПРиходили с юристами, и да — им возмещали моральный ущерб. Так что ограничения — не шутки операторов

в Сколково ставят в один ряд разговоры о политике и о самоубийствах, понятно.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий