Коты против токсичности. Как ленты соцсетей искажают наше восприятие реальности и какие алгоритмы могут их исправить / Хабр

В обществе бытует мнение, что ленты, заточенные под вовлеченность, разгоняют различного рода вражду среди пользователей и искажают общую картину, показывая определенные сообщества и события не такими, какие они есть, а такими, на что лучше реагируют.

Однако конкретных доказательств этому не было, так как алгоритмы крупных платформ закрыты, переписать ранжирование ленты и сравнить варианты на пользователях со стороны нельзя.

Была, правда, одна экспериментальная попытка с Meta* на выборах США в 2020-м. Тогда выявили, что алгоритмическая лента усиливает «нецивильный» контент примерно на 40%. Вот только авторы работы не зафиксировали изменения в установках и не смогли ответить на главный вопрос: через какой психологический механизм лента влияет на пользователей и можно ли это исправить, не сломав их интерес к самой соцсети?

Этот пробел закрыла группа исследователей под руководством Уильяма Брэди (ассистент-профессор управления и организаций в Kellogg School of Management), которая весной этого года опубликовала результаты своей работы в научном журнале Nature.

Как им это удалось и что из этого вышло, расскажу в этой статье.

Мои алгоритмы — мои правила

Свою работу исследователи начали с того, что взяли для сравнения три варианта ленты:

Обратно-хронологическая — когда самые свежие посты располагаются сверху, без всякого умного отбора.
На основе вовлеченности — воспроизводит ключевые свойства персонализированных лент крупных платформ. Показывает в первую очередь то, на что вы (и другие пользователи) скорее отреагируете.
«Диверсифицированная экстремальность» — авторская надстройка исследователей. По сути, это та же лента вовлеченности, но с тремя поправками: реже показывать тех, кто выкладывает посты пачками; реже показывать откровенно токсичное; чаще показывать спокойные содержательные посты.

Под токсичностью здесь понимается не резкость мнения, а оскорбительная форма — грубые, неуважительные комментарии, после которых хочется уйти из обсуждения.

Все эти варианты развернули на платформе Bluesky — открытой децентрализованной соцсети на протоколе AT. Причин на это было две:

Весь код соцсети лежит на GitHub, а публичные посты и действия пользователей доступны в реальном времени через firehose (поток всех событий платформы — посты, лайки, репосты, комментарии).
Bluesky построена вокруг «алгоритмического выбора», где любой разработчик может выкатить свою ленту, а пользователь — на нее подписаться.

К тому же на момент эксперимента у Bluesky было больше 6 млн активных пользователей.

График количества пользователей соцсети Bluesky в 2022—2024 годах

Это дало команде полный контроль над алгоритмом, а также возможность провести первый полностью независимый от индустрии полевой эксперимент, чего не было ни у кого до них. Получился идеальный полигон для контролируемого A/B/C-теста на живом трафике — то есть сравнения сразу трех лент (контрольной, вовлеченности и «диверсифицированной»), а не двух, как в классическом A/B-тестировании.

Дальше начался сам эксперимент.

Тему для этого взяли заряженную — отношение к политическим оппонентам во время выборов в США 2024 года. Посчитали, что так проще поймать эффект. Но самое ценное в выводах было не про политику, а про то, как любая лента, заточенная под вовлеченность, незаметно искажает картину сообщества у пользователя, и что с этим можно сделать инженерно.

С помощью автоматической обработки потока контента было проанализировано около 20 млн постов. Из этого потока формировался базовый пул контента, из которого каждая из трех лент отбирала, что показать пользователю.

Для исследования отобрали 2000 активных пользователей в Bluesky — все граждане США, относящие себя к демократам или республиканцам. На 8 недель (с 30 сентября по 25 ноября 2024-го, до и после выборов) их случайно распределили между тремя лентами, а потом измерили, что произошло с их восприятием.

Каждая группа жила в своей ленте как в основной. Параллельно участников еженедельно опрашивали о том, каким им видится сообщество, и фиксировали их собственное поведение — что они постят, лайкают, репостят.

Все это нужно было, чтобы проверить основную гипотезу.

Гипотеза

Обычно вред ленты представляют так: если она показала человеку много раздражающего контента, то он стал агрессивнее себя вести. Эмпирика этого упорно не подтверждала, а показывала, что при усилении контента поведение не меняется.

Брэди с соавторами предложили другой механизм — «алгоритм-опосредованное социальное обучение». Суть его в том, что лента влияет на пользователя не тем, что что-то показала, а тем, как этот показ обновляет его представление о норме сообщества — что здесь типично и что считается уместным.

Мы калибруем свое представление о среде по тому, что видим в ленте, а видим мы не случайную выборку, а то, что прошло отбор по вовлеченности.

Тут важно различать два типа норм: дескриптивная — что люди делают (сколько вокруг токсичных постов); прескриптивная — что считается уместным (насколько вообще нормально такое публиковать).

Сама же гипотеза заключалась в следующем.

Лента вовлеченности системно поднимает контент, который сильнее цепляет внимание — острый, эмоциональный, конфронтационный (в исследовании это классифицировали как «межгрупповой, морализированный, эмоциональный», сокращенно IME — intergroup, moralized, emotional). При таком раскладе у пользователя смещается оценка нормы, ему кажется, что вокруг больше конфликта и накала, чем есть в реальном распределении постов, а искаженная норма уже тянет за собой враждебность.

Если это так, то правильная цель оптимизации не «контакт» и не «разнообразие ради разнообразия», а репрезентативность: насколько честно лента отражает, как ведет себя типичный участник события, а не самый громкий.

Как это измеряли и почему классификаторам можно верить

Вот основные понятия, на которых держится все исследование.

Токсичность и конструктивность

Их измеряли через Google Perspective API — индустриальный стандарт модерации. Токсичность там определяется как грубый или неуважительный комментарий, из-за которого человек скорее уйдет из дискуссии. Конструктивность — высказывание с конкретными аргументами, без провокации.

Исследование, кстати, показало, что эти два свойства почти никогда не сочетаются в одном посте, так что редкие пограничные случаи решали просто: сначала отсекали токсичность, потом проверяли конструктивность.

Суперпостеры

Авторы, публикующие больше 5 постов за 24 часа (это примерно верхний 1% по дневной активности). Если порог превышен, посты такого автора реже поднимались в верх ленты, а каждый день счетчик обнулялся. Сам человек при этом публиковал сколько угодно — менялась только видимость его постов в выдаче, а не право их писать.

Смысл в этом был не задавить тех, кто много пишет в принципе, а не дать крошечной группе доминировать в выдаче здесь и сейчас, так как основную массу «громкого» контента генерирует малый процент пользователей.

Категория контента

То, что в исследовании было «политическим», определялось через Llama 3, развернутую локально. Пост сначала помечался как относящийся к спорной социально значимой теме или нет.

По сути, это обычный тематический классификатор-гейт: вмешательство применяется не ко всей ленте, а только к «горячей» категории, где эффект искажения максимален. На месте этой категории в другом продукте может стоять что угодно — спорные обзоры, холивары вокруг технологий, конфликтные ниши сообществ.

IME-контент

Здесь команда не стала брать готовые словари, а собрала свой. Дообучили модели семейства BERT (лучшими вышли distilbert-base-uncased и roberta-base), прогнали через них большой корпус и получили словарь на 72 287 слов, где у каждого есть вероятность принадлежности к межгрупповому, моральному и эмоциональному измерению.

F1 на тесте — порядка 0,81–0,83. Показательно, что на внешней проверке согласие «модель против людей» (r = 0,67) оказалось чуть выше средней согласованности между самими людьми-разметчиками (r = 0,66), то есть классификатор работает на уровне среднего человека.

Скриншот главного экрана соцсети Bluesky (веб-версия)

Формула ранжирования

Скоринг для «диверсифицированной экстремальности» — нарочито простой линейный взвешенный сумматор поверх вероятности вовлеченности:

Score = α·P(toxic) + β·P(constructive) + γ·(is_superposter)

Базово максимизируется вероятность взаимодействия, но посты из «горячей» категории штрафуются за токсичность и авторство суперпостера и поднимаются за конструктивность; при равенстве скоров выше идет более свежий.

Никакого нейросетевого монстра в самом ранжировании — вся «умность» вынесена в классификаторы признаков, а решение принимает прозрачная формула с понятными весами. Для продуктовой команды это важный сигнал, потому как такое ранжирование можно объяснить, протестировать и аудировать.

Работа вышла в формате зарегистрированного отчета: гипотезы, дизайн и план анализа отрецензировали и приняли до сбора данных. То есть авторы физически не могли подогнать вопросы под понравившийся результат. Для области, которую регулярно бьют за p-hacking, это сильный козырь.

На выходе мерили три группы метрик: сколько IME-контента реально попадало в ленту (объективно, по логам), как пользователь оценивал норму и среду (еженедельные опросы), и как менялось его собственное поведение — публикации, лайки, репосты. Плюс отдельно измеряли удовольствие от платформы.

И вот что из этого вышло.

Что показала лента вовлеченности

По сравнению с хронологической она системно усиливала IME и токсичный контент. Сильнее всего росли самые «горячие» категории — моральное возмущение и политика: примерно +37% до выборов и почти +80% после, относительно хронологической базы.

Чтобы это точнее понять, представьте бар, где усилитель автоматически делает громче только те разговоры, на которые оборачиваются соседи. Через час вам будет казаться, что весь бар — это сплошные скандалы и крик, хотя большинство за столиками спокойно болтает. Но здесь вы видите не срез сообщества, а его самую шумную верхушку.

При этом нужно понимать, что эту шумную верхушку создавала совсем небольшая горстка сверхактивных аккаунтов.

Точно так же, по другим исследованиям, обстоит дело и в иных соцсетях (например, в Twitter (X), по данным Pew Research Center от 2021 года), где основную массу перегретого контента пишет крошечный процент пользователей. Их-то лента и поднимает чаще всего — а мы по ним достраиваем мнение обо «всех».

Результаты исследований Pew Research Center от 2021 года

Был и неожиданный результат, который авторы эксперимента сами не ожидали получить. Им казалось, что в токсичной ленте человек примет хамство за норму, раз все вокруг так делают. Но вышло иначе. Люди стали хуже понимать, насколько окружающим на самом деле не нравится грубость.

То есть лента создает иллюзию, будто резкость более приемлема, чем она есть. А когда вам кажется, что «так принято», вы и сами чуть охотнее промолчите там, где стоило бы возразить хаму, так как думаете, что вы в меньшинстве. Хотя на самом деле спокойное большинство просто не попало к вам в ленту.

Но несмотря на сдвиги в восприятии, собственные действия пользователей — что они постили, лайкали, репостили — значимо не изменились. Это, пожалуй, главный нюанс. Лента деформирует не столько то, что человек делает, сколько его картину среды.

Интуитивная установка «лента провоцирует пользователя на действия» не подтвердилась. Подтвердилась другая: ранжирование под вовлеченность надежно искажает информационную среду, по которой пользователь делает выводы о сообществе. А неверная модель среды — это, вероятно, и неоправданные ожидания, и испорченная атмосфера, и, в перспективе, риск оттока (это уже наше следствие, а не прямой результат самой работы).

Что показала авторская лента

«Диверсифицированная экстремальность», где приглушили суперпостеров и токсичность, а ~~фотки котов~~ спокойные содержательные посты, наоборот, подняли, дала сразу два эффекта.

Во-первых, восприятие нормы у людей стало точнее, а контакт с токсичным и морально-возмущенным контентом — заметно меньше, чем в ленте вовлеченности. Во-вторых, — и это ломает главный миф — пользователям такая лента понравилась не меньше, а местами даже больше, чем обычная.

Идея «уберите весь скандал, и станет скучно, все разбегутся» на практике не подтвердилась.

В тестах перенастроенная лента возвращала долю токсичного контента примерно к естественному уровню платформы (вместо того чтобы раздувать ее, как делает обычная лента) и при этом добавляла спокойные, содержательные посты. Грубо говоря, лента переставала быть кривым зеркалом и начинала показывать сообщество или событие более-менее таким, какое оно есть.

Сам принцип команда проверила еще до основного эксперимента — на симулированных лентах из реального потока постов.

*Пилотная симуляция топ-250 постов — это проверка принципа до запуска*

Здесь видно главное — лента вовлеченности утаскивает распределение в сторону большей токсичности и меньшей конструктивности, чем есть на платформе в реальности. А «диверсифицированная экстремальность» возвращает ленту примерно к истинному базовому уровню — и даже добавляет конструктивности.

Это и есть «социальная репрезентативность», когда лента перестает быть кривым зеркалом.

Почему это не цензура

Тут легко заподозрить подмену, когда «снижение токсичности» на практике часто означает «вырезали неудобные мнения». Авторы это предвидели и заложили защиту в дизайн.

Фильтр убирает токсичную форму, а не сильные мнения. В пилоте отдельно показано, что после фильтрации в ленте остаются жесткие моральные позиции, просто без личных нападок и оскорблений. Грубо говоря, «вы глубоко неправы, и вот почему» проходит, а переход на личности и оскорбления — нет.

Не менее полезно понять, чем это отличается от двух привычных приемов диверсификации ленты.

«Подмешать противоположное». Самый интуитивный ход — добавить в выдачу контент с другой стороны спектра. Проблема в том, что это нередко дает обратный эффект: большую часть контента в любой нише производят самые радикальные участники, и подмешивая «оппонента», алгоритм чаще всего подсовывает его в максимально крайней версии, что вызывает рост раздражения.

«Мостиковые» алгоритмы (bridging). Поднимать то, что одобряют все стороны (логика вроде Community Notes). Звучит мирно, но, продвигая согласие, такой подход не особо представляет реальные разногласия и стерилизует ленту. А еще работает только там, где контента разных сторон и так в избытке.

«Диверсифицированная экстремальность» работает совсем иначе, она не тащит «противоположное» насильно и не вылизывает выдачу до искусственного консенсуса. Она просто срезает влияние длинного хвоста самых активных и самых токсичных, чтобы лента отражала типичного участника, а не самого громкого. А еще этот прием можно перенести на платформу с любым составом аудитории — в отличие от bridging, которому нужен готовый баланс сторон.

Где у исследования слабые места

Как и в любой работе подобного рода, в этой также необходимо учитывать индивидуальные моменты. Можно выделить четыре основных.

Специфическая аудитория. Состав пользователей платформы был смещенным, поэтому перенос на сервис с другим профилем аудитории — отдельная гипотеза, которую надо проверять своим тестированием.

Короткое окно в восемь недель. Устойчивые привычки за такой срок обычно не сдвигаются, так что отсутствие изменений в поведении не значит, что их не было бы на длинной дистанции.

Самоотчеты и один язык. Норму и удовольствие мерили опросами со всеми их искажениями, а неанглоязычный контент из анализа исключали.

Узкая категория вмешательства. Перевзвешивание применяли только к «горячей» теме. На другом контенте это надо настраивать и валидировать заново — гейт-классификатор тут такой же критичный компонент, как и скоринг.

Реквием по маркетингу?

Хотя само исследование больше про политическую дискуссию, а не про рекламу, и прямых выводов о нем не делает, его механика бьет по фундаменту, на котором стоит хайповый (провокационный и эмоциональный) маркетинг.

Главный практический вывод работы в том, что ленту можно перенастроить так, чтобы она понижала токсичное и перегретое, не теряя вовлеченности в целом. Если платформы двинутся в эту сторону, «бесплатное усиление за счет скандала» начнет схлопываться. Тактика, которая паразитировала на том, что движок вознаграждает накал, перестанет давать дешевый охват.

Наиболее неудобный для хайпа результат в исследовании — что лента вовлеченности сильно сдвигала восприятие людей, но почти не меняла их собственные действия. В переводе на язык маркетинга — ажиотаж, репосты и гневные комментарии под провокационной кампанией измеряют громкость, а не покупки.

Любопытно, что к тому же выводу приходят и с другой стороны — не от эмоций, а от объема рекламы. Если хайп переоценивает силу громкой реакции, то классическая медийка переоценивает силу количества показов: внимание человека не резиновое, и каждый следующий рекламный контакт «дешевеет» — растет рекламный клаттер и баннерная слепота.

Этот сюжет подробно разобран в статье «Рекламный клаттер и инфляция внимания». Обе оптики дают один урок: в перегруженной среде ценность создает не громкость и не количество касаний, а уместность, дозированность и доверие.

Что в итоге дает исследование

Самое практичное в этой работе — что она попадает в открытый регуляторный спор. Статья 38 Закона ЕС о цифровых услугах (DSA) уже обязывает очень крупные платформы давать хотя бы один вариант рекомендательной ленты без профилирования.

При этом DSA не выносит хронологической ленте оценку «хорошо/плохо» — он делает ее обязательной доступной опцией. Для пользователя это плюс (право выбора и выхода из профилирования), для платформ — скорее минус (коммерчески невыгодно).

Но «предоставить вариант» и «сделать его реально работающим» — разные вещи.

2 октября 2025-го окружной суд Амстердама постановил, что Meta* нарушает DSA в отношении нидерландских пользователей: формально нехронологическая лента есть, но выбор сделан «иллюзорным» — система сбрасывала пользователя обратно на алгоритмическую ленту при закрытии приложения или переходе между разделами.

Но далее спор сместился с «нужны ли альтернативные ленты» на «какими они должны быть». И тут исследование дает регуляторам и платформам недостающий аргумент: альтернатива хронологической ленте не обязана быть либо примитивной, либо токсичной.

Можно построить умное ранжирование, которое снижает искажения дискурса и при этом не ухудшает (а местами улучшает) пользовательский опыт. Для этого команда исследователей обещала открыть исходники алгоритмов и выкатить пользовательскую версию «диверсифицированной» ленты, на которую любой сможет подписаться в Bluesky.

Главный сдвиг, который предлагает эта работа, — мировоззренческий

Привычный фатализм «алгоритмы такие, потому что иначе пользователь уйдет» оказался непроверенной гипотезой, и проверка ее не подтвердила.

Лента вовлеченности усиливает конфликтный контент — больше всего моральное возмущение и политику — и портит восприятие норм и оппонентов. Но бьет она в первую очередь по картине реальности, а не по поведению.

Основным же источником проблемы является крошечная прослойка крайних пользователей, и точечное ограничение их влияния дает главный эффект. А компромисс между здоровьем дискуссии и вовлеченностью — всего лишь миф: простой, прозрачный и аудируемый алгоритм снижает токсичность, выправляет нормы и сохраняет удовольствие.

Получается, у платформ есть пространство для дизайна, где живой интерес и спокойный разговор не противоречат друг другу. И вопрос теперь не в том, можно ли это сделать, а в том, захотят ли?

* Meta, владеющая Facebook, признана в России экстремистской организацией и запрещена.

Коты против токсичности. Как ленты соцсетей искажают наше восприятие реальности и какие алгоритмы могут их исправить