Анализ кода алгоритма соцсети показал, что группа из 100 тыс. ботов способна нейтрализовать любого пользователя Twitter
GitHub
,
Эксперт по безопасности Стивен Тей и исследователь под ником Boriquagato выяснили из исходного кода рекомендательного алгоритма соцсети, что группировка из 100 тыс. ботов способна навсегда нейтрализовать (буквально заставить замолчать) любого пользователя Twitter. Владелец платформы Илон Маск отреагировал на эту ситуацию и предложил $1 млн тому, кто найдёт создателей таких ботнетов и предоставит доказательства их вины.
Разработчики выяснили, что в коде Twitter существуют циклы отрицательной обратной связи (negative feedback loops), которые значительно снижают показатели репутации пользователей платформы при определённых условиях. Например, злоумышленники могут блокировать пользователей Twitter, проведя определённые манипуляции в автоматическом режиме через сеть из 100 тыс. ботов.
Тактика действий в этом случае должна быть примерно такая: боты массово подписываются на целевой профиль пользователя и отписываются от него, потом отправляют жалобы на аккаунт и добавляют пользователя в чёрный список. Рекомендательный алгоритм платформы понимает, что профиль пользователя очень плохой. В этом случае Twitter начинает автоматически блокировать публикации некорректной, по мнению системы, учётной записи, а также прекращает показ твитов этого аккаунта остальным пользователям соцсети.
Эксперты считают, что в этом случае нужно запретить анализировать данные чёрных списков у обычных пользователей, а получать статистические данные для нейтрализации пользователя только от верифицированных аккаунтов с синей галочкой.
31 марта 2023 года Twitter опубликовала на GitHub часть своего исходного кода, включая код рекомендательного алгоритма. Компания выложила в открытый доступ два репозитория — main repo и ml repo.
Инструкция по работе с кодом рекомендательного алгоритма от инженеров Twitter. Там рассказывается о конвейере рекомендаций, который, как утверждается, выполняется примерно пять миллиардов раз в день.
«Мы пытаемся извлечь 1500 лучших твитов из пула сотен миллионов… Сегодня хронология ленты «Для вас» состоит в среднем из 50% (твитов от пользователей, на которых вы не подписаны) и 50% (твитов от пользователей, на которых вы подписаны). Хотя это может варьироваться от пользователя к пользователю», — уточнили в Twitter.
«Рейтинг твитов достигается с помощью нейронной сети с ~48 млн параметров, которая постоянно обучается взаимодействию с твитами, чтобы оптимизировать положительное взаимодействие, например, лайки, ретвиты и ответы», — рассказали инженеры соцсети.
Twitter попросила сообщество разработчиков изучить код алгоритма, создавать свои issue и pull request для улучшения и доработки этого проекта.
Разработчики пояснили, что текущий релиз алгоритма не включает в себя код, который приводит в действие рекомендации соцсети по рекламе. В открытых репозиториях также нет информации об обучающих данных для рекомендательного алгоритма.
Разработчик и специалист по управлению проектами Аакаш Гупта проанализировал код рекомендательного алгоритма Twitter, опубликованный в открытом доступе на GitHub.
Эксперт выяснил:
1. Лайки, ретвиты и реплаи дают неоднозначный буст (вероятность продвижения) к рейтингу публикации:
— каждый лайк х30 буст;
— каждый ретвит х20;
— каждый реплай х1.
2. Картинки и видео тоже дают буст х2.
3. Использование языка, как указано в профиле, помогает. Использование другого языка — нет. Если вы ориентируетесь на англоязычную аудиторию, то и язык профиля должен быть английским.
4. Ссылки вредят продвижению. Внешние ссылки помечаются как спам. То есть, если хотите что-то продвинуть, то лучше писать твит текстом, а в реплае к нему постить ссылку.
5. Каждый игнор, блокировка другим пользователем, анфоловинг, спам репорт и прочие жалобы снижают вероятность, что твит попадёт в рекомендации.
6. Покупная синяя галочка верификации значительно добавляет буст.
7. Любая дезинформация снижает буст. Классификация дезинформации (фейка) происходит отдельно на платформе.
8. Все профили группируются в «группы похожих». Вероятность, что конкретный твит будет показан вам гораздо больше, если твит написан кем-то из вашей «группы».
9. Публикации за пределами обычных тем пользователя вредят бусту. Если пользователь писал про IT, но потом начал публиковать твиты про свои блюда на кухне, то это уменьшает шанс буста.
10. Придумывать слова и писать с ошибками — плохо. Эти действия снижают вероятность продвижения твита.
11. Основные наборы данных для ранжирования в Twitter:
— вовлечённость (engagement) — лайки, ретвиты, реплаи;
— подписчики (Followers) — подписка/отписка, репорты;
— пользовательские данные (user data) — сколько фолловеров и граф подписчиков.
12. Релевантность твитов со временем снижается. В размере 50% каждые 6 часов, если быть точным.