25 января 2023 в сети появились исходные коды и сопутствующие им данные множества сервисов и программ компании Яндекс. Раздача содержит отдельные архивы (.tar.bz2), по названиям которых можно идентифицировать соответствующие сервисы Яндекса.
Общий объём архивов (в сжатом виде) составляет более 44.7 ГБ.
26 января 2023 Яндекс подтвердил Хабру публикацию исходных кодов части проектов из внутреннего репозитория.
30 января 2023 Яндекс раскрыл первые результаты расследования (см. ниже).
Ранее, в 2022 году, в свободном доступе были выложены архивы сервиса «Яндекс.Еда» с данными заказов клиентов.
Краткая статистика
ТОП-5 самых больших архивов
Название архива | Размер |
---|---|
frontend | 18.26 ГБ |
classfields | 4.67 ГБ |
market | 4.00 ГБ |
taxi | 3.30 ГБ |
portal | 2.35 ГБ |
ТОП-35 забавных названий
Огласите весь список!
Сначала был ТОП-5 забавных названий папок и модулей. По мере изучения исходников, возник уже ТОП-10, потом ТОП-20 и ТОП-30, но… в какой-то момент остроумие авторов несколько утомило и я перестал фиксировать названия, которые уже не казались такими забавными.
nirvana
samogon
testopithecus
scrooge (Скрудж, разумеется, часть payplatform)
emily (видимо, конкурентка alice)
dolbilka
matrixnet
spaniel
collie
begemot
beholder
catmachine
tractor
cocaine
tikaite
libblackbox2
mystery-mailer
ciao
morty
plutonium
jurassic
shiftinator
perforator
woland
iconostasis
priemka
pumpkin
zephyr
panther
bert
hamster
whitespirit / darkspirit
oops
razladki_suggest
Языки программирования и описания данных
Python
C++
Go
TypeScript
Protocol Buffers
Yaml, JSON etc
Список папок
Общее количество папок: 83
Полный список папок
aapi
admins
ads
alice
analytics
antiadblock
antirobot
autocheck
balancer
billing
bindings
captcha
cdn
certs
ci
classifieds
client_analytics
client_method
cloud
commerce
config
connect
crm
crypta
customer_service
datacloud
delivery
direct
disk
docs
drive
extsearch
frontend
fuzzing
gencfg
groups
helpdesk
infra
intranet
investors
it-office
jupytercloud
kernel
library
load
mail
maps
maps_2
maps_adv
market
metrika
mobile-WARNING-notfull
nginx
noc
partner
passport
pay
payplatform
paysys
portal
privacy_office
products
robot
rt-research
saas
sandbox
search
security
skynet
smart_devices
smarttv
solomon
stocks
switch
tasklet
taxi
tools
travel
wmconsole
yandex360
yandex_io
yaphone
yawe
Странные особенности
Даты файлов
Единая дата всех файлов и папок во всех архивах
Дата всех файлов: 2022-02-24
Версии Python
Относительное большое количество вспомогательного кода на Python 2.7
Реакция Яндекса
30 января 2023 Яндекс раскрыл первые результаты расследования:
Опубликованные фрагменты действительно взяты из нашего внутреннего репозитория — инструмента, с помощью которого разработчики компании работают с кодом. При этом содержимое архива соответствует устаревшей версии репозитория — она отличается от актуальной версии, которая используется нашими сервисами.
Первичный анализ показал, что опубликованные фрагменты не несут какой-либо угрозы для безопасности наших пользователей или работоспособности сервисов. В то же время мы решили, что сложившаяся ситуация — повод провести масштабный аудит всего содержимого репозитория.
Яндекс дополнительно приводит примеры серьезного нарушения внутренних политик компании, в том числе:
В коде содержались контактные данные некоторых партнёров. Например, водителей — в некоторых случаях их контакты и номера водительских удостоверений передавались из одного таксопарка в другой.
Зафиксированы случаи, когда логику работы сервисов корректировали не алгоритмическим способом, а «костылями» (прим.: буквальная цитата Яндекса). Через такие «костыли» исправляли отдельные ошибки системы рекомендаций, которая отвечает за дополнительные элементы поисковой выдачи, и регулировали настройки поиска по картинкам и видео.
В сервисе Яндекс Лавка существовала возможность ручной настройки рекомендаций любых товаров без пометки об их рекламном характере.
Наличие приоритетной поддержки для отдельных групп пользователей в сервисах Такси и Еда.
Некоторые части кода содержали слова, которые никак не влияли на работу сервисов, но были сами по себе оскорбительны для людей разных рас и национальностей.
Для улучшения качества активации ассистента и уменьшения количества ложных срабатываний в бета-версии для сотрудников применяется настройка, которая включает микрофон устройства на несколько секунд в случайный момент без упоминания Алисы (утверждается, что такой функционал возможен только в тестовом режиме).
Итог
По состоянию на 30 января 2023:
Яндекс заверил, что данные пользователей не пострадали.
Яндекс принёс извинения пользователям и партнёрам.
Яндекс привёл свои объяснения причин возникшей ситуации.
Яндекс поделился планами по дальнейшим действиям.
Яндекс не привёл оценки рисков, которые могут последовать за столь обширной утечкой исходных кодов такого большого количества сервисов компании.