denis-19 Jan 26 2023 at 16:12

Итоги первого дня после инцидента с публикацией исходных кодов сервисов «Яндекса»

4 min

56K

Git * IT-companiesPython * Information Security * Programming *

+51

108

Comments 108

AlexeyK77 Jan 26 2023 at 17:30

Какие тут могут быть претензии к безопасникам, политика компании вполне ясная:
"Политика эта полностью правильная, потому что позволяет быстрее, эффективнее и гибче разрабатывать код, а при воровстве кода все равно непонятно, что с ним делать."
Второй яндекс из этих исходников не сделаешь.

Так что пошумят и забудется вскоре.

Boggard Jan 26 2023 at 17:39

да ну, там много всего интересного. что еще в мемы перейдет. один разбор "какими словами выключают Алису" чего стоит

SADKO Jan 26 2023 at 18:01

Таки да, только Яндексу вообще, и Алисе в частности с того один гешефт!
Надо било делать вброс пред праздниками, куда смотрел PR отел? Азохен вей...

Wesha Jan 27 2023 at 00:19

Скорее, будет шанс узнать, что Алиса посылает тащу майору, и какому.

Sild Jan 27 2023 at 02:24

Как и любой другой крупный сервис, Алиса наверняка обвешана трассировками и логами по самые помидорки. Специальной функции reportVovke там не будет

А как используются эти логи и трассировки - вообще не технический вопрос

MAXH0 Jan 27 2023 at 07:19

Ну а вдруг там зашит как в Твиттер GodMode?

Ivan22 Jan 27 2023 at 10:43

приказ 66????

ganzmavag Jan 27 2023 at 08:33

Вот интересно насколько стоит опасаться появления какого-нибудь "какие слова говорят возле Алисы", учитывая этот разбор.

kukutz Jan 27 2023 at 08:44

Станция не записывает то, что говорят "возле" неё. На колонке работает локальное распознавание, заточенное исключительно на активационную фразу (их две, на выбор в настройках — «Алиса» и «Яндекс»).

Если активационная фраза распознана локально, то колонка включает светодиод, подаёт сигнал, что слушает и отправляет дальнейшую речь на сервер для распознавания — потому что модель распознавания на сервере на порядок качественнее. Локально сравнительно легко распознавать два слова, всю речь — требуются существенно другие ресурсы (CPU, GPU, Memory).

imater Jan 27 2023 at 09:12

вполне может оказаться, что есть белый список слов, по которому Алиса отправляет 1 код этого слова. Если возле станции скажешь слово "пылесос", а в это время у Яндекса контракт с пылесосной компанией, то пользователю будут показывать контекстную рекламу пылесоса. И утечку не увидишь, так как ушёл лишь код этого слова смешанный с обычными данными. Ну и отправка этого кода одноразовая, а не при каждом произнесении "пылесос" (с) мания преследования

Nalivai Jan 27 2023 at 10:15

Зачем им это делать, если свое пожелания пылесоса ты и так им расскажешь в явном виде, гугля в яндексах "пылесос купить без смс".

А "произнес слово пылесос однажды" такая себе информация для работодателя, ящетаю

UFO landed and left these words here

sa1ntik Jan 27 2023 at 11:20

А тут речь немного о другом, ты жене говоришь "Что-то пылесос у нас хреново сосет", а вечером тебе показывают рекламу магазина, где как раз на этой неделе акция и скидки на пылесосы, прекрасный момент чтобы купить новый.

Распознать слово "пылесос" несколько проще, чем распознать все слова фразы и её контекст. А без этого распознавания на все фразы типа "пропылесось, пожалуйста", "а ты поставил пылесос на зарядку?", "из пылесоса выкинул мусор?", "в пылесос воды налил?", "кот, не бойся, это пылесос", "опять не пропылесосили" и даже "опять этот тупой пылесос застрял" показывать рекламу покупки пылесоса - перебор.

Не говоря уже про то, что "пылесос" это целая куча жаргонизмов от "клиента-мозгодела" до автомобиля. Более того в некоторых семьях даже муж жене может говорить что она прямо как пылесос (по крайней мере в некоторых аспектах).

Как итог - польза от распознавания выдранного из контекста слова стремится к нулю.

Ivan22 Jan 27 2023 at 11:21

"что умная колонка у нас больно умная"

klounader Jan 27 2023 at 12:36

Если говорить Алиса или Яндекс, то она включает светодиод и делает вид, что прекрасно вас слушает. А если не говорить Алиса или Яндекс, то делает вид, что ничего не слушает. Всё просто. Для проверки сего факта можно в разрыв микрофонов нацепить детекторы и погонять колонку, определив тем самым, насколько она честна на самом деле.

А потом сетевой анализатор цепануть для понимания в какие моменты есть повышенный траффик и сопоставить реальные пылесосы с пылесосами словей.

sim31r Jan 27 2023 at 15:01

Когда меня слышит Алиса, меня так же параллельно слышит и 4 телефона, которые точно так же ждут фразу типа "Окей Гуггл". Тут уже поздно о безопасности думать )

JustMoose Jan 28 2023 at 13:16

Жена спросила меня, почему я так тихо разговариваю в доме. Я пошутил, что боюсь, что Марк Цукерберг прослушивает меня. Жена в ответ засмеялась. И Алиса засмеялась. И Сири тоже.

(с)...

Tantacula Jan 27 2023 at 15:49

Но ведь чтобы услышать "Яндекс" или "Алиса" у колонки должен быть включен микрофон, что даст ваш "детектор в разрыв микрофонов"?

Areso Jan 27 2023 at 16:39

Нет, там есть кнопка "замьютить микрофоны", и в таком режиме она (Алиса) своё имя не слышит...

или не реагирует, уахахаха (смех злобного гения).

klounader Jan 28 2023 at 17:03

Вот именно, что кнопка, а не тумблер.

JustMoose Jan 28 2023 at 13:11

"Для проверки сего факта можно в разрыв микрофонов нацепить детекторы и погонять колонку, определив тем самым, насколько она честна на самом деле." - если в "разрыв" микрофонов воткнуть "детектор", то можно будет обнаружить только то, что они всегда работают. Причина этого проста: микрофоны не умеют реагировать на слово "Алиса". Этим занимается отдельное устройство. Поэтому микрофоны всегда выдают сигнал на усилитель, он на АЦП, АЦП в некий процессор, который распознаёт фразу локально и выдаёт сигнал "о, к нам обратились". И уже при наличии этого сигнала включается отправка оцифрованного голоса по сети.

(Нет, я не знаю, как конкретно устроена Яндекс.Станция, ибо не являюсь сотрудником Яндекса. Но у меня есть радиолюбительский/инженерный/программисткий опыт, и я уверен на 100% что современные устройства сделаны из готовых кубиков - микрофон/АЦП/процессор. Причём часто АЦП/проц/другие устройства пакуются в один чип.)

Но мысль с анализатором трафика, наверное, сработает. Хотя предположу, что трафик ходит по httpS, и отличить в потоке битов голос от не голоса будет нереально. Зато можно будет увидеть "есть трафик/нет трафика".

p07a1330 Jan 28 2023 at 14:23

Реально как минимум по объему. Голос - по меркам IoT довольно жЫрный

Neikist Jan 30 2023 at 10:13

Что мешает Алисе подслушанное не сразу же отправлять, а раз в сутки, например?

BugM Jan 30 2023 at 14:59

Объем. Даже самый скромный кодек для речи это сотни байт в секунду.

Это надо хранить где-то, а потом отправлять.

А потом распознавать видимо. Что стоит кучу денег на таких объемах. Даже для Яндекса очень дорого выйдет.

DuD Jan 27 2023 at 21:03

Скорее всего он уже есть. Иначе сложно объяснить так резко меняющийся яндекс директ в зависимости от того о чем последнее время говоришь рядом с девайсами.

P.S до того как начал неистово гуглить

kAIST Jan 28 2023 at 12:17

Это психологический эффект такой - наш мозг эволюционно "любит" искать совпадения. Если бы вы не говорили на эту тему, то эту рекламу вы просто не заметили бы. У меня лично даже бывало такое пару раз, что я просто думал по определенной теме, а потом видел рекламу на эту тему.

Никаких доказательств прослушки 24/7 нет. Думаете специалисты не пытались изучить эту тему?

reinvent Jan 30 2023 at 07:49

Никакой это не психологический эффект. Ехали к знакомому на дачу, по пути попался ёжик, взяли с собой сделать детям сюрприз. Приехали, все в восторге: ёжик, ёжик! Жена приятеля открывает Яндекс на смартфоне и набирает "чем кормить" и Яндекс ей услужливо подставляет "ёжиков". До этого ни про каких ежей не разговаривали.

Гугл тем же занимается. Коллега за обедом рассказала, что купила новые ролики. Стали обсуждать, я сам давно на роликах не катался. Через час в Хроме на рабочем компьютере реклама роликов. Я про ролики лет десять не вспоминал.

kAIST Jan 30 2023 at 07:58

reinvent Jan 31 2023 at 15:05

reinvent Jan 31 2023 at 15:06

zuek Feb 11 2023 at 11:15

Подтверждаю - буквально на днях сидели с приятелем в кафе, потягивая какие-то напитки, и он мне пожаловался, что у него полис ОМС совсем в негодность пришёл - весь потрескался, и куски поотваливались - вот бы, говорит, уже сделали аналог е-ОСАГО, чтобы не надо было предъявлять "оригинал"... а по пути домой, листая местечковую новостную ленту в ТГ, натыкаюсь на репост новости о том, что теперь полисы ОМС можно предъявлять в электронном виде из "госуслуг" - ну, я ему эту новость переслал, с припиской "это явно не реклама, привязанная к контексту нашей беседы - просто так вот совпало", поржали...

Mairon Jan 27 2023 at 14:21

Только вот отдельный вопрос, сколько раз колонка ложно срабатывает, распознавая другие слова их как Яндекс и Алиса. Судя по огромному словарю команд взбешенных юзеров, пытающихся отключить колонку, там фолс позитивов навалом.

ganzmavag Jan 27 2023 at 15:28

Я как-то среди ночи стал обсуждать Кинчева, и Алиса после слова Алиса что-то там себе нараспознавала, что восприняла как команду включить какой-то рэп, и довольно громко.

Ivan22 Jan 27 2023 at 22:28

Кинчев еще никогда не был так близко к провалу

kAIST Jan 28 2023 at 12:20

У меня дома во всех комнатах есть по колонке. Ложные срабатывания бывают ну очень редко (кроме произнесенного в разговоре слова "Алиса" конечно). А вот ситуации, когда колонку нужно "заткнуть" бывают гораздо чаще. Часто после взаимодействия она спрашивает что то еще и слушает ответ, типа "а хотите я вам расскажу еще вот это?"

Mairon Feb 1 2023 at 09:57

ну судя по контексту команд на затыкание, там как раз то, что она включается, когда её не звали.

Moskus Jan 26 2023 at 20:13

Это узкий подход к проблеме.

Естественно, никто не собирается "делать второй Яндекс". Зато всегда есть вероятность найти в кодовой базе баги, костыли, отражение корпоративной политики, элементы очковтирательства или надувания щёк - это всегда вероятно.

UFO landed and left these words here

Moskus Jan 26 2023 at 23:43

Бессмысленное для кого, для вас? А кому-то будет любопытно.

Я, честно говорю, не смотрел на код, но вдруг там есть что-нибудь на тему лепки "конфет" из "дерьма", как это происходит в сервисе погоды (с исходными данными заведомо недостаточной плотности). Или про приватные API поставщиков данных.

Если вам это не интересно - ну окей, вы - точно не все. А пренебрежительные примеры про комментарии и дерево - это не попытка убедить читающих в том, что "тут смотреть не на что, проходите мимо", случайно?

UFO landed and left these words here

VXP Jan 27 2023 at 00:33

Надейтесь и ждите)

Moskus Jan 27 2023 at 01:53

Я не предъявляю никаких претензий к безопасникам, мне всё равно. И что "компания треснет", тоже не утверждаю, потому что даже если там было что-то совсем крамольное - многим пофигу куда худшее.

Что не означает, что среди тех, кто вообще может что-то об этом понять, вообще нет никакого общественного интереса.

UFO landed and left these words here

NeiroNx Jan 26 2023 at 22:13

Нам и одно то много, зачем нам второй?

Serj1979 Jan 27 2023 at 17:24

Второй Яндекс называется Rambler. Берите сколько влезет.

cher-nov Jan 26 2023 at 18:21

Красиво вы снимок с test_baskette_baskette3_jsons.json прямо перед строчкой 341 обрезали.

На всякий случай напоминаю.

https://habr.com/ru/news/t/712888/#comment_25156268

kompilainenn2 Jan 26 2023 at 19:33

Безопасность прежде всего

imater Jan 27 2023 at 09:15

это обезжиренный скриншот

UFO landed and left these words here

ShadowOfCasper Jan 26 2023 at 23:39

Заскринили =) Пожалуй это будет самое долгое тестирование ПО на моей памяти

Wizard_of_light Jan 27 2023 at 07:35

Число 341 теперь станет мемом.

ovleg Jan 28 2023 at 07:17

Приказ "341" )

Xop Jan 26 2023 at 22:40

Пардон, а при чем тут git, если у них своя arc?

IvanNikonorov Jan 27 2023 at 04:15

А мне интересно чем это грозит виновному сотруднику?

Wesha Jan 27 2023 at 05:03

Возможно, повышением?

imater Jan 27 2023 at 09:15

или повешением

vadimr Jan 27 2023 at 17:38

Тут, для начала, не так просто будет назначить виновных и разделить между ними меру ответственности. Свалить всё на непосредственного исполнителя – совершенно бесперспективно для предотвращения повторений.

Maccimo Jan 27 2023 at 23:19

Теоретически, его могут вычислить.
Но если он окончательно эмигрировал в «недружественную» страну, то всё будет хорошо.

Antra Jan 27 2023 at 05:22

Кто качал исходники, поясните, пожалуйста, скриншот с prod.database.host0.master.password

Неужто реально пароли захардкожены и лежат в монорепе?

eyeless_watcher Jan 27 2023 at 05:41

Реально захардкожены и лежат. Только базы такой уже нет, и сервиса тоже, а файлу десять лет скоро исполняется.

Antra Jan 27 2023 at 06:28

Я не столько об опасности, сколько пытаюсь представить сценарий сканирования на секреты. Сделали и поддерживают исключения, чтобы иметь алерты на новые, а эти проблемы в коде оставить, но не мусорить алертами?

Зачем?

Honeypot, чтобы засечь попытку воспользоваться этими учетками?

FlashHaos Jan 27 2023 at 05:53

Есть теоретический вопрос. Существуют ли механизмы контроля, позволяющие вывесить алерт, если некто пытался склонировать весь репозиторий целиком? Или монорепа клонируется только целиком и такого контроля не может быть? То есть, я пытаюсь представить, какие могли бы быть меры по недопущению такой ситуации - или хотя бы уведомления об ее возникновении. Кроме смены архитектуры репы и ограничения доступа к разным частям кодовой базы.

mayorovp Jan 27 2023 at 07:21

Операция клонирования называется клонированием не просто так...

FlashHaos Jan 27 2023 at 13:38

То есть, чтобы работать одним конкретным модулем, я должен предварительно скачать 46 гигов (точнее, разжатые из 46 гигов архива) исходников? Звучит не очень оптимально, да и алгоритмы сканирования изменений, или как там они у вас называются, должны медленно работать.

nick758 Jan 27 2023 at 13:52

Вот тут у них написано, как это работает: habr.com/ru/company/yandex/blog/482926
Достаточно интересно.

lnkz Jan 27 2023 at 10:44

Все зависит от репы. Сам по себе git в своем функционале очень прост. ИБ предъявляет к репо и контроль доступа и аудит действий и соответствующие алерты + возможность сопутствующего анализа кода, размещаемого в репо. И почему Я использует столь простое репо вопрос к ИБ.

Panzerschrek Jan 27 2023 at 06:37

Вообще говоря, не вижу каких-то особых проблем, которые могла бы создать данная утечка. ИМХО исходники Яндекс или любая подобная контора могли бы почти без ущерба для себя публиковать. Всё равно поднять второй КлоноЯндекс было бы практически невозможно, или возможно, но конкуренцию оригиналу бы он не составил.
Какие-то особые секреты код содержать всё равно не должен. Я смутно себе представляю, чтобы какой-нибудь конкурирующий Google с лупой бы изучал код Яндекса чтобы почерпнуть там какие-то алгоритмы. Инженеры других компаний, одержимые комплексом Not Invented Here, на такое скорее всего бы не пошли.

isden Jan 27 2023 at 06:44

Имея на руках код можно поискать какие-то логические/функциональные уязвимости.

Panzerschrek Jan 27 2023 at 10:29

Пользователем только лучше будет, ибо будет стимул самой компании искать/устранять уязвимости.
А то так получается, то закрытие кода, это способ реализации безопасности через неясность.

FlashHaos Jan 27 2023 at 06:47

Если бы все было так, как вы говорите, никто не держал бы в секрете свою интеллектуальную собственность. Чем код отличается от чертежей?

K0styan Jan 27 2023 at 08:28

Чертежи - необходимый и достаточный артефакт для самостоятельного изготовления продукта.

К коду как минимум нужны данные. А для такой большой штуки, как Яндекс - ещё и инфраструктура.

FlashHaos Jan 27 2023 at 13:35

Для чертежей тоже нужна инфраструктура, да и без знания многих дополнительных нюансов (материалы, например) чертежи так же бесполезны. Также - но не полностью.

isden Jan 28 2023 at 07:03

инфраструктура

А также документация, материалы, техпроцессы, бизнес-процессы, и т.п. Говорю как человек, имеющий одну из специализаций ВО по теме.
Наличие одного чертежа конечно хорошо (лучше чем ничего), но практически не очень полезно для изготовления более-менее сложного продукта.

dom1n1k Jan 27 2023 at 13:38

С одной стороны всё это логично, а с другой — дьявол в деталях. Люди из условного Гугла могут найти там некие мелочи и ниточки, которые много расскажут подготовленному аналитику.
Как сказал когда-то Каспаров, самые интересные для профессионалов партии для обывателя обычно выглядят скучно.

mortadella372 Jan 28 2023 at 00:28

Утечка опасна исками, потому что в коде наверняка полно цельнотянутого без спроса, разрешения и соблюдения лицензии. Сниппеты с SO, копипаста из открытых продуктов, такое. Когда большая лавка открывает что-то в опенсорс, причесывание кода длится довольно долго.

А еще бывает в комментариях что нибудь эдакое.. скандалообразующее.

Radjah Jan 27 2023 at 07:07

Я так понимаю, что код имеет ценность только в плане посмотреть, как там в большой нагруженной системе умные люди сделали, потому что за 7 месяцев очень много всего могло измениться и скорее всего изменилось.

Ivan22 Jan 27 2023 at 10:46

я думаю максимум процентов 5. Или вы думаете они раз в полгода поляндекса перепысывают???

EviGL Jan 27 2023 at 07:29

Всё-таки одно дело код, а другое дело данные пользователей... Написал бы я, если бы захотел присоединиться к подозрительно большому количеству непонятно откуда взявшихся комментариев в стиле "утечка почти свежего кода всех проектов это не страшно и только делает нас сильнее".

UFO landed and left these words here

Maccimo Jan 27 2023 at 23:27

Призываете к нарушению Уголовного Кодекса?
Нехорошо, товарисч!

web3_Venture Jan 27 2023 at 08:28

Жаль что ЯндексМюсик не утек, можно было бы запилить отличный форк + p2p / torrent + web3

Areso Jan 27 2023 at 10:05

Предлагаю сделать стол заявок по исходникам на разные сервисы, потому что полностью поддерживаю про Музыку.

Didimus Jan 27 2023 at 08:41

Может научатся выпиливать из Яндекс браузера рекламу от самого Яндекса...

Asbor Jan 27 2023 at 09:49

из хрома выпиливается скриптом RU AdList JS Fixes :)

imater Jan 27 2023 at 09:18

Интересно, что я делаю не так)

Areso Jan 27 2023 at 10:07

Найдется всё!

Правильно заданный вопрос содержит половину ответа:

myhambr Jan 27 2023 at 15:24

Да, хабр уже не тот.
На vc и комменты поинтереснее
if ($pageOwner == yandex) {$rank = 1} else {$rank = rand()}
https://vc.ru/seo/592583-utechka-ishodnogo-koda-poiska-yandeksa-teper-nam-dostoverno-izvestny-vse-faktory-ranzhirovaniya-saytov

Maccimo Jan 27 2023 at 23:38

Но ведь вы процитировали не комментарий, а тело статьи по ссылке и этот фрагмент — шутка юмора автора статьи.

myhambr Jan 29 2023 at 08:32

Бинго! Значит и статьи там тоже бывают лучше.

Tomasina Jan 27 2023 at 11:55

То, что исходники от РАЗНЫХ сервисов и подсистем смог собрать ОДИН сотрудник - я вижу в этом дыру в СБ организации.

Neikist Jan 27 2023 at 12:42

Да вроде во многих крупных конторах, в тч. из фаанга принято монорепы использовать.

vadimr Jan 27 2023 at 17:50

Однако мы не видим их в публичном доступе.

Проблема может решаться как техническими средствами – типа того, что когда сотрудник потянул себе 40 гигов исходников, то возникает алерт безопасности, так и организационными – типа того, что никто из сотрудников Apple не сомневается в способности её юристов прищемить за выступающие части тела, если вдруг что.

vadimr Jan 27 2023 at 16:39

Инсайд-то хуже для репутации, чем взлом. Взлом – это техническое состязание двух сторон, любая из них может оказаться сильнее, и ничего тут такого уж особо зазорного нет. А инсайд – это конкретный про...вал в работе с людьми.

Maccimo Jan 27 2023 at 23:43

Конкретно в этом провале Ъндекс вроде бы не виноват. Или мы чего-то не знаем?

vadimr Jan 28 2023 at 10:40

Я, конечно, не в курсе деталей, но как это – не виноват? Их кто-то другой заставил принять на работу и бесконтрольно облечь правами человека, который считает вандализм в отношении собственности работодателя полезным для своей карьеры?

Maccimo Jan 28 2023 at 10:52

Я, конечно, не в курсе деталей, но как это – не виноват?

Планированием и осуществлением февральских и сентябрьских событий не Ъндекс занимался. Тут он такая же жертва.

человека, который считает вандализм в отношении собственности работодателя полезным для своей карьеры?

«Полезность» — это ваши, ничем не подкреплённый, фантазии. Никаких фактов, подтверждающих эту версию, нет.

Wesha Jan 29 2023 at 03:23

Мне почему-то кажется, что "планированием февральских и сентябрьских событий" вообще никто не занимался. Ну, судя по результатам.

support917 Jan 27 2023 at 17:17

Интересно посмотреть алгоритм вывода сообщения "Повышенный спрос в такси". Также можно доказать или опровергнуть факт, что яндекс+ делает все цены выше.

PereslavlFoto Jan 27 2023 at 22:26

при воровстве кода все равно непонятно, что с ним делать

И вот теперь совсем уже непостижимо — зачем было скрывать код раньше?

Если он настолько непонятный и ненужный, не лучше ли было опубликовать его?

Wesha Jan 28 2023 at 05:18

не лучше ли было опубликовать его?

Лучше — но поговорку про собаку на сене не вчера придумали.

svcoder Jan 28 2023 at 06:31

Можно будет посмотреть наконец правила формирования топа яндекс-новостей. Там ведь и тикеты есть и авторы

Maccimo Jan 28 2023 at 10:57

Там ведь и тикеты есть и автор

Разве базу багтрекера тоже слили?

Volkodlak Jan 28 2023 at 11:26

Наверное имеется ввиду информация из changelog'ов

svcoder Jan 29 2023 at 07:43

Написали, что там снимок git-репозитория, т.е. даже если его клонировали с помощью --depth=1 останется информация об авторе и комментарий последнего коммита

Maccimo Jan 29 2023 at 12:57

Команда git archive сгенерирует вам готовый архив нужной ревизии кода и папки .git в нём не будет. Вам даже checkout на июльскую версию делать не нужно, чтобы сгенерировать её сегодня, например.