Pull to refresh

Comments 108

Какие тут могут быть претензии к безопасникам, политика компании вполне ясная:
"Политика эта полностью правильная, потому что позволяет быстрее, эффективнее и гибче разрабатывать код, а при воровстве кода все равно непонятно, что с ним делать."
Второй яндекс из этих исходников не сделаешь.

Так что пошумят и забудется вскоре.

да ну, там много всего интересного. что еще в мемы перейдет. один разбор "какими словами выключают Алису" чего стоит

Таки да, только Яндексу вообще, и Алисе в частности с того один гешефт!
Надо било делать вброс пред праздниками, куда смотрел PR отел? Азохен вей...

Скорее, будет шанс узнать, что Алиса посылает тащу майору, и какому.

Как и любой другой крупный сервис, Алиса наверняка обвешана трассировками и логами по самые помидорки. Специальной функции reportVovke там не будет

А как используются эти логи и трассировки - вообще не технический вопрос

Ну а вдруг там зашит как в Твиттер GodMode?

Вот интересно насколько стоит опасаться появления какого-нибудь "какие слова говорят возле Алисы", учитывая этот разбор.

Станция не записывает то, что говорят "возле" неё. На колонке работает локальное распознавание, заточенное исключительно на активационную фразу (их две, на выбор в настройках — «Алиса» и «Яндекс»).

Если активационная фраза распознана локально, то колонка включает светодиод, подаёт сигнал, что слушает и отправляет дальнейшую речь на сервер для распознавания — потому что модель распознавания на сервере на порядок качественнее. Локально сравнительно легко распознавать два слова, всю речь — требуются существенно другие ресурсы (CPU, GPU, Memory).

вполне может оказаться, что есть белый список слов, по которому Алиса отправляет 1 код этого слова. Если возле станции скажешь слово "пылесос", а в это время у Яндекса контракт с пылесосной компанией, то пользователю будут показывать контекстную рекламу пылесоса. И утечку не увидишь, так как ушёл лишь код этого слова смешанный с обычными данными. Ну и отправка этого кода одноразовая, а не при каждом произнесении "пылесос" (с) мания преследования

Зачем им это делать, если свое пожелания пылесоса ты и так им расскажешь в явном виде, гугля в яндексах "пылесос купить без смс".

А "произнес слово пылесос однажды" такая себе информация для работодателя, ящетаю

UFO just landed and posted this here

А тут речь немного о другом, ты жене говоришь "Что-то пылесос у нас хреново сосет", а вечером тебе показывают рекламу магазина, где как раз на этой неделе акция и скидки на пылесосы, прекрасный момент чтобы купить новый.

Распознать слово "пылесос" несколько проще, чем распознать все слова фразы и её контекст. А без этого распознавания на все фразы типа "пропылесось, пожалуйста", "а ты поставил пылесос на зарядку?", "из пылесоса выкинул мусор?", "в пылесос воды налил?", "кот, не бойся, это пылесос", "опять не пропылесосили" и даже "опять этот тупой пылесос застрял" показывать рекламу покупки пылесоса - перебор.

Не говоря уже про то, что "пылесос" это целая куча жаргонизмов от "клиента-мозгодела" до автомобиля. Более того в некоторых семьях даже муж жене может говорить что она прямо как пылесос (по крайней мере в некоторых аспектах).

Как итог - польза от распознавания выдранного из контекста слова стремится к нулю.

"что умная колонка у нас больно умная"

Если говорить Алиса или Яндекс, то она включает светодиод и делает вид, что прекрасно вас слушает. А если не говорить Алиса или Яндекс, то делает вид, что ничего не слушает. Всё просто. Для проверки сего факта можно в разрыв микрофонов нацепить детекторы и погонять колонку, определив тем самым, насколько она честна на самом деле.

А потом сетевой анализатор цепануть для понимания в какие моменты есть повышенный траффик и сопоставить реальные пылесосы с пылесосами словей.

Когда меня слышит Алиса, меня так же параллельно слышит и 4 телефона, которые точно так же ждут фразу типа "Окей Гуггл". Тут уже поздно о безопасности думать )

Жена спросила меня, почему я так тихо разговариваю в доме. Я пошутил, что боюсь, что Марк Цукерберг прослушивает меня. Жена в ответ засмеялась. И Алиса засмеялась. И Сири тоже.

(с)...

Но ведь чтобы услышать "Яндекс" или "Алиса" у колонки должен быть включен микрофон, что даст ваш "детектор в разрыв микрофонов"?

Нет, там есть кнопка "замьютить микрофоны", и в таком режиме она (Алиса) своё имя не слышит...

или не реагирует, уахахаха (смех злобного гения).

Вот именно, что кнопка, а не тумблер.

"Для проверки сего факта можно в разрыв микрофонов нацепить детекторы и погонять колонку, определив тем самым, насколько она честна на самом деле." - если в "разрыв" микрофонов воткнуть "детектор", то можно будет обнаружить только то, что они всегда работают. Причина этого проста: микрофоны не умеют реагировать на слово "Алиса". Этим занимается отдельное устройство. Поэтому микрофоны всегда выдают сигнал на усилитель, он на АЦП, АЦП в некий процессор, который распознаёт фразу локально и выдаёт сигнал "о, к нам обратились". И уже при наличии этого сигнала включается отправка оцифрованного голоса по сети.

(Нет, я не знаю, как конкретно устроена Яндекс.Станция, ибо не являюсь сотрудником Яндекса. Но у меня есть радиолюбительский/инженерный/программисткий опыт, и я уверен на 100% что современные устройства сделаны из готовых кубиков - микрофон/АЦП/процессор. Причём часто АЦП/проц/другие устройства пакуются в один чип.)

Но мысль с анализатором трафика, наверное, сработает. Хотя предположу, что трафик ходит по httpS, и отличить в потоке битов голос от не голоса будет нереально. Зато можно будет увидеть "есть трафик/нет трафика".

Реально как минимум по объему. Голос - по меркам IoT довольно жЫрный

Что мешает Алисе подслушанное не сразу же отправлять, а раз в сутки, например?

Объем. Даже самый скромный кодек для речи это сотни байт в секунду.

Это надо хранить где-то, а потом отправлять.

А потом распознавать видимо. Что стоит кучу денег на таких объемах. Даже для Яндекса очень дорого выйдет.

Скорее всего он уже есть. Иначе сложно объяснить так резко меняющийся яндекс директ в зависимости от того о чем последнее время говоришь рядом с девайсами.

P.S до того как начал неистово гуглить

Это психологический эффект такой - наш мозг эволюционно "любит" искать совпадения. Если бы вы не говорили на эту тему, то эту рекламу вы просто не заметили бы. У меня лично даже бывало такое пару раз, что я просто думал по определенной теме, а потом видел рекламу на эту тему.

Никаких доказательств прослушки 24/7 нет. Думаете специалисты не пытались изучить эту тему?

Никакой это не психологический эффект. Ехали к знакомому на дачу, по пути попался ёжик, взяли с собой сделать детям сюрприз. Приехали, все в восторге: ёжик, ёжик! Жена приятеля открывает Яндекс на смартфоне и набирает "чем кормить" и Яндекс ей услужливо подставляет "ёжиков". До этого ни про каких ежей не разговаривали.

Гугл тем же занимается. Коллега за обедом рассказала, что купила новые ролики. Стали обсуждать, я сам давно на роликах не катался. Через час в Хроме на рабочем компьютере реклама роликов. Я про ролики лет десять не вспоминал.

Подтверждаю - буквально на днях сидели с приятелем в кафе, потягивая какие-то напитки, и он мне пожаловался, что у него полис ОМС совсем в негодность пришёл - весь потрескался, и куски поотваливались - вот бы, говорит, уже сделали аналог е-ОСАГО, чтобы не надо было предъявлять "оригинал"... а по пути домой, листая местечковую новостную ленту в ТГ, натыкаюсь на репост новости о том, что теперь полисы ОМС можно предъявлять в электронном виде из "госуслуг" - ну, я ему эту новость переслал, с припиской "это явно не реклама, привязанная к контексту нашей беседы - просто так вот совпало", поржали...

Только вот отдельный вопрос, сколько раз колонка ложно срабатывает, распознавая другие слова их как Яндекс и Алиса. Судя по огромному словарю команд взбешенных юзеров, пытающихся отключить колонку, там фолс позитивов навалом.

Я как-то среди ночи стал обсуждать Кинчева, и Алиса после слова Алиса что-то там себе нараспознавала, что восприняла как команду включить какой-то рэп, и довольно громко.

Кинчев еще никогда не был так близко к провалу

У меня дома во всех комнатах есть по колонке. Ложные срабатывания бывают ну очень редко (кроме произнесенного в разговоре слова "Алиса" конечно). А вот ситуации, когда колонку нужно "заткнуть" бывают гораздо чаще. Часто после взаимодействия она спрашивает что то еще и слушает ответ, типа "а хотите я вам расскажу еще вот это?"

ну судя по контексту команд на затыкание, там как раз то, что она включается, когда её не звали.

Это узкий подход к проблеме.

Естественно, никто не собирается "делать второй Яндекс". Зато всегда есть вероятность найти в кодовой базе баги, костыли, отражение корпоративной политики, элементы очковтирательства или надувания щёк - это всегда вероятно.

UFO just landed and posted this here

Бессмысленное для кого, для вас? А кому-то будет любопытно.

Я, честно говорю, не смотрел на код, но вдруг там есть что-нибудь на тему лепки "конфет" из "дерьма", как это происходит в сервисе погоды (с исходными данными заведомо недостаточной плотности). Или про приватные API поставщиков данных.

Если вам это не интересно - ну окей, вы - точно не все. А пренебрежительные примеры про комментарии и дерево - это не попытка убедить читающих в том, что "тут смотреть не на что, проходите мимо", случайно?

UFO just landed and posted this here

Надейтесь и ждите)

Я не предъявляю никаких претензий к безопасникам, мне всё равно. И что "компания треснет", тоже не утверждаю, потому что даже если там было что-то совсем крамольное - многим пофигу куда худшее.

Что не означает, что среди тех, кто вообще может что-то об этом понять, вообще нет никакого общественного интереса.

UFO just landed and posted this here
UFO just landed and posted this here
UFO just landed and posted this here
UFO just landed and posted this here

Нам и одно то много, зачем нам второй?

Второй Яндекс называется Rambler. Берите сколько влезет.

это обезжиренный скриншот

UFO just landed and posted this here

Заскринили =) Пожалуй это будет самое долгое тестирование ПО на моей памяти

Пардон, а при чем тут git, если у них своя arc?

А мне интересно чем это грозит виновному сотруднику?

Тут, для начала, не так просто будет назначить виновных и разделить между ними меру ответственности. Свалить всё на непосредственного исполнителя – совершенно бесперспективно для предотвращения повторений.

Теоретически, его могут вычислить.
Но если он окончательно эмигрировал в «недружественную» страну, то всё будет хорошо.

Кто качал исходники, поясните, пожалуйста, скриншот с prod.database.host0.master.password

Неужто реально пароли захардкожены и лежат в монорепе?

Реально захардкожены и лежат. Только базы такой уже нет, и сервиса тоже, а файлу десять лет скоро исполняется.

Я не столько об опасности, сколько пытаюсь представить сценарий сканирования на секреты. Сделали и поддерживают исключения, чтобы иметь алерты на новые, а эти проблемы в коде оставить, но не мусорить алертами?

Зачем?

Honeypot, чтобы засечь попытку воспользоваться этими учетками?

Есть теоретический вопрос. Существуют ли механизмы контроля, позволяющие вывесить алерт, если некто пытался склонировать весь репозиторий целиком? Или монорепа клонируется только целиком и такого контроля не может быть? То есть, я пытаюсь представить, какие могли бы быть меры по недопущению такой ситуации - или хотя бы уведомления об ее возникновении. Кроме смены архитектуры репы и ограничения доступа к разным частям кодовой базы.

Операция клонирования называется клонированием не просто так...

То есть, чтобы работать одним конкретным модулем, я должен предварительно скачать 46 гигов (точнее, разжатые из 46 гигов архива) исходников? Звучит не очень оптимально, да и алгоритмы сканирования изменений, или как там они у вас называются, должны медленно работать.

Все зависит от репы. Сам по себе git в своем функционале очень прост. ИБ предъявляет к репо и контроль доступа и аудит действий и соответствующие алерты + возможность сопутствующего анализа кода, размещаемого в репо. И почему Я использует столь простое репо вопрос к ИБ.

Вообще говоря, не вижу каких-то особых проблем, которые могла бы создать данная утечка. ИМХО исходники Яндекс или любая подобная контора могли бы почти без ущерба для себя публиковать. Всё равно поднять второй КлоноЯндекс было бы практически невозможно, или возможно, но конкуренцию оригиналу бы он не составил.
Какие-то особые секреты код содержать всё равно не должен. Я смутно себе представляю, чтобы какой-нибудь конкурирующий Google с лупой бы изучал код Яндекса чтобы почерпнуть там какие-то алгоритмы. Инженеры других компаний, одержимые комплексом Not Invented Here, на такое скорее всего бы не пошли.

Имея на руках код можно поискать какие-то логические/функциональные уязвимости.

Пользователем только лучше будет, ибо будет стимул самой компании искать/устранять уязвимости.
А то так получается, то закрытие кода, это способ реализации безопасности через неясность.

Если бы все было так, как вы говорите, никто не держал бы в секрете свою интеллектуальную собственность. Чем код отличается от чертежей?

Чертежи - необходимый и достаточный артефакт для самостоятельного изготовления продукта.

К коду как минимум нужны данные. А для такой большой штуки, как Яндекс - ещё и инфраструктура.

Для чертежей тоже нужна инфраструктура, да и без знания многих дополнительных нюансов (материалы, например) чертежи так же бесполезны. Также - но не полностью.

инфраструктура

А также документация, материалы, техпроцессы, бизнес-процессы, и т.п. Говорю как человек, имеющий одну из специализаций ВО по теме.
Наличие одного чертежа конечно хорошо (лучше чем ничего), но практически не очень полезно для изготовления более-менее сложного продукта.

С одной стороны всё это логично, а с другой — дьявол в деталях. Люди из условного Гугла могут найти там некие мелочи и ниточки, которые много расскажут подготовленному аналитику.
Как сказал когда-то Каспаров, самые интересные для профессионалов партии для обывателя обычно выглядят скучно.

Утечка опасна исками, потому что в коде наверняка полно цельнотянутого без спроса, разрешения и соблюдения лицензии. Сниппеты с SO, копипаста из открытых продуктов, такое. Когда большая лавка открывает что-то в опенсорс, причесывание кода длится довольно долго.

А еще бывает в комментариях что нибудь эдакое.. скандалообразующее.

Я так понимаю, что код имеет ценность только в плане посмотреть, как там в большой нагруженной системе умные люди сделали, потому что за 7 месяцев очень много всего могло измениться и скорее всего изменилось.

я думаю максимум процентов 5. Или вы думаете они раз в полгода поляндекса перепысывают???

Всё-таки одно дело код, а другое дело данные пользователей... Написал бы я, если бы захотел присоединиться к подозрительно большому количеству непонятно откуда взявшихся комментариев в стиле "утечка почти свежего кода всех проектов это не страшно и только делает нас сильнее".

Яндексу бы огласить ФИО этого сотрудника.

Призываете к нарушению Уголовного Кодекса?
Нехорошо, товарисч!

Жаль что ЯндексМюсик не утек, можно было бы запилить отличный форк + p2p / torrent + web3

Предлагаю сделать стол заявок по исходникам на разные сервисы, потому что полностью поддерживаю про Музыку.

Может научатся выпиливать из Яндекс браузера рекламу от самого Яндекса...

из хрома выпиливается скриптом RU AdList JS Fixes :)

Найдется всё!

Правильно заданный вопрос содержит половину ответа:

Но ведь вы процитировали не комментарий, а тело статьи по ссылке и этот фрагмент — шутка юмора автора статьи.

Бинго! Значит и статьи там тоже бывают лучше.

То, что исходники от РАЗНЫХ сервисов и подсистем смог собрать ОДИН сотрудник - я вижу в этом дыру в СБ организации.

Да вроде во многих крупных конторах, в тч. из фаанга принято монорепы использовать.

Однако мы не видим их в публичном доступе.

Проблема может решаться как техническими средствами – типа того, что когда сотрудник потянул себе 40 гигов исходников, то возникает алерт безопасности, так и организационными – типа того, что никто из сотрудников Apple не сомневается в способности её юристов прищемить за выступающие части тела, если вдруг что.

Инсайд-то хуже для репутации, чем взлом. Взлом – это техническое состязание двух сторон, любая из них может оказаться сильнее, и ничего тут такого уж особо зазорного нет. А инсайд – это конкретный про...вал в работе с людьми.

Конкретно в этом провале Ъндекс вроде бы не виноват. Или мы чего-то не знаем?

Я, конечно, не в курсе деталей, но как это – не виноват? Их кто-то другой заставил принять на работу и бесконтрольно облечь правами человека, который считает вандализм в отношении собственности работодателя полезным для своей карьеры?

Я, конечно, не в курсе деталей, но как это – не виноват?

Планированием и осуществлением февральских и сентябрьских событий не Ъндекс занимался. Тут он такая же жертва.


человека, который считает вандализм в отношении собственности работодателя полезным для своей карьеры?

«Полезность» — это ваши, ничем не подкреплённый, фантазии. Никаких фактов, подтверждающих эту версию, нет.

Мне почему-то кажется, что "планированием февральских и сентябрьских событий" вообще никто не занимался. Ну, судя по результатам.

Интересно посмотреть алгоритм вывода сообщения "Повышенный спрос в такси". Также можно доказать или опровергнуть факт, что яндекс+ делает все цены выше.

при воровстве кода все равно непонятно, что с ним делать

И вот теперь совсем уже непостижимо — зачем было скрывать код раньше?

Если он настолько непонятный и ненужный, не лучше ли было опубликовать его?

не лучше ли было опубликовать его?

Лучше — но поговорку про собаку на сене не вчера придумали.

Можно будет посмотреть наконец правила формирования топа яндекс-новостей. Там ведь и тикеты есть и авторы

Там ведь и тикеты есть и автор

Разве базу багтрекера тоже слили?

Наверное имеется ввиду информация из changelog'ов

Написали, что там снимок git-репозитория, т.е. даже если его клонировали с помощью --depth=1 останется информация об авторе и комментарий последнего коммита

Команда git archive сгенерирует вам готовый архив нужной ревизии кода и папки .git в нём не будет. Вам даже checkout на июльскую версию делать не нужно, чтобы сгенерировать её сегодня, например.

Sign up to leave a comment.

Other news