Как стать автором
Обновить

Эксперты оценили в первом приближении публикацию исходного кода из внутренних Git-репозиториев «Яндекса»

Время на прочтение4 мин
Количество просмотров33K
Всего голосов 23: ↑22 и ↓1+28
Комментарии52

Комментарии 52

Unintentional Open Sourcing

Unintended off-site backup

Вы сделали мой день, почему я не знал этого мема раньше!

– Джун Петя, ты когда выложишь свою задачу на ревью
– Очень долго пушилось, но вроде выложил

В том числе, анализируются письма с подписками на разные онлайн-сервисы, письма с чеками. Зачем именно — неясно. Возможно, «Яндекс» так мониторит конкурентов по рынку;

Возможно, для группировки писем по типам (хотя не нашёл такого в их веб-интерфейсе). Gmail в веб-интерфейсе вроде тоже имеет функцию просмотра промо-акций, чеков итд

В mail.ru такая фишка давно есть, удобно

Функции группировки писем как в gmail Яндексу очень не хватает, либо она есть, но скрыта где-то глубоко в настройках, обыденному пользователю найти сложно

Очень неприятно будет, если Яндекс оказывается мои письма группирует, а меня заставляет изголяться с фильтрами и папками

форкните и сделайте МР размером 65Гб

Здравствуйте! В Яндекс Почте действует группировка переписки — если вы отвечаете на письмо, то ваш ответ будет сгруппирован с этим письмом. В эту же цепочку попадёт ответ на ваше письмо — и так до бесконечности.

Работает группировка на основании почтового заголовка «References», который создаётся при ответе на письмо и образует так называемое «дерево ответов», даже если письмо было отправлено с другой темой или с другим составом получателей.

Однако письма, которые отправляются не от людей, а от ящиков-роботов, например, это могут быть рассылки, уведомления или письма со специальных общих ящиков, группируются только по теме.

Если вы не хотите, чтобы письмо было сгруппировано, достаточно отправить его как новое, а не в ответ на предыдущее. Также вы можете совсем отключить опцию группировки. Для этого: откройте вкладку «Вид» справа сверху списка писем и снимите галочку с «группировать по теме».

Других способов группировки в Почте нет. Но я буду рад, если вы напишете, что, по вашему мнению, стоит изменить и чем это будет удобнее существующих вариантов. Я всё запишу и передам специалистам :)

Вот, точно!
Где-то там у них должны лежать исходники ботов, мониторящих соцсети на предмет упоминания Ъндекса всуе.

Анализ чеков, скорее всего, нужен для Едалила, чтобы сканировать электронные чеки и кэшбэчить.

Оценивать платежеспособность клиента и предлагать ему более высокую стоимость поездки на такси.

Кстати раз код есть, можно поискать этот мифический алгоритм

и не только тот, там ещё к устройству чувствительность была

НЛО прилетело и опубликовало эту надпись здесь
Вот я думаю там много интересно именно в такси всплывёт, потому что уже ни раз тоже натыкался как матерят алгоритм. Либо окажется, что люди очередной раз придумали теорию заговора. Короче если кто в их коде разбирается, может статью на хабре напишет, действительно ли там вот эти политики в стиле: «если садится батарея телефона, такси резко дорожает».

Глянул одним глазом, в сорсах только запускалка эвристик, а сами эвристики похоже сервис получает снаружи и в слив они не попали

Ну то, что оно привязано к погоде, пожалуй, никакой новости нет, это даже не странная зависимость, а вполне себе прямая.

А то что погода различается от фактического - ну как бы тут тоже ничего необычного. На то это и прогноз, у меня тут сухо и солнышко, а через 7км на датчики метеостанции уже капает дождина. Искать именно в этом заговор точно не нужно

НЛО прилетело и опубликовало эту надпись здесь

>Так что не думаю, что это какой-то существенный урон нанесет (мало того, думаю, кому очень все это надо было, уже давно получили).

Хотелось бы узнать мнение специалистов по безопасности. Разве, имея на руках исходники, не проще определить хотя бы вектор атаки на сервисы? А возможно и найти дыру в безопасности?

В теории да, вектор атаки определить проще, имея исходники на руках. Но, исходников тут многовато будет, и они малость устаревшие. Так что, если что-то и найдут, то не критичное, и скорее всего уже исправленное.

Есть интересные примеры отчётов, где они парсят с apple/google сторов параметры чужих приложений, потом ищут их в данных appmetrica и собирают стату по пользователям этих приложений.

Используешь AppMetrica в своём приложении - знай что твои события будут доступны на их внутренней кухне, и как перейдёшь достаточный уровень dau - они запилят конкурента, выкупах тебя или выкинут из поисковой выдачи.

Тут не хватает ссылки на исходники. Файл + строка хватит. Куда смотреть?

тут

analytics/tasks/METR_50474_load_data_rkn.ipynb

На подсчет статистики похоже. Вторая часть вашего комментария с созданием конкурента тут явно не в тему. Кинотеатры какие-то. Кинопоиску уже много лет.

Аббревиатура rkn в названии гораздо интереснее. Статистика кинотеатров для Роскомнадзора?

Ну я там в одном из конфигов видел какой-то секрет, но вероятно он уже давно отозванный, даже если и имел какую-то силу

есть шансы немалые найти в исходниках ответы на животрепещущие вопросы типа

"как проще попасть в топ 10 яндекса"

"как обойти модерацию объявления"

"как получить больше заказов в такси"

"как получить минимальную цену поездки на такси"

все эти темы обрабатываются автоматом, и достаточно знать как работает этот автомат, чтобы попытаться его "обойти" немного.

И таких вопросов сотни.

А логины.... да кому они нужны.

"как проще попасть в топ 10 яндекса" - нейросетью ищем подходящие документы, нейросетью ранжируем. Блобов с весами (скорее всего) в репозитории нет

"как обойти модерацию объявления" - ну может есть какой-то стоп-лист слов. Но все равно скорее всего есть какой-то скоринг, либо нейросетью, либо живыми людьми.

"как получить больше заказов в такси" - такси и так говорит как получить больше заказов. Такси берет с заказов комиссию, больше зарабатывают водители - больше получает такси. "Как обмануть такси и получать бабки ничего не делая" - это еще может быть, но это еще найти надо. Те, кто пишет этот код, - тоже же об этом думают, а вы видите код впервые. Я бы не стал утверждать про "немалые шансы".

"как получить минимальную цену поездки на такси" - ну видите вы алгоритм "если вокруг тебя много желающих уехать, а желающих везти - мало, то поставить коэффициент повыше". И что? Коэффициент динамический, распределения заявок/водителей в момент заказа у вас нет. "Надо пойти туда, где поменьше народу хочет уехать" - это и без утечек очевидно.

Автоматы достаточно сложные и зависят от динамических данных; знания как они работают обычно недостаточно чтобы его обойти. Конечно, белый ящик проще взламывать, чем черный, но это не "шансы немалые".

  • Утекли исходники почти всех продуктов... этого точно не стоит бояться

  • Вытащить весь код — вопрос одной команды... политика эта полностью правильная

Это правильная политика с точки зрения разраба потому что она в ряде случаев упрощает ему жизнь. А вот с точки зрения безопасников это плохая политика.

Спасибо, теперь я знаю как называть телек разговаривая с Алисой.

быдловизор,быдловьювер,быдлокормушка,быдлоскоп,быдлоящик,гипновизор,говновизор,говноскоп,говноящик,дальноказ,дебилизор,дебилоскоп,дебилятор,дибилизатор,долбовизор,долбоскоп,долбоящик,дуроскоп,жвачник,зомбимейкер,зомбификатор,зомбовизор,зомбоскоп,зомбоящик,идиотоскоп,кретиноскоп,пузивизор,путиновизор,радиоприемник,тв,телевысер,телек,телепузик,телепузор,телеящик,телик,туповизор,цивилизор,ящик

Тель-Авизор же. Странно что не в блеклисте, если вы понимаете о чем я.

Цивилизор — это прям хорошо…

список просто с лурка взяли, для вашего же удобства :)

Ну и старательно найти и инвалидировать все секреты;

Если сделать инвалидом того от кого утекло, это инвалидация?

Это статья.

Так ведь у нас большинство слов заимствовано от абажура до автомобиля и компьютера, вплоть до полных калек типа роутера и интернета. Еще попробуй вспомни наши собственные, только яблоко на ум приходит (яблъко).

«У нас» это у человеческой цивилизации? Таки да, code reuse, знаете ли.

Да. Поэтому никогда не понимал придирок к заимствованным словам.

Скорее инвалидизация.

Ещё скорее всего ожидает куча скандалов когда проанализируют алгоритмы ценообразования в такси, цены маркета и тп?

Вероятно, что цену определяет не детерминированный алгоритм (или не только он), а ещё какая-то нейросетка, регулярно дообучаемая на реальных данных. А этих данных нет.

Как инженер одного из крупнейших такси-сервисов в мире (яндекс такси и рядом не валялся) могу сказать, что нейронки не так и много решают в плане ценообразования. Может, поэтому дата сайентистов первыми и увольняют.

что бы привлечь аудиторию выбираются уже просто гениальные схемы ) круто че, ходы на несколько этапов расписали!

НЛО прилетело и опубликовало эту надпись здесь

или найти плохо пахнущий код

Его в ЛЮБОЙ компании вагон и маленькая тележка - неважно кто это - гугл, майкрософт и пр.

НЛО прилетело и опубликовало эту надпись здесь

Умение найти плохо пахнущий код совершенно не означает, что кандидат подходит.
У нас в проекте тоже килотонны (в смысле kloc) плохо пахнущего кода, в нескольких модулях я чуть ли не номера строк помню — но вот исправить там что-то это задача распределения ресурсов, и на практике всегда есть более приоритетные задачи, чем разгребание. В итоге, за редким исключением, это всё делается параллельно с какой-то ещё задачей в том коде, и то — при условии, что это основную задачу замедлит не более, чем на 20%.
Так что допустим, нашли вы что-то и показали пальцем, но времени на исправление всё равно нет, и появится нескоро. О чём это должно сказать собеседующему? Об опыте, возможно, но про опыт можно и другими путями узнать. Ну ещё, очевидно, о желании работать в Я, кто бы ещё стал с лупой тамошний код читать.

НЛО прилетело и опубликовало эту надпись здесь

выбиться из потока однообразных кандидатов

.. в отдельный поток других однообразных кандидатов, ага)

Такое впечатление, что вам неприятно когда на ваш плохой код показывают

Нет, просто указание на мой плохой код ничего не поменяет. У нас точно нет вакансии для специального человека, который будет исправлять и оптимизировать чужой плохой код. Думаю, в Яндексе тоже.


нечто что поможет выбиться из потока однообразных кандидатов, за которыми не видно леса

Это предполагает, что на вас уже по какой-то причине смотрят более пристально, потому что деревья для Яндекса — это стандартная процедура начального отсеивания.


Во вторых, предложил «выдать несколько предложений по тому как сделать лучше» — это уже повод для разговора и подготовившись и потренировавшись с этими предложениями, это шанс взять инициативу и направление разговора в свои руки и показать себя с сильно лучшей стороны

Возможно, но это требует ещё и подготовки собеседующего вас сотрудника, который этот код видит, может, впервые. Думаю, там нет ни одного человека, который знает хотя бы половину кода, и может как-то предметно его обсуждать. Ну и компанию обычно интересует не то, что вы можете указать ей на её плохой код — интересует обычно ваш персональный код, и насколько он плохой. "Брать разговор в свои руки" — тактика, которая может как сработать, так и с треском провалиться, зависит от текущей вакансии.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Другие новости

Истории