• От эвристик до машинного обучения: история саджеста в Яндекс.Браузере



      Давненько я ничего не рассказывал о Яндекс.Браузере и Chromium, а ведь интерес к этой теме на Хабре был нешуточный. Пора исправляться. Сегодня хочу поднять тему подсказок, которые мы видим под адресной строкой по мере вводе текста (этот блок ещё называют саджестом). Об этом почти никто не задумывается, но их работа исторически основана на ручных эвристиках и константах. Недавно с помощью коллег из поиска Яндекса нам удалось применить ML-ранжирование к этим подсказкам. Получилось не с первого раза, но результат того стоил.

      Для лучшего погружения в контекст начнём с истории. Помните ли вы первый браузер в мире? Тот самый, который создал Тим Бернерс-Ли. Честно говоря, и я не помню, но хорошие люди сделали веб-версию для любопытных. Этот браузер умел отображать текст… и всё. Даже картинки на старте не поддерживал. А ещё там не было адресной строки в привычном для нас месте. Сайты открывались через меню, как документы в офисном редакторе. При этом было важно вводить точный адрес желаемой страницы. Забыли про http:// в начале? Получите Bad request. Никакого дружелюбия к пользователям не требовалось, потому что пользователями выступали учёные и технари.

      Но затем интернет пришёл в дома «обычных» пользователей. Интерфейсы стали упрощаться: адресная строка поселилась у всех на виду, а рядом с ней добавили ещё одну — для поисковых запросов. Браузеры научились не только подставлять http://, но и подсказывать людям адреса уже посещённых страниц или введённые ранее запросы.

      Затем в Chrome адресную строку объединили с поисковой — так родился омнибокс, который умел переваривать как адреса, так и запросы. Причём саджест тоже стал единый. Браузерам пришлось учиться ранжированию подсказок. Поставить на первое место сайт из истории? Или из закладок? Или сходить в облако и предложить окончание запроса? Или оставить WYT (What You Typed) и отправить в поиск?

      Читать дальше →
    • Как мы эвакуировали дежурную смену Яндекса



        Когда работа умещается в одном ноутбуке и может выполняться автономно от других людей, то нет проблем перебраться на удалёнку — достаточно остаться утром дома. Но так повезло не всем.

        Дежурная смена — это команда специалистов по доступности сервисов (SRE). Она включает в себя дежурных администраторов, разработчиков, менеджеров, а также общую «приборную панель» из 26 ЖК-панелей по 55 дюймов каждая. От работы дежурной смены зависит стабильность сервисов компании и скорость решения проблем.

        Сегодня Дмитрий Меликов tal10n, руководитель дежурной смены, расскажет о том, как за считанные дни им удалось перевезти оборудование на дом и наладить новые процессы работы. Передаю ему слово.

        Читать дальше →
      • Яндекс сделал тестирование на коронавирус бесплатным для всех возрастов

          Сегодня мы делаем тестирование на коронавирус на дому бесплатным в рамках социального проекта «Помощь рядом». Тестирование от аккредитованных лабораторных служб доступно для жителей Москвы и ближайшего Подмосковья всех возрастов. В будущем оно станет доступно и для жителей других регионов.

          Тестирования оплачиваются из выделенных ранее Яндексом средств в фонд проекта, а также из пожертвований, сбор которых компания открыла неделю назад через фонд-партнёр «Подарок Ангелу». В настоящий момент собранных средств достаточно для оплаты тестирований на ближайшее время с учетом сложившегося спроса. Любой желающий может пожертвовать в благотворительный фонд через специальную форму на сайте деньги для оплаты тестирования тому, кто не может себе этого позволить.

          Чтобы пройти бесплатное тестирование, нужно оставить заявку на сайте проекта. После подтверждения времени тестирования по указанному адресу на машине проекта «Помощь рядом» приезжает медицинский работник одной из лабораторий-партнеров проекта. Все работники одеты в защитную медицинскую одежду. Медицинский работник берёт мазок из носа или рта, упаковывает пробы и отвозит в лабораторию.

          Читать дальше →
        • Как Яндекс научил искусственный интеллект находить ошибки в новостях

            Мы часто рассказываем о технологиях и библиотеках, которые зародились и сформировались в Яндексе. На самом деле мы ничуть не реже применяем и развиваем сторонние решения.

            Сегодня я расскажу сообществу Хабра об одном из таких примеров. Вы узнаете, зачем мы научили нейросеть BERT находить опечатки в заголовках новостей, а не воспользовались готовой моделью, почему нельзя взять и запустить BERT на нескольких видеокартах и как мы использовали ключевую особенность этой технологии — механизм attention.



            Читать дальше →
          • Яндекс запустил народное голосование за ретроигры. Финалисты Retro Games Battle 2019

              В июле команда Музея Яндекса запустила Retro Games Battle 2019 — конкурс по разработке игр для легендарного ZX Spectrum, ориентированный на любителей ретротехники. 5 декабря завершился приём заявок. 19 новых игр дошло до финала.

              Сегодня мы не только напомним о конкурсе и покажем финалистов, но и дадим возможность каждому пользователю запустить игры в веб-эмуляторе или даже скачать. Но самое важное в другом — мы приглашаем вас принять участие в народном голосовании, по итогам которого будет определён обладатель «Приза зрительских симпатий».



              Читать дальше →
            • Яндекс.Станция Мини. Большая история маленького устройства

                Только что мы представили наше новое устройство — Яндекс.Станцию Мини. Это компактная умная колонка, которая умеет воспроизводить музыку, управлять умным домом, ставить напоминания — и многое другое. А ещё это первая колонка с Алисой, управлять которой можно жестами.

                Сегодня мы расскажем читателям Хабра несколько историй об этапах создания Станции Мини. От калибровки оптики и UX-тестирования до неочевидных особенностей работы с электропитанием. А ещё вы узнаете, что такое терменвокс и как он связан с устройством Яндекса.


                Читать дальше →
              • Умный дом с Алисой. Яндекс открывает платформу для всех разработчиков



                  Мы верим, что в будущем люди будут управлять своим домом с помощью голоса, а не кнопок. Поэтому сегодня Яндекс представляет платформу умного дома, которая позволит зажечь свет, убавить температуру на кондиционере, переключить телевизор на другой канал или даже сварить кофе — с помощью Алисы.

                  Платформа открыта: подключиться к ней могут как крупные производители умных устройств, так и разработчики, автоматизирующие свои дома. Сегодня мы не будем пересказывать документацию, но расскажем читателям Хабра об архитектуре нашей платформы и подскажем устройства, которые уже её поддерживают.

                  Читать дальше →
                • Яндекс присоединился к защите Linux и IT-индустрии от патентного троллинга

                    Мы верим, что жизни миллионов пользователей меняются к лучшему только тогда, когда идея превращается в готовый продукт, а не используется для шантажа и ограничений. Поэтому Яндекс вступил в альянсы Open Invention Network и LOT Network, объединяющие тысячи разработчиков для совместной защиты от злоупотреблений патентным правом.

                    В этой статье мы расскажем, почему Яндекс патентует свои разработки. Вы узнаете, зачем патентовать технологии с открытым исходным кодом и в чём суть альянсов, в которые мы вступаем. А ещё мы приглашаем всех читателей Хабра в комментарии для обсуждения достоинств и недостатков современной патентной системы.



                    Читать дальше →
                  • Встречаем Яндекс.Телефон — теперь официально



                      Представляем Яндекс.Телефон — это первый смартфон, который объединяет привычные приложения Яндекса в единую экосистему, в центре которой находится Алиса.

                      Сегодня мы расскажем читателям Хабра, почему тесная связь с «железом» так важна для любого голосового помощника. Мы объясним, чем определитель номеров Яндекса отличается от простого поиска по каталогу организаций. Вспомним про машинное обучение и сравним клавиатуры. Расскажем о каталоге приложений и ответим на другие вопросы.
                      Читать дальше →
                    • Как краудсорсинговая платформа Яндекса помогает обучать беспилотники и оценивать качество сервисов

                        В работе часто встречаются долгие и однообразные задачи, для решения которых нужно много людей. Например, расшифровать несколько сотен аудиозаписей, разметить тысячи изображений или отфильтровать комментарии, число которых постоянно растет. Для этих целей можно содержать десятки штатных сотрудников. Но всех их нужно найти, отобрать, мотивировать, контролировать, обеспечить развитие и карьерный рост. А если объем работы сократится, их придется переобучать или увольнять.

                        Во многих случаях, особенно если не требуется специального обучения, такую работу могут взять на себя исполнители Толоки, краудсорсинговой платформы Яндекса. Эта система легко масштабируется: если заданий от одного заказчика станет меньше, толокеры пойдут к другому, если число задач увеличится, будут только рады.

                        Под катом – примеры того, как Толока помогает Яндексу и другим компаниям развивать свои продукты. Все заголовки кликабельны – ссылки ведут на записи докладов.



                        Читать дальше →
                        • +25
                        • 4.8k
                        • 2
                      • Яндекс.Станция. Как мы создавали первое устройство с Алисой



                          Несколько минут назад на конференции YaC 2018 мы впервые рассказали о Яндекс.Станции. Это первое мультимедийное устройство с Алисой, которое воспроизводит музыку и фильмы, рассказывает детям сказки, помогает в повседневных делах, а также поддерживает навыки от сторонних разработчиков.

                          Может показаться, что для создания подобных устройств достаточно взять голосового помощника, добавить к нему простой микрофон из смартфона и спрятать всё это в корпусе недорогой аудиоколонки. На практике перед разработчиками подобных систем стоят серьёзные технологические проблемы, о решении которых в Станции мы и расскажем сегодня читателям Хабра. Вы также узнаете, что именно представляет собой технологическая платформа Yandex.IO, на основе которой и создано устройство.
                          Читать дальше →
                        • Как пользователи учат Яндекс предупреждать о телефонном спаме

                            С телефонным спамом знакомы все, кто засветил свой номер в интернете, заполнил сомнительную анкету в офлайне или кому просто не повезло попасть в многочисленные базы. Сегодня мы расскажем читателям Хабрахабра о том, как с помощью отзывов пользователей и машинного обучения мы научили приложение Яндекс предупреждать о нежелательных звонках.



                            Звонки с незнакомых номеров – это всегда тяжелый выбор. Звонит ли это долгожданный курьер или очередной оператор с «уникальным» рекламным предложением? Для решения этой проблемы существуют мобильные приложения, которые работают на базе справочников известных организаций. Отчасти они решают проблему. Но наиболее агрессивные спамеры, сомнительные коллекторы и злоумышленники в такие базы не попадают. Что делать?

                            Читать дальше →
                          • Яндекс открывает Алису для всех разработчиков. Платформа Яндекс.Диалоги (бета)

                              Сегодня мы начинаем открытое бета-тестирование платформы Яндекс.Диалоги, с помощью которой любой разработчик сможет обучить Алису новым навыкам и привлечь пользователей к своим сервисам и разработкам. В этом посте мы не будем пересказывать всю документацию, но дадим общее представление о работе платформы на примере самой популярной игры для Алисы.



                              Голосовой помощник Алиса, о котором мы впервые рассказывали на Хабре осенью прошлого года, уже работает в приложении Яндекс, Яндекс.Браузере, а также в бета-версии для Windows. Каждый день миллионы пользователей этих продуктов решают с помощью голосового помощника определённые задачи – например, узнают прогноз погоды. Мы регулярно добавляем новые возможности, но охватить все интересы пользователей самостоятельно невозможно. Заполнить этот пробел призваны навыки Алисы, об особенностях создания которых мы и расскажем под катом.

                              Читать дальше →
                            • Как мы создавали менеджер паролей со стойкой криптографией и мастер-паролем. Опыт команды Яндекс.Браузера

                                Как ни странно, но только 1% пользователей браузера используют специализированные расширения для хранения паролей (LastPass, KeePass, 1Password, ...). Безопасность паролей всех остальных пользователей зависит от браузера. Cегодня мы расскажем читателям Хабрахабра, почему наша команда отказалась от архитектуры защиты паролей из проекта Chromium и как разработала собственный менеджер паролей, который уже тестируется в бете. Вы также узнаете, как мы решили проблему сброса мастер-пароля без расшифровки самих паролей.



                                С точки зрения безопасности, на каждом сайта рекомендуется использовать свой уникальный пароль. Если злоумышленники украдут один пароль, то только к одному сайту они и получат доступ. Проблема в том, что запомнить десятки надёжных паролей очень сложно. Кто-то честно придумывает новые пароли и записывает их руками в блокнот (а потом теряет вместе с ним же), другие – используют один и тот же пароль на всех сайтах. Трудно сказать, какой из этих вариантов хуже. Решением проблемы для миллионов обычных пользователей может быть встроенный в браузер менеджер паролей, но его эффективность зависит от того, насколько он прост и надёжен. И в этих вопросах у предыдущего решения были пробелы, о которых мы и расскажем ниже.

                                Читать дальше →
                              • Эволюция вредоносных расширений: от любительских поделок до стеганографии. Опыт команды Яндекс.Браузера

                                  Расширения – это отличный инструмент для добавления новых возможностей в браузер. А еще с их помощью тайно встраивают рекламу, воруют данные, рассылают спам и даже майнят криптовалюты. Сегодня мы поделимся с вами нашим опытом борьбы с подобными расширениями, вы узнаете об основных каналах распространения сомнительных разработок и о способах маскировки вредоносной сущности от модераторов и сканеров.



                                  Яндекс.Браузер изначально поддерживал установку расширений для Chromium, но в первое время индустрия заработка на дополнениях еще только зарождалась, поэтому особых проблем не было. Вредоносные образцы, конечно же, встречались: мы либо сами находили их вручную, либо узнавали о них из обращений в поддержку. Уникальные идентификаторы (ID) таких разработок вносились в черный список на сервере, к которому через API обращался Яндекс.Браузер и блокировал установку потенциально опасных расширений. Причем сами расширения очень редко маскировались: все их возможности почти всегда были явно описаны на HTML и JS без попыток что-либо скрыть. Но потом все изменилось.

                                  Читать дальше →
                                • Алиса. Как Яндекс учит искусственный интеллект разговаривать с людьми

                                    В будущем, как нам кажется, люди будут взаимодействовать с устройствами с помощью голоса. Уже сейчас приложения распознают точные голосовые команды, заложенные в них разработчиками, но с развитием технологий искусственного интеллекта они научатся понимать смысл произвольных фраз и даже поддерживать разговор на любые темы. Сегодня мы расскажем читателям Хабра о том, как мы приближаем это будущее на примере Алисы – первого голосового помощника, который не ограничивается набором заранее заданных ответов и использует для общения нейронные сети.



                                    Несмотря на кажущуюся простоту, голосовой помощник – один из самых масштабных технологических проектов Яндекса. Из этого поста вы узнаете, с какими сложностями сталкиваются разработчики голосовых интерфейсов, кто на самом деле пишет ответы для виртуальных помощников, и что общего у Алисы с искусственным интеллектом из фильма «Она».

                                    Читать дальше →
                                  • Как Яндекс научил искусственный интеллект понимать смысл документов

                                      Сегодня мы расскажем о новой поисковой технологии «Королёв», которая включает в себя не только более глубокое применение нейронных сетей для поиска по смыслу, а не по словам, но и значительные изменения в архитектуре самого индекса.



                                      Но зачем вообще понадобились технологии из области искусственного интеллекта, если еще лет двадцать назад мы прекрасно находили в поиске искомое? Чем «Королёв» отличается от прошлогоднего алгоритма «Палех», где также использовались нейронные сети? И как архитектура индекса влияет на качество ранжирования? Специально для читателей Хабра мы ответим на все эти вопросы. И начнем с самого начала.

                                      Читать дальше →
                                    • Яндекс открывает технологию машинного обучения CatBoost

                                        Сегодня Яндекс выложил в open source собственную библиотеку CatBoost, разработанную с учетом многолетнего опыта компании в области машинного обучения. С ее помощью можно эффективно обучать модели на разнородных данных, в том числе таких, которые трудно представить в виде чисел (например, виды облаков или категории товаров). Исходный код, документация, бенчмарки и необходимые инструменты уже опубликованы на GitHub под лицензией Apache 2.0.



                                        CatBoost – это новый метод машинного обучения, основанный на градиентном бустинге. Он внедряется в Яндексе для решения задач ранжирования, предсказания и построения рекомендаций. Более того, он уже применяется в рамках сотрудничества с Европейской организацией по ядерным исследованиям (CERN) и промышленными клиентами Yandex Data Factory. Так чем же CatBoost отличается от других открытых аналогов? Почему бустинг, а не метод нейронных сетей? Как эта технология связана с уже известным Матрикснетом? И причем здесь котики? Сегодня мы ответим на все эти вопросы.

                                        Читать дальше →
                                      • Стабильный доход без вложений, или Как Яндекс начал охоту на фальшивый заработок

                                          Бывает так, что решая одну проблему, выявляешь совсем другую, куда более крупную. Сегодня я расскажу историю о том, как желание оценить эффективность работы антифишинга карт привело нас к стабильному заработку на дому началу борьбы с самой простой, но наиболее распространенной формой фрода.



                                          В прошлом году мы запустили новую версию Яндекс.Браузера с защитой банковских карт от фишинга. Помимо прочих проверок, эта технология оценивает наличие SSL-сертификата. Если пользователь вводит номер карты на HTTP-сайте, то браузер его предупреждает. Логика простая: банки, платежные системы и магазины, которые заботятся о безопасности пользователей, уже давно работают по HTTPS. Это не единственный механизм выявления подозрительных сайтов, но в контексте поста нам будет интересен именно он.

                                          Когда наша команда начала разбираться в анонимных логах срабатывания защиты, то ожидала увидеть там в основном фишеров или странные сайты, которые до сих пор не понимают, зачем нужно использовать шифрование при работе с конфиденциальными данными пользователей. Но увидели мы там совсем другие сайты.
                                          Читать дальше →
                                        • Борьба с перехватом HTTPS-трафика. Опыт Яндекс.Браузера

                                            Согласно исследованию сотрудников Mozilla, Google, Cloudflare и ряда университетов, от 4 до 11% защищенных соединений «прослушиваются» в результате установки сомнительных корневых сертификатов на компьютерах пользователей, которые даже и не догадываются о риске. Сегодня я расскажу о том, как наша команда привлекает внимание к этой проблеме с помощью Яндекс.Браузера.



                                            Вряд ли на Хабре стоит подробно рассказывать об SSL-сертификатах и тех задачах, которые они решают, но на всякий случай коротко напомним о главном (вы можете просто пропустить пару абзацев, если хорошо представляете принципы работы). Получить закрытый замочек в адресной строке браузера сейчас легко и быстро может любой сайт, поэтому сертификат это ни в коей мере не признак «надежности» сайта, несмотря на соответствующую маркировку в Chromium. Тем не менее он выполняет важную функцию защиты наших с вами данных от перехвата. Администратору сети или злоумышленнику, получившему доступ к трафику, нужно еще придумать способ для расшифровки потока, что обычно сделать затруднительно при стойкой криптографии и отсутствии ключа.

                                            Читать дальше →