Pull to refresh

Сотрудники Яндекса победили в конкурсе на лучший поиск

Яндекс corporate blog

В 2009 году Яндекс провел очередной конкурс «Интернет-математика 2009». Задачей, предложенной к решению на конкурсе, было получить функцию ранжирования документов на основе обучающего множества (запросы и соответствующие документы с выставленными оценками релевантности).

Тогда мы даже не догадывались, что этот конкурс вызовет широкий отклик и получит мировую известность, и что компания Yahoo! создаст свой собственный конкурс — по образу и подобию нашего. Там проводятся два соревнования (дорожки), для которых Yahoo! предоставила два набора данных (большой и маленький), которые в реальной системе используются для обучения ранжирования.

Условия таких конкурсов конечно отличаются от реальных условий — например, потому что полученная функция ранжирования может оказаться неприемлемо сложной и вычисляться слишком долго для того, чтобы ее могла использовать поисковая система, которой ищут живые люди. Тем не менее, этот конкурс очень интересен, ведь в нем используются самые передовые технологии и участвуют самые сильные команды исследователей. Он интересен еще и тем, что дает возможность сравнить разные технологии, разные алгоритмы ранжирования, в том числе и совершенно новые, и закрытые. Ну и конечно, как и во всяком конкурсе, в нем есть немалый элемент везения.

Нам приятно видеть среди победителей конкурса Yahoo! сотрудников Яндекса. В обеих дорожках их немало. А Игорь Куралёнок и Андрей Гулин даже заняли первое место во второй дорожке!

Нам кажется, что это служит подтверждением того, что, во-первых, у нас работают великолепные специалисты в области поиска, во-вторых, что инструменты и алгоритмы, которыми они пользуются (Игорь и Андрей, например, использовали исследовательский вариант «Матрикснета», — самого высокого мирового уровня).

Игорь, Андрей, поздравляем вас!

Илья Сегалович, болельщик

Читать дальше →
Total votes 65: ↑49 and ↓16 +33
Views 5.5K
Comments 25

Яндекс и ЦЕРН: новый этап сотрудничества

Яндекс corporate blog Algorithms *
Сегодня Яндекс присоединился к ЦЕРНу. Наше партнёрство с Европейским центром ядерных исследований переходит на новую стадию развития: у ученых из ЦЕРНа появится доступ к технологии машинного обучения Матрикснет от Яндекса, а также новым вычислительным мощностям. А Яндекс становится ассоциированным членом европейского Центра ядерных исследований в рамках проекта CERN openlab. Кроме него членами openlab являются Intel, HP, Oracle, Siemens и Huawei.

Сотрудничество Яндекса с Центром началось в 2011 году, когда мы впервые предоставили ЦЕРНу свои серверные мощности. А в апреле прошлого года наши разработчики создали поиск по событиям эксперимента LHCb. LHCb — один из четырёх основных экспериментов ЦЕРНа и один из примеров того, насколько важными в современной науке стали не только данные опытов, но и их обработка. В ходе опытов LHCb исследуются соударения b-кварка (b от английского beauty, по-русски его называют прелестным). Объём информации об этих событиях только за год достигает тысяч терабайт. Благодаря созданнному нами поисковому индексу у учёных ЦЕРНа появилась возможность мгновенно получать нужную информацию.

В современной фундаментальной науке важную роль стали играть не только технические ресурсы для проведения опытов, но и вычислительные возможности для обработки и понимания их результатов. В наши дни, особенно в ЦЕРНе, данных становится так много, что без применения сложных алгоритмов даже учёному будет сложно делать точные выводы о результатах опытов. Технологии, которые можно применять для таких целей, имеет совсем небольшое количество компаний.



Мы расспросили Андрея Устюжанина, руководителя проекта партнёрства с ЦЕРНом в Яндексе, о подробностях того, для чего именно ЦЕРНу нужна помощь Яндекса и как устроена работа с данными экспериментов. Смотрите видео и читайте более подробную текстовую версию после ката.
Читать дальше →
Total votes 110: ↑100 and ↓10 +90
Views 33K
Comments 21

Ранжирование в Яндексе: как поставить машинное обучение на поток (пост #1)

Яндекс corporate blog Data Mining *Big Data *
Сегодня мы начинаем публиковать серию постов о машинном обучении и его месте в Яндексе, а также инструментах, которые избавили разработчиков поисковой системы от рутинных действий и помогли сфокусироваться на главном — изобретении новых подходов к улучшению поиска. Основное внимание мы уделим применению этих средств для улучшения формулы релевантности, и более широко — для качества ранжирования.

image
Читать дальше →
Total votes 63: ↑56 and ↓7 +49
Views 49K
Comments 53

Ранжирование в Яндексе: как поставить машинное обучение на поток (пост #2)

Яндекс corporate blog Data Mining *Big Data *
Мы продолжаем серию публикаций о нашем фреймворке FML, который автоматизировал работу с машинным обучением и позволил разработчикам Яндекса использовать его в своих задачах проще и чаще. Предыдущий пост рассказывал о том, что такое функция ранжирования и как мы научились строить её, имея на входе лишь достаточно большое число оценок от асессоров и достаточно разнообразный набор признаков (факторов) документов по большому количеству запросов.

Из этого поста вы узнаете:
  1. Почему нам нужно подбирать новую формулу ранжирования очень часто, и как именно нам в этом помогает FML;
  2. Как мы разрабатываем новые факторы и оцениваем их эффективность.

image
Читать дальше →
Total votes 55: ↑52 and ↓3 +49
Views 24K
Comments 14

Ранжирование в Яндексе: как поставить машинное обучение на поток (пост #3)

Яндекс corporate blog Data Mining *Big Data *
Сегодня мы завершаем серию публикаций о фреймворке FML, в которых рассказываем о том, как и для чего автоматизировали в Яндексе применение технологий машинного обучения. В сегодняшнем посте мы расскажем:
  • почему нужно следить за качеством факторов и как мы это делаем;
  • как FML помогает в задачах распределённых вычислений над поисковым индексом;
  • каким образом и для чего наши технологии машинного обучения уже применяются и могут быть применены как в Яндексе, так и вне его;
  • какую литературу можно посоветовать для более глубокого погружения в затронутую проблематику.

image
Читать дальше →
Total votes 36: ↑35 and ↓1 +34
Views 18K
Comments 3

Яндекс в новом эксперименте ЦЕРНа: как найти тёмную материю всего за 13 лет

Яндекс corporate blog
Несмотря на то, что физиков иногда пытаются представить консервативными, на деле они только и ждут того, чтобы найти что-то, что выходит за пределы нынешнего понимания природы. Но у них давно такого не получалось.

В очередной раз надежды на обновление Стандартной модели разрушились после того, как в ЦЕРНе нашли бозон Хиггса. И несмотря на то, что, по мнению Стивена Хокинга, это открытие сделало физику скучнее, проблемы, которые Стандартная модель объяснить не может, всё еще остаются. Одна из них — какая частица может стать кандидатом на тёмную материю? Как вы знаете, она содержится во Вселенной, но увидеть её мы не можем.

И вот учёные в ЦЕРНе начинают новый эксперимент — SHiP (Search for Hidden Particles). Если такие частицы обнаружат, то Стандартную модель можно расширить. Это будет означать, что наше представление о структуре и эволюции Вселенной может поменяться. А учёные вполне могут претендовать на Нобелевскую премию. Проводить астрофизические исследования для SHiP будет космический телескоп Astro-H. Яндекс для этого эксперимента не только предоставит ЦЕРНу свои технологии машинного обучения: студенты и исследователи Школы анализа данных Яндекса будут работать совместно с его учёными.

Сотрудничество Яндекса и ЦЕРНа началось в 2011 году, когда мы предоставили ему свои сервера. В 2012 году мы разработали для организации поисковый сервис, который использовался в рамках одного из четырех основных экспериментов ЦЕРНа на Большом адронном коллайдере — Large Hadron Collider beauty experiment (LHCb). В 2013 году ученые-физики получили возможность использовать нашу собственную технологию машинного обучения — Матрикснет. Тогда же Яндекс стал ассоциированным членом европейского Центра ядерных исследований в рамках проекта CERN openlab.



Два года назад в Яндексе выступал Андрей Голутвин, научный консультант директора ЦЕРНа. Это было ровно за день до того, как было официально объявлено об обнаружении бозона Хиггса. А на прошлой неделе Андрей на специальном семинаре рассказал о новом эксперименте SHiP, в котором уже на этапе планирования предполагается использование технологий и знаний Яндекса. Лекция состоит из пяти частей:

  • зачем нужен эксперимент SHiP,
  • проблемы Стандартной модели,
  • как устроен детектор и что он должен измерить,
  • как создаётся международная коллаборация для создания и проведения большого эксперимента,
  • основные этапы эксперимента,
  • что коллаборация SHiP ожидает от Яндекса.

Подробная расшифровка — под катом.
Читать дальше →
Total votes 94: ↑90 and ↓4 +86
Views 28K
Comments 33

Яндекс открывает новое направление своей деятельности — Yandex Data Factory

Яндекс corporate blog Data Mining *Big Data *
Только что в Париже на конференции LeWeb Яндекс объявил об открытии нового важного направления своей деятельности — по коммерческой обработке больших данных — Yandex Data Factory.

Мы верим, что обработка больших данных — это часть нового витка технической революции, который сделает всё человечество ещё более эффективным и приведёт нас к будущему, которое мы сейчас ещё даже не можем до конца представить. И в нём работа с большими объёмами данных будет не менее важной и распространённой, чем выработка электричества или железные дороги сегодня.



Перед публичным запуском Yandex Data Factory мы провели несколько пилотных проектов с компаниями-партнёрами. Для компании, обслуживающей линии электропередач, в Yandex Data Factory создали систему, которая анализирует сделанные беспилотниками снимки и автоматически выявляет угрозы: например, деревья, растущие слишком близко к проводам. А для автодорожного агентства проанализировали данные о загруженности дорог, качестве покрытия, средней скорости движения транспорта и аварийности. Это позволило в режиме реального времени составлять прогноз заторов на дорогах на ближайший час и выявлять участки с высокой вероятностью ДТП.
Читать дальше →
Total votes 95: ↑84 and ↓11 +73
Views 56K
Comments 32

Будущее браузеров и искусственный интеллект. Дзен в Яндекс.Браузере

Яндекс corporate blog Browsers Machine learning *
В будущем, как нам кажется, все популярные браузеры выйдут за рамки программ для открытия веб-страниц и научатся лучше понимать людей, которые ими пользуются. Сегодня я расскажу вам, каким мы видим это будущее на примере персональной ленты Дзен в Яндекс.Браузере, которая теперь доступна пользователям Windows, Android и iOS.



Несмотря на кажущуюся простоту, в основе Дзена лежат довольно сложные технологии. Я расскажу немного о том, как это реализовано у нас, где и почему мы использовали традиционное машинное обучение, а где — нейронные сети и искусственный интеллект, и буду благодарен за ваше мнение об этом подходе.

Читать дальше →
Total votes 63: ↑55 and ↓8 +47
Views 59K
Comments 111

Поиск Яндекса с инженерной точки зрения. Лекция в Яндексе

Яндекс corporate blog Search engines *Algorithms *Industrial Programming *Machine learning *
Сегодня мы публикуем ещё один из докладов, прозвучавших на летней встрече об устройстве поиска Яндекса. Выступление руководителя отдела ранжирования Петра Попова получилось в тот день самым доступным для широкой аудитории: минимум формул, максимум общих понятий о поиске. Но интересно было всем, потому что Пётр несколько раз переходил к деталям и в итоге рассказал много такого, о чём Яндекс никогда раньше публично не заявлял.

Кстати, одновременно с публикацией этой расшифровки начинается вторая встреча из серии, посвящённой технологиям Яндекса. Сегодняшнее мероприятие — уже не про поиск, а про инфраструктуру. Вот ссылка на трансляцию.


Ну а под катом — лекция Петра Попова и часть слайдов.

Total votes 61: ↑60 and ↓1 +59
Views 22K
Comments 5

Яндекс открывает технологию машинного обучения CatBoost

Яндекс corporate blog Search engines *Open source *Python *Machine learning *
Сегодня Яндекс выложил в open source собственную библиотеку CatBoost, разработанную с учетом многолетнего опыта компании в области машинного обучения. С ее помощью можно эффективно обучать модели на разнородных данных, в том числе таких, которые трудно представить в виде чисел (например, виды облаков или категории товаров). Исходный код, документация, бенчмарки и необходимые инструменты уже опубликованы на GitHub под лицензией Apache 2.0.



CatBoost – это новый метод машинного обучения, основанный на градиентном бустинге. Он внедряется в Яндексе для решения задач ранжирования, предсказания и построения рекомендаций. Более того, он уже применяется в рамках сотрудничества с Европейской организацией по ядерным исследованиям (CERN) и промышленными клиентами Yandex Data Factory. Так чем же CatBoost отличается от других открытых аналогов? Почему бустинг, а не метод нейронных сетей? Как эта технология связана с уже известным Матрикснетом? И причем здесь котики? Сегодня мы ответим на все эти вопросы.

Total votes 216: ↑215 and ↓1 +214
Views 99K
Comments 128

Введение в разработку CatBoost. Доклад Яндекса

Яндекс corporate blog Open source *Python *C++ *Machine learning *
Меня зовут Стас Кириллов, я ведущий разработчик в группе ML-платформ в Яндексе. Мы занимаемся разработкой инструментов машинного обучения, поддержкой и развитием инфраструктуры для них. Ниже — мой недавний доклад о том, как устроена библиотека CatBoost. В докладе я рассказал о входных точках и особенностях кода для тех, кто хочет его понять или стать нашим контрибьютором.


— CatBoost у нас живет на GitHub под лицензией Apache 2.0, то есть открыт и бесплатен для всех. Проект активно развивается, сейчас у нашего репозитория больше четырех тысяч звездочек. CatBoost написан на C++, это библиотека для градиентного бустинга на деревьях решений. В ней поддержано несколько видов деревьев, в том числе так называемые «симметричные» деревья, которые используются в библиотеке по умолчанию.

Total votes 33: ↑30 and ↓3 +27
Views 15K
Comments 5

Андрей Себрант (Яндекс): Бизнес в Эпоху Искусственного Интеллекта

ua-hosting.company corporate blog Algorithms *Big Data *Machine learning *The future is here
Сейчас все говорят о новой революции, которую несет искусственный интеллект и машинное обучение. Умные алгоритмы проникают во все сферы жизни: от поисков бозона Хиггса, до выбора фильма на вечер. Самые передовые компании уже активно внедряют эти технологии в свои продукты и маркетинг. Персонализированные рекомендации, реклама, интерфейс сайта — все это не какая-то черная магия, а уже доступные технологии.

На отечественном рынке, без сомнения, самой передовой компанией, использующей мощь машин, является Яндекс. В своем докладе на #amoCONF директор по маркетингу сервисов Яндекс, Андрей Себрант, рассказал о наступившем будущем и возможностях, открывающихся каждой компании. Оптимизируйте ваш бизнес под тенденции будущего!

Disclaimer. Эта статья — расшифровка выступления Андрея Себранта. Есть люди, которые экономят время и любят текст, есть те, кто не может на работе или в дороге смотреть видео, но с радостью читает Хабр, есть слабослышащие, для которых звуковая дорожка недоступна или сложна для восприятия. Мы решили для всех них и вас расшифровать отличный контент. Кто всё же предпочитает видео — ссылка в конце.
Total votes 16: ↑14 and ↓2 +12
Views 6.7K
Comments 4

Как «поиметь» Google и Яндекс: чёрное и белое SEO-продвижение сайтов. Шестаков | Люди PRO #74

ua-hosting.company corporate blog Search engines *IT Infrastructure *Web analytics *Search engine optimization *
В 74-м выпуске Сергей Павлович беседует с Олегом Шестаковым, основателем и совладельцем Rush-analytics.ru и Rush-agency.ru.

Сергей Павлович (далее – СП): – Друзья, привет! Новый выпуск «Люди Pro» в эфире, и сегодня говорим о SEO, о «чёрном» SEO (прим. автора: далее – СЕО) и как поиметь «Гугл» и «Яндекс», как говорится, не снимая штанов.
Total votes 33: ↑16 and ↓17 -1
Views 28K
Comments 15