Pull to refresh
VK
Building the Internet

Лекции Техносферы. Инфопоиск. Часть 2 (весна 2017)

Reading time 4 min
Views 7.4K

image


Предлагаем вашему вниманию вторую часть учебного курса, посвящённого информационному поиску.


Все пользователи интернета имеют опыт работы с поисковыми системами, регулярно вводят туда запросы и получают результаты. Поисковые системы стали настолько привычными, что уже сложно себе представить, что когда-то их не было, а качество современного поиска воспринимается как данность, хотя ещё пятнадцать лет назад всё было совершенно иначе. Однако современная поисковая система является сложнейшим программно-аппаратным комплексом, создателям которого пришлось решить огромное количество практических проблем, начиная от большого объёма обрабатываемых данных и кончая нюансами восприятия человеком поисковой выдачи.


В нашем курсе мы рассказываем об основных методах, применяемых при создании поисковых систем. Некоторые из них — хороший пример смекалки, некоторые показывают, где и как может применяться современный математический аппарат.


Список лекций:


  1. Лингвистика. Основы обработки текстов
  2. Коллокации, N-граммы, скрытые марковские цепи
  3. Текстовое ранжирование. Языковые модели
  4. Оценка качества поиска. Сплиты. Асессоры
  5. Ссылочное ранжирование
  6. Поведенческое ранжирование
  7. Машинное обучение в ранжировании. Часть 1
  8. Learning to Rank 2
  9. Поиск с использованием нейронных сетей
  10. Хитрые модели текстового ранжирования
  11. Мультимедиа-поиск

Курс ведут:


  • Дмитрий Соловьёв, ведущий разработчик группы ранжирования Поиска Mail.Ru;
  • Константин Зелепукин, разработчик группы поиска по мультимедиа Поиска Mail.Ru;
  • Евгений Чернов, руководитель отдела анализа запросов Поиска Mail.Ru;
  • Алексей Воропаев, руководитель группы разработки рекомендательных систем Поиска Mail.Ru;
  • Владимир Гулин, руководитель разработки Поиска Mail.Ru.

Лекция 1. Лингвистика. Основы обработки текстов



Из первой лекции вы узнаете об этапах ранжирования, основных терминах. Познакомитесь с основными этапами лингвистической обработки документа, нормализацией и токенизацией. Рассматривается задача обработки запросов, преобразования кодировки, извлечения объектов. Обсуждаются проблемы определения языка документа, определения синонимов, расширения запросов, усечения окончаний. Рассматривается лемматизация, а также ряд других задач лингвистической обработки текстов.


Лекция 2. Коллокации, N-граммы, скрытые марковские цепи



Во второй лекции рассматриваются такие темы, как коллокации, методы нахождения в текстах, N-граммы, Марковские модели для обработки текстов, скрытые Марковские модели и тегирование.


Лекция 3. Текстовое ранжирование. Языковые модели



Вы узнаете, что такое ранжированный поиск, познакомитесь с векторной и вероятностной моделями ранжирования, а также латентными моделями.


Лекция 4. Оценка качества поиска. Сплиты. Асессоры



Рассматривается постановка задачи оценки качества поиска, обсуждаются типы метрик, стандартные коллекции. Вы узнаете о методике оценки бинарного и ранжирующего поиска, познакомитесь с маркерными тестами и асессорами. Также в лекции затрагиваются темы Discounted Cumulative Gain, А/Б-тестирования и сплитов.


Лекция 5. Ссылочное ранжирование



Лекция начинается с исторического экскурса в возникновение ссылочного ранжирования. Задаётся проблематика разнообразия поисковых запросов, по которым необходимо провести ранжирование. Вы узнаете, как индексируется анкорный текст, что такое ссылочный граф и как его строить, познакомитесь с алгоритмом HITS. Немалая часть лекции посвящена большой задаче вычисления PageRank. И в завершение затрагивается тема вычисления SiteRank.


Лекция 6. Поведенческое ранжирование



Из лекции вы узнаете, где брать информацию о поведении пользователей, как можно применять эти данные. Рассматривается задача и методики построения модели поведения пользователя, анализа поисковых сессий. Обсуждаются поведенческие модели: CTR, базовая, каскадная, DCM, UBM, CCM, GCM, CRA, PRM, MEM, JRE. Проводится сравнение разных моделей, разбираются их преимущества и недостатки. Рассматривается проблема релеватности и привлекательности поисковой выдачи для пользователя с помощью Dynamic Bayesian Network. Затрагиваются вопросы вычисления ClickRank, Browser Rank, и напоследок — отслеживание движения глаз пользователя при просмотре страницы.


Лекция 7. Машинное обучение в ранжировании. Часть 1



Задаётся терминология и ставится сама задача на проведение ранжирования. Рассматриваются необходимые для проведения ранжирования факторы. Разбирается алгоритм ранжирования DCG, подходы pointwise и pairwise. Обсуждается линейная модель ранжирования SVM, методики RankNet и LambdaRank. Рассматриваются проблемы переобучения алгоритмов, положительной обратной связи и шумных данных. Далее поднимается тема активного машинного обучения: Density Sampling, самоорганизующиеся карты, балансировка датасетов с помощью SOM-карты, алгоритм Query-by-Bagging.


Лекция 8. Машинное обучение в ранжировании. Часть 2



В продолжение предыдущей лекции рассматривается алгоритм ранжирования YetiRank, проводится сравнение с ранее рассмотренным алгоритмом LambdaRank. Далее вы узнаете от так называемом Listwise-подходе к ранжированию: рассказывается об алгоритмах SoftRank, AdaRank и ListNet. В заключение проводится сравнение трёх подходов: Pointwise, Pairwise и Listwise.


Лекция 9. Поиск с использованием нейронных сетей



Лекция посвящена вопросу поиска информации по фотографиям лиц. Описывается проблематика поиска, рассматривается методика подготовки фотографий к анализу, и различные подходы к анализу с помощью нейронных сетей.


Лекция 10. Хитрые модели текстового ранжирования



Рассматриваются недостатки классических моделей текстового ранжирования, недостатки LSA и Word2vec. Далее обсуждаются модели ранжирования без учителя: Doc2vec, семантическое хэширование. Затем рассказывается о моделях ранжирования, основанных на машинном переводе: объясняется, что такое статистический машинный перевод, как выполняется обработка текста, рассматривается алгоритм WTM, машинный перевод на основе слов и фраз. Заключительная часть лекции посвящена моделям ранжирования на основе нейросетей: обсуждается нейросеть Siamese, рассматриваются модели DPM, DSSM и CLSM.


Лекция 11. Мультимедиа-поиск



Лекция состоит из двух частей. Первая часть посвящена поиску по аннотациям, по картинкам, по аудио и видео. Вторая часть посвящена поиску по содержимому, тоже по картинкам и аудио.




Плейлист всех лекций находится по ссылке. Напомним, что актуальные лекции и мастер-классы о программировании от наших IT-специалистов в проектах Технопарк, Техносфера и Технотрек по-прежнему публикуются на канале Технострим.


Другие курсы Техносферы на Хабре:



Информацию обо всех наших образовательных проектах вы можете найти в недавней статье.

Tags:
Hubs:
+33
Comments 0
Comments Leave a comment

Articles

Information

Website
vk.com
Registered
Founded
Employees
5,001–10,000 employees
Location
Россия
Representative
Миша Берггрен