Предлагаем вашему вниманию вторую часть учебного курса, посвящённого информационному поиску.
Все пользователи интернета имеют опыт работы с поисковыми системами, регулярно вводят туда запросы и получают результаты. Поисковые системы стали настолько привычными, что уже сложно себе представить, что когда-то их не было, а качество современного поиска воспринимается как данность, хотя ещё пятнадцать лет назад всё было совершенно иначе. Однако современная поисковая система является сложнейшим программно-аппаратным комплексом, создателям которого пришлось решить огромное количество практических проблем, начиная от большого объёма обрабатываемых данных и кончая нюансами восприятия человеком поисковой выдачи.
В нашем курсе мы рассказываем об основных методах, применяемых при создании поисковых систем. Некоторые из них — хороший пример смекалки, некоторые показывают, где и как может применяться современный математический аппарат.
Список лекций:
- Лингвистика. Основы обработки текстов
- Коллокации, N-граммы, скрытые марковские цепи
- Текстовое ранжирование. Языковые модели
- Оценка качества поиска. Сплиты. Асессоры
- Ссылочное ранжирование
- Поведенческое ранжирование
- Машинное обучение в ранжировании. Часть 1
- Learning to Rank 2
- Поиск с использованием нейронных сетей
- Хитрые модели текстового ранжирования
- Мультимедиа-поиск
Курс ведут:
- Дмитрий Соловьёв, ведущий разработчик группы ранжирования Поиска Mail.Ru;
- Константин Зелепукин, разработчик группы поиска по мультимедиа Поиска Mail.Ru;
- Евгений Чернов, руководитель отдела анализа запросов Поиска Mail.Ru;
- Алексей Воропаев, руководитель группы разработки рекомендательных систем Поиска Mail.Ru;
- Владимир Гулин, руководитель разработки Поиска Mail.Ru.
Лекция 1. Лингвистика. Основы обработки текстов
Из первой лекции вы узнаете об этапах ранжирования, основных терминах. Познакомитесь с основными этапами лингвистической обработки документа, нормализацией и токенизацией. Рассматривается задача обработки запросов, преобразования кодировки, извлечения объектов. Обсуждаются проблемы определения языка документа, определения синонимов, расширения запросов, усечения окончаний. Рассматривается лемматизация, а также ряд других задач лингвистической обработки текстов.
Лекция 2. Коллокации, N-граммы, скрытые марковские цепи
Во второй лекции рассматриваются такие темы, как коллокации, методы нахождения в текстах, N-граммы, Марковские модели для обработки текстов, скрытые Марковские модели и тегирование.
Лекция 3. Текстовое ранжирование. Языковые модели
Вы узнаете, что такое ранжированный поиск, познакомитесь с векторной и вероятностной моделями ранжирования, а также латентными моделями.
Лекция 4. Оценка качества поиска. Сплиты. Асессоры
Рассматривается постановка задачи оценки качества поиска, обсуждаются типы метрик, стандартные коллекции. Вы узнаете о методике оценки бинарного и ранжирующего поиска, познакомитесь с маркерными тестами и асессорами. Также в лекции затрагиваются темы Discounted Cumulative Gain, А/Б-тестирования и сплитов.
Лекция 5. Ссылочное ранжирование
Лекция начинается с исторического экскурса в возникновение ссылочного ранжирования. Задаётся проблематика разнообразия поисковых запросов, по которым необходимо провести ранжирование. Вы узнаете, как индексируется анкорный текст, что такое ссылочный граф и как его строить, познакомитесь с алгоритмом HITS. Немалая часть лекции посвящена большой задаче вычисления PageRank. И в завершение затрагивается тема вычисления SiteRank.
Лекция 6. Поведенческое ранжирование
Из лекции вы узнаете, где брать информацию о поведении пользователей, как можно применять эти данные. Рассматривается задача и методики построения модели поведения пользователя, анализа поисковых сессий. Обсуждаются поведенческие модели: CTR, базовая, каскадная, DCM, UBM, CCM, GCM, CRA, PRM, MEM, JRE. Проводится сравнение разных моделей, разбираются их преимущества и недостатки. Рассматривается проблема релеватности и привлекательности поисковой выдачи для пользователя с помощью Dynamic Bayesian Network. Затрагиваются вопросы вычисления ClickRank, Browser Rank, и напоследок — отслеживание движения глаз пользователя при просмотре страницы.
Лекция 7. Машинное обучение в ранжировании. Часть 1
Задаётся терминология и ставится сама задача на проведение ранжирования. Рассматриваются необходимые для проведения ранжирования факторы. Разбирается алгоритм ранжирования DCG, подходы pointwise и pairwise. Обсуждается линейная модель ранжирования SVM, методики RankNet и LambdaRank. Рассматриваются проблемы переобучения алгоритмов, положительной обратной связи и шумных данных. Далее поднимается тема активного машинного обучения: Density Sampling, самоорганизующиеся карты, балансировка датасетов с помощью SOM-карты, алгоритм Query-by-Bagging.
Лекция 8. Машинное обучение в ранжировании. Часть 2
В продолжение предыдущей лекции рассматривается алгоритм ранжирования YetiRank, проводится сравнение с ранее рассмотренным алгоритмом LambdaRank. Далее вы узнаете от так называемом Listwise-подходе к ранжированию: рассказывается об алгоритмах SoftRank, AdaRank и ListNet. В заключение проводится сравнение трёх подходов: Pointwise, Pairwise и Listwise.
Лекция 9. Поиск с использованием нейронных сетей
Лекция посвящена вопросу поиска информации по фотографиям лиц. Описывается проблематика поиска, рассматривается методика подготовки фотографий к анализу, и различные подходы к анализу с помощью нейронных сетей.
Лекция 10. Хитрые модели текстового ранжирования
Рассматриваются недостатки классических моделей текстового ранжирования, недостатки LSA и Word2vec. Далее обсуждаются модели ранжирования без учителя: Doc2vec, семантическое хэширование. Затем рассказывается о моделях ранжирования, основанных на машинном переводе: объясняется, что такое статистический машинный перевод, как выполняется обработка текста, рассматривается алгоритм WTM, машинный перевод на основе слов и фраз. Заключительная часть лекции посвящена моделям ранжирования на основе нейросетей: обсуждается нейросеть Siamese, рассматриваются модели DPM, DSSM и CLSM.
Лекция 11. Мультимедиа-поиск
Лекция состоит из двух частей. Первая часть посвящена поиску по аннотациям, по картинкам, по аудио и видео. Вторая часть посвящена поиску по содержимому, тоже по картинкам и аудио.
Плейлист всех лекций находится по ссылке. Напомним, что актуальные лекции и мастер-классы о программировании от наших IT-специалистов в проектах Технопарк, Техносфера и Технотрек по-прежнему публикуются на канале Технострим.
Другие курсы Техносферы на Хабре:
- Инфопоиск. Часть 1
- Программирование на Go
- Подготовительный курс «Алгоритмы и структуры данных»
- Введение в анализ данных
Информацию обо всех наших образовательных проектах вы можете найти в недавней статье.