Pull to refresh

Об информационном поиске, нахождении оптимальных путей просмотра результатов поиска и многом другом

Reading time 6 min
Views 2.9K
Search engines *
Задача нахождения оптимальных путей просмотра результатов поиска является моей основной темой кандидаткой работы. Сегодня я хочу поделиться промежуточными результатами исследований, а также приложениями и SDK, которые были использованы в работе.

Решение о написании данной статьи было принято после просмотра семинара из цикла «Информационный поиск и анализ данных» на тему «Семантический анализ текстов с использованием Википедии», докладчиком которого был Максим Гринёв — доцент, старший преподаватель кафедры системного программирования, заведующий отделом ИСП РАН.

Вы можете посмотреть доклад, скачать доклад или посмотреть расписание других докладов.
Читать дальше →
Total votes 16: ↑14 and ↓2 +12
Comments 6

RuSSIR 2010: школа по информационному поиску

Reading time 1 min
Views 897
Studying in IT
13—18 сентября 2010 года в Воронеже пройдет IV Российская летняя школа по информационному поиску (RuSSIR 2010). Основная программа RuSSIR 2010 состоит из пяти курсов:

Участие в школе бесплатное, рабочие языки — английский (основной) и русский. Наряду с основательными учебными курсами у школы будет традиционно насыщенная неформальная программа.
Заявки на участие принимаются до конца недели. Спешите!
Сайт школы — http://romip.ru/russir2010/
Total votes 26: ↑23 and ↓3 +20
Comments 3

Поиск 2.0, каким он, возможно, будет

Reading time 5 min
Views 1.1K
Search engines *
Возьмем в качестве отправной точки две довольно известные цитаты:
  1. «Поисковые системы стали одним из двух новых чудес света, предоставив Homo Sapiens неограниченный и мгновенный доступ к информации.» Илья Сегалович, «Как работают поисковые системы»
  2. «Интернет похож на большую свалку: там есть все, но найти это невозможно.» Народная мудрость

Выделим три основные проблемы, с которыми приходится сталкиваться в современных поисковых машинах.
Читать дальше →
Total votes 47: ↑39 and ↓8 +31
Comments 51

Открытие RuSSIR'2011

Reading time 1 min
Views 568
Search engines *
Вчера в Санкт-Петербурге открылась 5-я юбилейная летняя школа по информационному поиску — RuSSIR'2011 при поддержке СпбГУ и РОМИП.

В этом году мы не только выступили «Золотым спонсором», но и наш эксперт — Андрей Калинин, руководитель разработки Поиска@Mail.Ru прочитает практическую лекцию на тему борьбы с поисковым спамом.

Для нас RuSSIR — это один из крупнейших образовательных проектов для студентов, аспирантов, исследователей и практиков в сфере поисковых технологий. В рамках школы проходит, как конференция, так и цикл лекций и семинаров. В этом году принимают участие более двухсот человек.

От проекта Поиск@Mail.Ru каждый участник получит набор открыток со смешными и понятными зачастую только профильным специалистам задачками по информационному поиску.

Смотрите, какие прикольные задачки:
Читать дальше →
Total votes 24: ↑16 and ↓8 +8
Comments 3

Поиск@Mail.Ru. Часть первая

Reading time 5 min
Views 32K
VK corporate blog Search engines *

«У нас есть свой поиск!»


Два года подряд все свои выступления на конференциях я начинал этой фразой, ведь даже не все специалисты по поиску знали о том, что их запросы, заданные в поисковой строке Mail.Ru с большой долей вероятности обрабатывались не лицензированным сторонним движком, а внутренней разработкой компании.

Сейчас я вижу, что ситуация изменилась: многие знают и принимают наш поисковик. Однако вопросы или сомнения всё равно остаются – ну как так, Mail.Ru Group и пишет свой поиск? Mail.Ru Group — это почта, это социальные сети, развлечения… Что за поисковик они могут написать? Вот чтобы развеять эти сомнения, я и хочу рассказать о нашем поиске, о том, как мы его делаем, какие технологии используем, что хотим получить в итоге. Я надеюсь, что предлагаемая статья будет познавательной и интересной; более того, мы собираемся продолжить рассказ о наших технологиях уже более детально, и в следующих постах поговорить о машинном обучении, спайдере, антиспаме и т.п.
Читать дальше →
Total votes 115: ↑80 and ↓35 +45
Comments 73

RuSSIR 2013: VII летняя школа по информационному поиску

Reading time 3 min
Views 7K
Высшая школа ИТИС КФУ corporate blog Search engines *
16–20 сентября 2013 года в Казани пройдет VII Российская летняя школа по информационному поиску (RuSSIR 2013).

Её организуют Казанский Федеральный Университет (КФУ) и Российский семинар по Оценке Методов Информационного Поиска (РОМИП) при участии Яндекса, Mail.ru, Google и ABBYY.

Главной темой школы в этом году будет поиск и обработка аудиоинформации. Рабочий язык — английский.



Основная программа состоит из 7 курсов:

Voice and Music Information Retrieval:
  • Spoken Content Retrieval: Challenges, Techniques and Applications — Gareth Jones (Dublin City University)
  • Content- and Context-based Music Similarity and Retrieval — Markus Schedl & Peter Knees (University of Linz)
  • Query by Singing/Humming and Audio Fingerprinting as Two Successful Paradigms of Music Information Retrieval — Jyh-Shing Roger Jang (Taiwan University)
  • Adaptivity in Audio and Music Retrieval — Andreas Nürnberger & Sebastian Stober (OVG University Magdeburg)

General Information retrieval:

Участие в школе бесплатное, но количество мест ограничено.
Как попасть?
Total votes 33: ↑33 and ↓0 +33
Comments 6

RuSSIR 2014: VIII летняя школа по информационному поиску

Reading time 3 min
Views 3.4K
Высшая школа ИТИС КФУ corporate blog Search engines *Data visualization *
18–22 августа 2014 года в Нижнем Новгороде пройдет VIII Российская летняя школа по информационному поиску «RuSSIR 2014». До этого школа проходила в Екатеринбурге, Таганроге, Петрозаводске, Воронеже, Санкт-Петербурге, Ярославле и  Казани.

В этом году её организуют Национальный исследовательский университет «Высшая школа экономики» и Российский семинар по Оценке Методов Информационного Поиска «РОМИП» при участии Яндекса, Mail.ru, Google, ABBYY и Лекториума.

Главной темой школы будет визуализация данных в задачах информационного поиска. Рабочий язык — английский.



Программа школы включает шесть основных курсов, пленарный курс и доклады спонсоров, а также конференцию молодых ученых «RuSSIR Young Scientist Conference».

Основные курсы:
  • Katja Hofmann (Microsoft Research) — Online Experimentation for Information Retrieval;
  • Alfred Inselberg (Tel Aviv University) — Visualization & Data Mining for High Dimensional Data;
  • Dmitry I. Ignatov (Higher School of Economics) — Introduction to Formal Concept Analysis and Its Applications in Information Retrieval and Related Fields;
  • Preslav Nakov (Qatar Computing Research Institute) — Web as a Corpus: Going Beyond the n-gram;
  • Sujatha Das G., Cornelia Caragea, Xiaoli Li, C. Lee Giles — Document Analysis and Retrieval in Scientific Digital Libraries;
  • Paolo Rosso (Universitat Politecnica de Valencia) — Author Profiling and Plagiarism Detection.

К участию в школе приглашаются студенты, аспиранты, исследователи и разработчики. Всего планируется принять до 120 слушателей. Участие бесплатное; для тех, кто в этом нуждается, организаторы предоставляют гранты на проживание (количество ограничено).
Как попасть?
Total votes 23: ↑20 and ↓3 +17
Comments 0

Ищем мелодию по фрагменту

Reading time 3 min
Views 20K
Sound
Приветствую, уважаемые читатели Хабра!
В этой статье хочу рассказать, как я искал музыкальное произведение по его отрывку.
Итак, поехали!
Задача передо мной стоит следующая: есть отрывок музыкального произведения, есть база музыкальных произведений, и необходимо найти, какому из имеющихся музыкальных произведений принадлежит данный отрывок.
Кому интересно, читайте под харбокатом.
Читать дальше →
Total votes 37: ↑35 and ↓2 +33
Comments 24

Извлечение упоминаний сущностей и поиск в Textocat API

Reading time 9 min
Views 16K
Textocat corporate blog Search engines *Semantics *Data Mining *API *
Textocat API — это облачный SaaS анализа текстов. Качественное извлечение полезной информации из текстов — сложная задача и требует серьезной экспертизы. Миссия команды Textocat — сделать процесс обработки текстов настолько легким для использования, чтобы его мог включить в свой арсенал любой современный разработчик. Используя Textocat API, вы можете быстро прототипировать приложения на основе текстовой аналитики и превращать их в свой бизнес. В данной публикации мы покажем, насколько легко интегрировать в любое приложение возможности Textocat API по распознаванию упоминаний сущностей (объектов) и поиску документов на русском языке.

Возможности Textocat API Beta


В начале апреля мы запустили бета-тестирование Textocat API. В этой версии мы предлагаем разработчикам бесплатно использовать часть функционала сервиса со следующими возможностями:
  • распознавание упоминаний сущностей (entity recognition) в коллекциях документов на русском языке;
  • хранение обработанных коллекций;
  • полнотекстовый поиск с учетом выделенных типов сущностей.


пример распознавания упоминаний сущностей

Читать дальше →
Total votes 24: ↑23 and ↓1 +22
Comments 66

Text Analytics as Commodity: обзор приложений текстовой аналитики

Reading time 11 min
Views 17K
Textocat corporate blog Search engines *Semantics *Data Mining *Development for e-commerce *
text analytics landscapeЕсли бы мне дали миллиард долларов на научные исследования, я бы создал большую программу в масштабе NASA по обработке естественного языка (NLP).[из Reddit AMA Майкла Джордана, 2015]. Из данной публикации вы узнаете, есть ли рынок для приложений текстовой аналитики. И не слишком ли оптимистичен заслуженный профессор М. Джордан по поводу потенциала NLP, а лучше потратить миллиард долларов на что-то другое.

Введение


Вначале определимся с терминами. Интеллектуальный анализ текста (англ., text mining) — это технологии получения структурированной информации из коллекций текстовых документов. Обычно в это понятие включают такие крупные задачи, как
  • категоризация текста
  • извлечение информации
  • информационный поиск.

Часто, когда говорят о применении интеллектуального анализа текста в бизнесе — текстовой аналитики (англ., text analytics) — имеют в виду не просто структурированную информацию, а т.н. углубленное понимание предмета анализа (insights), которое помогает в принятии бизнес-решений. Известный эксперт Сэт Граймс определяет текстовую аналитику как технологические и бизнес процессы применения алгоритмических подходов к обработке и извлечению информации из текста и получению глубокого понимания.

Принято считать, что формируется новый рынок когнитивно-вычислительных (cognitive computing) продуктов. По оценкам MarketsandMarkets глобальный рынок продуктов на основе обработки естественного языка должен составить $13.4 млрд. к 2020 году при росте в 18.4% по CAGR. Таким образом, сейчас этот рынок оценивается примерно в $5.8 млрд. В последние годы этот растущий рынок ознаменовался целым рядом громких сделок, вроде покупки Alchemy API компанией IBM. По другим оценкам, аналогичный рынок в Европе уже сейчас превосходит пол-миллиарда долларов и удвоится к 2019 году. Рынок Северной Америки составляет почти 40% глобального рынка текстовой аналитики и имеет оптимистичные оценки роста.
Читать дальше →
Total votes 6: ↑6 and ↓0 +6
Comments 2

ACM SIGIR 2015: ключевые тренды развития поисковых технологий

Reading time 8 min
Views 5.1K
Textocat corporate blog Search engines *Semantics *Data Mining *Machine learning *



С 9 по 13 августа в г. Сантьяго (Чили) прошла 38я международная научная конференция по информационному поиску ACM SIGIR. Представляем вашему вниманию основные события данного мероприятия и ключевые тренды развития области информационного поиска как с точки зрения академической среды, так и индустрии.
Читать дальше →
Total votes 11: ↑9 and ↓2 +7
Comments 6

Техносфере Mail.Ru — 2 года

Reading time 9 min
Views 7K
VK corporate blog Search engines *Programming *


Привет, Хабр! В феврале исполняется два года проекту Техносфера. За прошедший год произошло три больших изменения, повлиявших на процесс обучения. Первое из них касалось отбора студентов — технических собеседований. Раньше студент шел на техническое собеседование, не зная, какие задачи ему предложат решить. Теперь же мы отправляем студентам кейс, некую техническую задачу, решить которую нужно заранее и на месте объяснить преподавателям ее решение. После добавления кейса успеваемость резко улучшилась. Перевод на второй семестр в Техносфере составил 27 студентов из 40, то есть 67% вместо обычных 40–50%.

Во-вторых, при Техносфере создана лаборатория, в которой студенты занимаются решением практических задач Mail.Ru Group, а также внешних заказчиков. Например, они исследуют алгоритмы таргетинга для рекламных кампаний, а также пытаются создать эвристики, которые позволяют улучшить качество рекламной выдачи. По сути, лаборатория — это альтернатива стажировке в компании. В ней можно работать над решением различных практических задач с рынка, но при этом не тратить время на дорогу в офис, делая все прямо на своем факультете.

Третьим важным шагом стало решение перейти на двухгодичное обучение. В этом году мы выпустили последнюю группу ребят, которые учились по годовой программе. Предметы, которые они осваивали в течение года, были: алгоритмы интеллектуальной обработки больших объемов данных, многопоточное программирование на С/С++, СУБД, Hadoop, методы обработки больших объемов данных и информационный поиск.

Сейчас мы хотели бы поставить точку в годовой программе обучения, показав вам один из выпускных проектов по предмету «Информационный поиск». В течение семестра ребятам давались домашние задания, которые в итоге вылились в большой итоговый проект. Правила были таковы:

  • Ребята разбивались на команды по 2–3 человека.
  • Задача: сделать полноценный поиск по одному из предложенных сайтов. По задумке ваш поиск должен состоять из объединенных домашек + фронтенд + какая-нибудь плюшка, например spellchecker.
Читать дальше →
Total votes 31: ↑27 and ↓4 +23
Comments 5

Natural Language Processing — как это будет по-русски?

Reading time 4 min
Views 19K
Stepik.org corporate blog Research and forecasts in IT *Studying in IT Natural Language Processing *
Вокруг нас — огромные объемы текстовых данных в электронном виде, в них — человеческие знания, эмоции и опыт. А еще — спам, который выдает себя за полезную информацию, и надо уметь отделять одно от другого. Люди хотят общаться с теми, кто не знает их родной язык. А еще — управлять своим мобильником/телевизором/умным домом голосом. Все это обеспечивает востребованность и бурное развитие методов Natural Language Processing (NLP).

image

Читать дальше →
Total votes 32: ↑32 and ↓0 +32
Comments 4

Что должен знать о поиске каждый разработчик

Reading time 18 min
Views 24K
Alconost corporate blog Search engines *Algorithms *Big Data *Machine learning *
Tutorial
Translation

Хотите внедрить или доработать функцию поиска? Вам сюда.



Спросите разработчика: «Как бы вы реализовали функцию поиска в своем продукте?» или «Как создать поисковую систему?». Вероятно, в ответ вы услышите что-нибудь такое: «Ну, мы просто запустим кластер Elasticsearch: с поиском сегодня всё просто».

Но так ли это? Во многих современных продуктах по-прежнему не лучшим образом реализован поиск. Настоящий специалист по поисковым системам скажет вам, что лишь немногие разработчики глубоко понимают, как работает поиск, а ведь это знание часто необходимо для улучшения качества поиска.

Есть множество программных пакетов с открытым исходным кодом, проведено немало исследований, однако лишь немногие избранные понимают, как нужно делать функциональный поиск. Как ни забавно, но если поискать в Интернете связанную с реализацией поиска информацию, вы не найдете актуальных и содержательных обзоров.

Цель статьи


Этот текст можно считать собранием ценных идей и ресурсов, которые могут помочь в создании функции поиска. Статья, безусловно, не претендует на исчерпывающую полноту, однако я надеюсь, что ваши отзывы помогут ее доработать (оставляйте замечания в комментариях или свяжитесь со мной).

Основываясь на опыте работы с универсальными решениями и узкоспециализированными проектами самого разного масштаба (в компаниях Google, Airbnb и нескольких стартапах), я расскажу о некоторых популярных подходах, алгоритмах, методах и инструментах.

Недооценка и непонимание масштабов и сложности задачи поиска могут привести к тому, что у пользователей останутся плохие впечатления, разработчики потратят время впустую, а продукт провалится.

Переведено в Alconost
Читать дальше →
Total votes 10: ↑10 and ↓0 +10
Comments 0

RuSSIR 2018: 12-я летняя школа по информационному поиску

Reading time 2 min
Views 3K
Образовательные проекты JetBrains corporate blog Search engines *Semantics *Data Mining *Machine learning *
27–31 августа в Казани пройдет 12-я международная летняя школа по информационному поиску RuSSIR 2018.

В этом году её организуют Казанский федеральный университет (КФУ) и Российский семинар по оценке методов информационного поиска (РОМИП) при поддержке ACM SIGIR и BCS IRSG.



Программа включает два пленарных доклада и семь курсов, а также постер-сессию конференции молодых ученых «RuSSIR Young Scientist Conference».

Пленарные доклады:

  1. Carlos Castillo (Universitat Pompeu Fabra), «Crisis Informatics» — о том, как использовать данные из социальных сетей для борьбы с чрезвычайными ситуациями;
  2. Carlos Castillo, «The Biases of Social Data» — о подводных камнях при анализе пользовательского контента.

Курсы:

  1. Cathal Gurrin (Dublin City University), «The Information Retrieval Challenge of Lifelogs and Personal Life Archives» — об анализе персональных данных;
  2. Henning Müller (University of Geneva), «Evaluation of IR systems and multi-modal retrieval in the medical domain» — о поиске медицинских изображений;
  3. Valentin Malykh, Mikhail Burtsev (Moscow Institute of Physics and Technology), «Conversational AI through Deep Learning» — о том, как создать интеллектуального чат-бота с помощью глубокого обучения;
  4. Rishabh Mehrotra (Spotify Research), «Learning from User Interactions» — о том, как угадать потребность пользователя из его взаимодействия с онлайн-системой;
  5. Guido Zuccon (Queensland University of Technology), «Health Search» — о поиске по медицинским данным;
  6. Harrie Oosterhuis (University of Amsterdam), «Learning to Rank and Evaluation in the Online Setting» — о том, как обучить систему на основе данных о взаимодействии с пользователем;
  7. Prasenjit Mitra (Pennsylvania State University), «Retrieving Information Interactively Using Natural Language» — о том, как научить систему общаться на естественном языке.

Участие в школе бесплатное. Регистрация открыта до 10 июля.
Как попасть?
Total votes 38: ↑34 and ↓4 +30
Comments 0

Т — значит творчество

Reading time 4 min
Views 3K
«Антиплагиат» corporate blog Programming *Machine learning *Microservices *Natural Language Processing *

Пока весь мир, вместо того, чтобы нарезать салаты готовиться к встрече Нового года, следит за развитием ситуации с nginx, мы решили не усугублять и не готовить серьезную научную статью, не шокировать технологиями наступившего будущего и не грузить очень хитрым алгоритмом. Мы тоже пользуемся nginx и надеемся, что и с его создателями и с ним все будет хорошо. И нам (да и не только нам) важно, чтобы ситуация разрешилась не как подарок Деда Мороза, а как естественный ход событий.

А пока давайте просто подведем итоги уходящего 2019 года
Total votes 16: ↑12 and ↓4 +8
Comments 2

Курс “Введение в информационный поиск” и немного истории

Reading time 3 min
Views 4.1K
Образовательные проекты JetBrains corporate blog Search engines *Studying in IT

Меня зовут Павел Браславский, я научный сотрудник JetBrains Research и доцент Питерской Вышки.


Осенью прошлого года я после большого перерыва прочитал курс “Введение в информационный поиск”, на этот раз — для студентов академических программ JetBrains в Питерской Вышке и ИТМО. Comeback получил продолжение — зимой я прочитал мини-курс с обзором моделей информационного поиска и подходов к оценке для сотрудников Tinkoff, а весной — обзорную лекцию про информационный поиск в рамках курса по обработке естественного языка. В этой статье я кратко расскажу о курсе и его “исторических предпосылках”.


image

Читать дальше →
Total votes 14: ↑13 and ↓1 +12
Comments 0

Честные глаза плагиатора, или еще один взгляд на будущее систем обнаружения заимствований

Reading time 7 min
Views 4K
«Антиплагиат» corporate blog Programming *Machine learning *Microservices *Natural Language Processing *

Развивать систему, созданную 16 лет назад, «конечно, не подвиг, но вообще что-то героическое в этом есть» (с). От пользователей регулярно прилетают вопросы: что будете делать дальше? Каким будет Антиплагиат через несколько лет? Все правильно, все верно – нельзя позволять рутине себя засасывать настолько, чтобы не оставалось времени подумать о далеком…, о жестоком…, ну вы поняли… о будущем.


Действительно, начало весны (отчетность закончилась, а сессия еще не началась) – самое удобное время для стратегических планов. Ну а заодно и для удовлетворения любопытства наших пользователей.


Не могу сказать, что описываю совсем уж ближайшее будущее. Какие-то идеи пока находятся в обработке у наших исследователей, какие-то и вовсе пока еще «варятся в головах». Но тем не менее, описанный ниже сценарий развития системы «Антиплагиат» сейчас наиболее вероятен.
Картинку даю, слегка опережая события. Она имеет непосредственное отношение к теме статьи, но, чтобы обо всем рассказать, нужно чуть больше места.



Кадр из а/ф «Шрек 2» (англ. « Shrek 2»), DreamWorks Pictures, 2004 год


Читать дальше →
Total votes 13: ↑13 and ↓0 +13
Comments 16

Как сжать fastText, или Приключение на 20 минут

Reading time 11 min
Views 1.9K
«Антиплагиат» corporate blog Programming *Machine learning *Microservices *Natural Language Processing *

Тема, о которой я хочу вам рассказать, появилась не из-за какого-то оглушительного успеха, громкого провала или желания поделиться каким-то сакральным знанием с и так уже максимально искушённым читателем Хабра. Равно как эта тема не была плодом долгой и кропотливой работы — её не планировали, почти не обсуждали и тем более не утверждали заранее.


Всё выглядело как приключение, после которого остались настолько тёплые воспоминания, что захотелось ими поделиться. Проникнитесь и вы духом приключения, желанием разгадывать загадки и чувством восстановленной справедливости!


И как говорил известный персонаж: «Давай, вошли и вышли, приключение на 20 минут».



Кадр из сериала «Рик и Морти» (англ. Rick and Morty), 3-й сезон, 6-я серия, Adult Swim, 2017 год


Читать дальше →
Total votes 7: ↑7 and ↓0 +7
Comments 0
1