Как стать автором
Обновить
  • по релевантности
  • по времени
  • по рейтингу

Об информационном поиске, нахождении оптимальных путей просмотра результатов поиска и многом другом

Поисковые технологии *
Задача нахождения оптимальных путей просмотра результатов поиска является моей основной темой кандидаткой работы. Сегодня я хочу поделиться промежуточными результатами исследований, а также приложениями и SDK, которые были использованы в работе.

Решение о написании данной статьи было принято после просмотра семинара из цикла «Информационный поиск и анализ данных» на тему «Семантический анализ текстов с использованием Википедии», докладчиком которого был Максим Гринёв — доцент, старший преподаватель кафедры системного программирования, заведующий отделом ИСП РАН.

Вы можете посмотреть доклад, скачать доклад или посмотреть расписание других докладов.
Читать дальше →
Всего голосов 16: ↑14 и ↓2 +12
Просмотры 2.7K
Комментарии 6

RuSSIR 2010: школа по информационному поиску

Учебный процесс в IT
13—18 сентября 2010 года в Воронеже пройдет IV Российская летняя школа по информационному поиску (RuSSIR 2010). Основная программа RuSSIR 2010 состоит из пяти курсов:

Участие в школе бесплатное, рабочие языки — английский (основной) и русский. Наряду с основательными учебными курсами у школы будет традиционно насыщенная неформальная программа.
Заявки на участие принимаются до конца недели. Спешите!
Сайт школы — http://romip.ru/russir2010/
Всего голосов 26: ↑23 и ↓3 +20
Просмотры 581
Комментарии 3

Поиск 2.0, каким он, возможно, будет

Поисковые технологии *
Возьмем в качестве отправной точки две довольно известные цитаты:
  1. «Поисковые системы стали одним из двух новых чудес света, предоставив Homo Sapiens неограниченный и мгновенный доступ к информации.» Илья Сегалович, «Как работают поисковые системы»
  2. «Интернет похож на большую свалку: там есть все, но найти это невозможно.» Народная мудрость

Выделим три основные проблемы, с которыми приходится сталкиваться в современных поисковых машинах.
Читать дальше →
Всего голосов 47: ↑39 и ↓8 +31
Просмотры 939
Комментарии 51

Открытие RuSSIR'2011

Поисковые технологии *
Вчера в Санкт-Петербурге открылась 5-я юбилейная летняя школа по информационному поиску — RuSSIR'2011 при поддержке СпбГУ и РОМИП.

В этом году мы не только выступили «Золотым спонсором», но и наш эксперт — Андрей Калинин, руководитель разработки Поиска@Mail.Ru прочитает практическую лекцию на тему борьбы с поисковым спамом.

Для нас RuSSIR — это один из крупнейших образовательных проектов для студентов, аспирантов, исследователей и практиков в сфере поисковых технологий. В рамках школы проходит, как конференция, так и цикл лекций и семинаров. В этом году принимают участие более двухсот человек.

От проекта Поиск@Mail.Ru каждый участник получит набор открыток со смешными и понятными зачастую только профильным специалистам задачками по информационному поиску.

Смотрите, какие прикольные задачки:
Читать дальше →
Всего голосов 24: ↑16 и ↓8 +8
Просмотры 523
Комментарии 3

Поиск@Mail.Ru. Часть первая

Блог компании VK Поисковые технологии *

«У нас есть свой поиск!»


Два года подряд все свои выступления на конференциях я начинал этой фразой, ведь даже не все специалисты по поиску знали о том, что их запросы, заданные в поисковой строке Mail.Ru с большой долей вероятности обрабатывались не лицензированным сторонним движком, а внутренней разработкой компании.

Сейчас я вижу, что ситуация изменилась: многие знают и принимают наш поисковик. Однако вопросы или сомнения всё равно остаются – ну как так, Mail.Ru Group и пишет свой поиск? Mail.Ru Group — это почта, это социальные сети, развлечения… Что за поисковик они могут написать? Вот чтобы развеять эти сомнения, я и хочу рассказать о нашем поиске, о том, как мы его делаем, какие технологии используем, что хотим получить в итоге. Я надеюсь, что предлагаемая статья будет познавательной и интересной; более того, мы собираемся продолжить рассказ о наших технологиях уже более детально, и в следующих постах поговорить о машинном обучении, спайдере, антиспаме и т.п.
Читать дальше →
Всего голосов 115: ↑80 и ↓35 +45
Просмотры 30K
Комментарии 73

RuSSIR 2013: VII летняя школа по информационному поиску

Блог компании Высшая школа ИТИС КФУ Поисковые технологии *
16–20 сентября 2013 года в Казани пройдет VII Российская летняя школа по информационному поиску (RuSSIR 2013).

Её организуют Казанский Федеральный Университет (КФУ) и Российский семинар по Оценке Методов Информационного Поиска (РОМИП) при участии Яндекса, Mail.ru, Google и ABBYY.

Главной темой школы в этом году будет поиск и обработка аудиоинформации. Рабочий язык — английский.



Основная программа состоит из 7 курсов:

Voice and Music Information Retrieval:
  • Spoken Content Retrieval: Challenges, Techniques and Applications — Gareth Jones (Dublin City University)
  • Content- and Context-based Music Similarity and Retrieval — Markus Schedl & Peter Knees (University of Linz)
  • Query by Singing/Humming and Audio Fingerprinting as Two Successful Paradigms of Music Information Retrieval — Jyh-Shing Roger Jang (Taiwan University)
  • Adaptivity in Audio and Music Retrieval — Andreas Nürnberger & Sebastian Stober (OVG University Magdeburg)

General Information retrieval:

Участие в школе бесплатное, но количество мест ограничено.
Как попасть?
Всего голосов 33: ↑33 и ↓0 +33
Просмотры 6.9K
Комментарии 6

RuSSIR 2014: VIII летняя школа по информационному поиску

Блог компании Высшая школа ИТИС КФУ Поисковые технологии *Визуализация данных
18–22 августа 2014 года в Нижнем Новгороде пройдет VIII Российская летняя школа по информационному поиску «RuSSIR 2014». До этого школа проходила в Екатеринбурге, Таганроге, Петрозаводске, Воронеже, Санкт-Петербурге, Ярославле и  Казани.

В этом году её организуют Национальный исследовательский университет «Высшая школа экономики» и Российский семинар по Оценке Методов Информационного Поиска «РОМИП» при участии Яндекса, Mail.ru, Google, ABBYY и Лекториума.

Главной темой школы будет визуализация данных в задачах информационного поиска. Рабочий язык — английский.



Программа школы включает шесть основных курсов, пленарный курс и доклады спонсоров, а также конференцию молодых ученых «RuSSIR Young Scientist Conference».

Основные курсы:
  • Katja Hofmann (Microsoft Research) — Online Experimentation for Information Retrieval;
  • Alfred Inselberg (Tel Aviv University) — Visualization & Data Mining for High Dimensional Data;
  • Dmitry I. Ignatov (Higher School of Economics) — Introduction to Formal Concept Analysis and Its Applications in Information Retrieval and Related Fields;
  • Preslav Nakov (Qatar Computing Research Institute) — Web as a Corpus: Going Beyond the n-gram;
  • Sujatha Das G., Cornelia Caragea, Xiaoli Li, C. Lee Giles — Document Analysis and Retrieval in Scientific Digital Libraries;
  • Paolo Rosso (Universitat Politecnica de Valencia) — Author Profiling and Plagiarism Detection.

К участию в школе приглашаются студенты, аспиранты, исследователи и разработчики. Всего планируется принять до 120 слушателей. Участие бесплатное; для тех, кто в этом нуждается, организаторы предоставляют гранты на проживание (количество ограничено).
Как попасть?
Всего голосов 23: ↑20 и ↓3 +17
Просмотры 3.3K
Комментарии 0

Ищем мелодию по фрагменту

Звук
Приветствую, уважаемые читатели Хабра!
В этой статье хочу рассказать, как я искал музыкальное произведение по его отрывку.
Итак, поехали!
Задача передо мной стоит следующая: есть отрывок музыкального произведения, есть база музыкальных произведений, и необходимо найти, какому из имеющихся музыкальных произведений принадлежит данный отрывок.
Кому интересно, читайте под харбокатом.
Читать дальше →
Всего голосов 37: ↑35 и ↓2 +33
Просмотры 19K
Комментарии 24

Извлечение упоминаний сущностей и поиск в Textocat API

Блог компании Textocat Поисковые технологии *Семантика *Data Mining *API *
Textocat API — это облачный SaaS анализа текстов. Качественное извлечение полезной информации из текстов — сложная задача и требует серьезной экспертизы. Миссия команды Textocat — сделать процесс обработки текстов настолько легким для использования, чтобы его мог включить в свой арсенал любой современный разработчик. Используя Textocat API, вы можете быстро прототипировать приложения на основе текстовой аналитики и превращать их в свой бизнес. В данной публикации мы покажем, насколько легко интегрировать в любое приложение возможности Textocat API по распознаванию упоминаний сущностей (объектов) и поиску документов на русском языке.

Возможности Textocat API Beta


В начале апреля мы запустили бета-тестирование Textocat API. В этой версии мы предлагаем разработчикам бесплатно использовать часть функционала сервиса со следующими возможностями:
  • распознавание упоминаний сущностей (entity recognition) в коллекциях документов на русском языке;
  • хранение обработанных коллекций;
  • полнотекстовый поиск с учетом выделенных типов сущностей.


пример распознавания упоминаний сущностей

Читать дальше →
Всего голосов 24: ↑23 и ↓1 +22
Просмотры 16K
Комментарии 66

Text Analytics as Commodity: обзор приложений текстовой аналитики

Блог компании Textocat Поисковые технологии *Семантика *Data Mining *Разработка под e-commerce *
text analytics landscapeЕсли бы мне дали миллиард долларов на научные исследования, я бы создал большую программу в масштабе NASA по обработке естественного языка (NLP).[из Reddit AMA Майкла Джордана, 2015]. Из данной публикации вы узнаете, есть ли рынок для приложений текстовой аналитики. И не слишком ли оптимистичен заслуженный профессор М. Джордан по поводу потенциала NLP, а лучше потратить миллиард долларов на что-то другое.

Введение


Вначале определимся с терминами. Интеллектуальный анализ текста (англ., text mining) — это технологии получения структурированной информации из коллекций текстовых документов. Обычно в это понятие включают такие крупные задачи, как
  • категоризация текста
  • извлечение информации
  • информационный поиск.

Часто, когда говорят о применении интеллектуального анализа текста в бизнесе — текстовой аналитики (англ., text analytics) — имеют в виду не просто структурированную информацию, а т.н. углубленное понимание предмета анализа (insights), которое помогает в принятии бизнес-решений. Известный эксперт Сэт Граймс определяет текстовую аналитику как технологические и бизнес процессы применения алгоритмических подходов к обработке и извлечению информации из текста и получению глубокого понимания.

Принято считать, что формируется новый рынок когнитивно-вычислительных (cognitive computing) продуктов. По оценкам MarketsandMarkets глобальный рынок продуктов на основе обработки естественного языка должен составить $13.4 млрд. к 2020 году при росте в 18.4% по CAGR. Таким образом, сейчас этот рынок оценивается примерно в $5.8 млрд. В последние годы этот растущий рынок ознаменовался целым рядом громких сделок, вроде покупки Alchemy API компанией IBM. По другим оценкам, аналогичный рынок в Европе уже сейчас превосходит пол-миллиарда долларов и удвоится к 2019 году. Рынок Северной Америки составляет почти 40% глобального рынка текстовой аналитики и имеет оптимистичные оценки роста.
Читать дальше →
Всего голосов 6: ↑6 и ↓0 +6
Просмотры 12K
Комментарии 2

ACM SIGIR 2015: ключевые тренды развития поисковых технологий

Блог компании Textocat Поисковые технологии *Семантика *Data Mining *Машинное обучение *



С 9 по 13 августа в г. Сантьяго (Чили) прошла 38я международная научная конференция по информационному поиску ACM SIGIR. Представляем вашему вниманию основные события данного мероприятия и ключевые тренды развития области информационного поиска как с точки зрения академической среды, так и индустрии.
Читать дальше →
Всего голосов 11: ↑9 и ↓2 +7
Просмотры 5K
Комментарии 6

Техносфере Mail.Ru — 2 года

Блог компании VK Поисковые технологии *Программирование *


Привет, Хабр! В феврале исполняется два года проекту Техносфера. За прошедший год произошло три больших изменения, повлиявших на процесс обучения. Первое из них касалось отбора студентов — технических собеседований. Раньше студент шел на техническое собеседование, не зная, какие задачи ему предложат решить. Теперь же мы отправляем студентам кейс, некую техническую задачу, решить которую нужно заранее и на месте объяснить преподавателям ее решение. После добавления кейса успеваемость резко улучшилась. Перевод на второй семестр в Техносфере составил 27 студентов из 40, то есть 67% вместо обычных 40–50%.

Во-вторых, при Техносфере создана лаборатория, в которой студенты занимаются решением практических задач Mail.Ru Group, а также внешних заказчиков. Например, они исследуют алгоритмы таргетинга для рекламных кампаний, а также пытаются создать эвристики, которые позволяют улучшить качество рекламной выдачи. По сути, лаборатория — это альтернатива стажировке в компании. В ней можно работать над решением различных практических задач с рынка, но при этом не тратить время на дорогу в офис, делая все прямо на своем факультете.

Третьим важным шагом стало решение перейти на двухгодичное обучение. В этом году мы выпустили последнюю группу ребят, которые учились по годовой программе. Предметы, которые они осваивали в течение года, были: алгоритмы интеллектуальной обработки больших объемов данных, многопоточное программирование на С/С++, СУБД, Hadoop, методы обработки больших объемов данных и информационный поиск.

Сейчас мы хотели бы поставить точку в годовой программе обучения, показав вам один из выпускных проектов по предмету «Информационный поиск». В течение семестра ребятам давались домашние задания, которые в итоге вылились в большой итоговый проект. Правила были таковы:

  • Ребята разбивались на команды по 2–3 человека.
  • Задача: сделать полноценный поиск по одному из предложенных сайтов. По задумке ваш поиск должен состоять из объединенных домашек + фронтенд + какая-нибудь плюшка, например spellchecker.
Читать дальше →
Всего голосов 31: ↑27 и ↓4 +23
Просмотры 6.9K
Комментарии 5

Natural Language Processing — как это будет по-русски?

Блог компании Stepik.org Исследования и прогнозы в IT Учебный процесс в IT Natural Language Processing *
Вокруг нас — огромные объемы текстовых данных в электронном виде, в них — человеческие знания, эмоции и опыт. А еще — спам, который выдает себя за полезную информацию, и надо уметь отделять одно от другого. Люди хотят общаться с теми, кто не знает их родной язык. А еще — управлять своим мобильником/телевизором/умным домом голосом. Все это обеспечивает востребованность и бурное развитие методов Natural Language Processing (NLP).

image

Читать дальше →
Всего голосов 32: ↑32 и ↓0 +32
Просмотры 19K
Комментарии 4

Что должен знать о поиске каждый разработчик

Блог компании Alconost Поисковые технологии *Алгоритмы *Big Data *Машинное обучение *
Перевод
Tutorial

Хотите внедрить или доработать функцию поиска? Вам сюда.



Спросите разработчика: «Как бы вы реализовали функцию поиска в своем продукте?» или «Как создать поисковую систему?». Вероятно, в ответ вы услышите что-нибудь такое: «Ну, мы просто запустим кластер Elasticsearch: с поиском сегодня всё просто».

Но так ли это? Во многих современных продуктах по-прежнему не лучшим образом реализован поиск. Настоящий специалист по поисковым системам скажет вам, что лишь немногие разработчики глубоко понимают, как работает поиск, а ведь это знание часто необходимо для улучшения качества поиска.

Есть множество программных пакетов с открытым исходным кодом, проведено немало исследований, однако лишь немногие избранные понимают, как нужно делать функциональный поиск. Как ни забавно, но если поискать в Интернете связанную с реализацией поиска информацию, вы не найдете актуальных и содержательных обзоров.

Цель статьи


Этот текст можно считать собранием ценных идей и ресурсов, которые могут помочь в создании функции поиска. Статья, безусловно, не претендует на исчерпывающую полноту, однако я надеюсь, что ваши отзывы помогут ее доработать (оставляйте замечания в комментариях или свяжитесь со мной).

Основываясь на опыте работы с универсальными решениями и узкоспециализированными проектами самого разного масштаба (в компаниях Google, Airbnb и нескольких стартапах), я расскажу о некоторых популярных подходах, алгоритмах, методах и инструментах.

Недооценка и непонимание масштабов и сложности задачи поиска могут привести к тому, что у пользователей останутся плохие впечатления, разработчики потратят время впустую, а продукт провалится.

Переведено в Alconost
Читать дальше →
Всего голосов 10: ↑10 и ↓0 +10
Просмотры 22K
Комментарии 0

RuSSIR 2018: 12-я летняя школа по информационному поиску

Блог компании Образовательные проекты JetBrains Поисковые технологии *Семантика *Data Mining *Машинное обучение *
27–31 августа в Казани пройдет 12-я международная летняя школа по информационному поиску RuSSIR 2018.

В этом году её организуют Казанский федеральный университет (КФУ) и Российский семинар по оценке методов информационного поиска (РОМИП) при поддержке ACM SIGIR и BCS IRSG.



Программа включает два пленарных доклада и семь курсов, а также постер-сессию конференции молодых ученых «RuSSIR Young Scientist Conference».

Пленарные доклады:

  1. Carlos Castillo (Universitat Pompeu Fabra), «Crisis Informatics» — о том, как использовать данные из социальных сетей для борьбы с чрезвычайными ситуациями;
  2. Carlos Castillo, «The Biases of Social Data» — о подводных камнях при анализе пользовательского контента.

Курсы:

  1. Cathal Gurrin (Dublin City University), «The Information Retrieval Challenge of Lifelogs and Personal Life Archives» — об анализе персональных данных;
  2. Henning Müller (University of Geneva), «Evaluation of IR systems and multi-modal retrieval in the medical domain» — о поиске медицинских изображений;
  3. Valentin Malykh, Mikhail Burtsev (Moscow Institute of Physics and Technology), «Conversational AI through Deep Learning» — о том, как создать интеллектуального чат-бота с помощью глубокого обучения;
  4. Rishabh Mehrotra (Spotify Research), «Learning from User Interactions» — о том, как угадать потребность пользователя из его взаимодействия с онлайн-системой;
  5. Guido Zuccon (Queensland University of Technology), «Health Search» — о поиске по медицинским данным;
  6. Harrie Oosterhuis (University of Amsterdam), «Learning to Rank and Evaluation in the Online Setting» — о том, как обучить систему на основе данных о взаимодействии с пользователем;
  7. Prasenjit Mitra (Pennsylvania State University), «Retrieving Information Interactively Using Natural Language» — о том, как научить систему общаться на естественном языке.

Участие в школе бесплатное. Регистрация открыта до 10 июля.
Как попасть?
Всего голосов 38: ↑34 и ↓4 +30
Просмотры 2.9K
Комментарии 0

Т — значит творчество

Блог компании «Антиплагиат» Программирование *Машинное обучение *Микросервисы *Natural Language Processing *

Пока весь мир, вместо того, чтобы нарезать салаты готовиться к встрече Нового года, следит за развитием ситуации с nginx, мы решили не усугублять и не готовить серьезную научную статью, не шокировать технологиями наступившего будущего и не грузить очень хитрым алгоритмом. Мы тоже пользуемся nginx и надеемся, что и с его создателями и с ним все будет хорошо. И нам (да и не только нам) важно, чтобы ситуация разрешилась не как подарок Деда Мороза, а как естественный ход событий.

А пока давайте просто подведем итоги уходящего 2019 года
Всего голосов 16: ↑12 и ↓4 +8
Просмотры 2.9K
Комментарии 2

Курс “Введение в информационный поиск” и немного истории

Блог компании Образовательные проекты JetBrains Поисковые технологии *Учебный процесс в IT

Меня зовут Павел Браславский, я научный сотрудник JetBrains Research и доцент Питерской Вышки.


Осенью прошлого года я после большого перерыва прочитал курс “Введение в информационный поиск”, на этот раз — для студентов академических программ JetBrains в Питерской Вышке и ИТМО. Comeback получил продолжение — зимой я прочитал мини-курс с обзором моделей информационного поиска и подходов к оценке для сотрудников Tinkoff, а весной — обзорную лекцию про информационный поиск в рамках курса по обработке естественного языка. В этой статье я кратко расскажу о курсе и его “исторических предпосылках”.


image

Читать дальше →
Всего голосов 14: ↑13 и ↓1 +12
Просмотры 3.3K
Комментарии 0

Честные глаза плагиатора, или еще один взгляд на будущее систем обнаружения заимствований

Блог компании «Антиплагиат» Программирование *Машинное обучение *Микросервисы *Natural Language Processing *

Развивать систему, созданную 16 лет назад, «конечно, не подвиг, но вообще что-то героическое в этом есть» (с). От пользователей регулярно прилетают вопросы: что будете делать дальше? Каким будет Антиплагиат через несколько лет? Все правильно, все верно – нельзя позволять рутине себя засасывать настолько, чтобы не оставалось времени подумать о далеком…, о жестоком…, ну вы поняли… о будущем.


Действительно, начало весны (отчетность закончилась, а сессия еще не началась) – самое удобное время для стратегических планов. Ну а заодно и для удовлетворения любопытства наших пользователей.


Не могу сказать, что описываю совсем уж ближайшее будущее. Какие-то идеи пока находятся в обработке у наших исследователей, какие-то и вовсе пока еще «варятся в головах». Но тем не менее, описанный ниже сценарий развития системы «Антиплагиат» сейчас наиболее вероятен.
Картинку даю, слегка опережая события. Она имеет непосредственное отношение к теме статьи, но, чтобы обо всем рассказать, нужно чуть больше места.



Кадр из а/ф «Шрек 2» (англ. « Shrek 2»), DreamWorks Pictures, 2004 год


Читать дальше →
Всего голосов 13: ↑13 и ↓0 +13
Просмотры 2.9K
Комментарии 16