Pull to refresh

Реализация нечеткого поиска

Algorithms *


Если ваш веб проект так или иначе будет связан с поиском и предоставлением пользователям некоторых данных, то перед вами наверняка встанет задача реализации строки поиска. При этом, если в проекте по какой-либо причине не удастся использовать технологии умных сервисов как Google или Яндекс, то поиск частично или полностью придется реализовать самостоятельно. Одной из подзадач наверняка будет реализация нечеткого поиска, ведь пользователи часто ошибаются и иногда не знают точных терминов, названий или имен.

В данной статье описывается возможная реализация нечеткого поиска, которая была применена для поиска на сайте edatuda.ru.
Читать дальше →
Total votes 112: ↑105 and ↓7 +98
Views 41K
Comments 22

Использование синонимов в SEO: связки, дыры, недолепки

Lumber room
Sandbox
Практически каждый сео-оптимизатор (в простонародии сеошник, продвижение сайтов, внутренняя оптимизация, составление семантического ядра на заказ, окна пвх купить… — как нас привыкли представлять, прошу прощения за попытку юморнуть) сталкивался с корреляционными проблемами распознания запросов. А также с различными ужимками, недочётами в поисковом ранжировании.

Эта короткая публикация будет посвящена именно этой проблеме. Где я в довесок постараюсь привести ряд довольно занимательных примеров.

Синонимы и связки

Начнём мы, пожалуй, издалека — с того, что поисковики обладают большой базой статистики. Мощь и влияние которой вы, наверное, уже ощутили. И самой большой проблемой являлась, является и возможно будет являться «проблема понимания человека» (чего уж греха таить, ведь даже мы друг друга толком не понимаем). И какой-нибудь банальный запрос, к примеру: «варежки» вводит поисковую систему в заблуждение, поскольку непонятно то ли человеку интересна методика изготовления варежек, то ли он хочет их купить, то ли ему просто нужна картинка, то ли хочет узнать о происхождении этого слова, аль он вообще имел в виду ротовую полость (слэнг). И единственно верная методика решения проблемы — это сбор статистики и проведение на основе собранной информации анализ (либо подключить к аппаратуре очень шуструю машинку для чтения мыслей).
Читать дальше →
Total votes 26: ↑16 and ↓10 +6
Views 2.9K
Comments 6

Текстовые маркеры SiDiM: новая схема DRM для защиты электронных книг

Gadgets Copyright
Исследователи из Дармштадтского технического университета (Германия) предложили новую разновидность DRM-защиты электронных текстовых документов SiDiM.

Идея заключается в том, что в каждую электронную копию книги вносятся уникальные изменения. Они впоследствии позволяют точно идентифицировать источник утечки и нечестного пользователя, который слил защищённое произведение в открытый доступ. Маркировка электронных книг и текстовых документов осуществляется на семантическом уровне: каждая версия отличается словом-синонимом, буквой, знаком препинания, пробелом и т.д.
Читать дальше →
Total votes 27: ↑25 and ↓2 +23
Views 22K
Comments 59

Искусство понимать с полуслова. Расширение запроса в Яндексе

Яндекс corporate blog Search engines *
Сегодня мы расскажем о механизме, который позволяет поиску Яндекса находить именно то, что имел в виду пользователь, как бы кратко и небрежно он ни сформулировал свой запрос.

В мире поиска такой механизм называют расширением поискового запроса. Термин достаточно широкий, включает в себя переформулировки, синонимы, транслит и даже однокоренные слова (последние иногда ошибочно называют поддержкой морфологии).

Из каких частей этот механизм состоит? Что помогает ему угадывать? И почему на каждую из его редких ошибок приходятся тысячи запросов, на которых он сильно помог?

image
Почему нельзя просто так взять и расширить запрос.
Читать дальше →
Total votes 78: ↑75 and ↓3 +72
Views 29K
Comments 28

Тостер. Коллективное редактирование тегов

Хабр Q&A corporate blog Community management *
Наша глобальная цель — сделать сообщество Тостера по-максимуму самоуправлямым. Это означает, что большинство решений должно приниматься самим сообществом. Достичь всего сразу довольно непросто, поэтому мы движемся небольшими шагами. И сегодня мы представляем новую систему коллективного редактирования тегов.

Теги на Тостере — это основа взаимодействия пользователей. С помощью тегов мы направляем наши вопросы тем людям, которые на эти теги подписаны, а следовательно, которые точно также как и мы заинтересованы в данных темах и могут дать нам ответ. Что же мы сделали.

Во-первых, у тегов появились картинки. Как нам представляется, каждый тег — это своебразный тотем. Ведь правда, когда новый для нас человек говорит, например: «HTML5, CSS3, AJAX», нам сразу всё становится ясно? А у каждого тотема безусловно должен быть свой символ-картинка. С другой стороны, картинки значительно ускоряют и упрощают наше восприятие информации, что тоже, бесспорно, хорошо.

image
Читать дальше →
Total votes 45: ↑41 and ↓4 +37
Views 6.2K
Comments 15

Разбор задачи с собеседования в Google: синонимичные запросы

Search engines *Entertaining tasks Algorithms *IT career IT-companies
Translation


Это новая статья из разбора задач с собеседований в Google. Когда я там работал, то предлагал кандидатам такие задачи. Потом произошла утечка, и их запретили. Но у медали есть обратная сторона: теперь я могу свободно объяснить решение.
Читать дальше →
Total votes 53: ↑51 and ↓2 +49
Views 53K
Comments 112

Подбор синонимов для терминов с использованием Викиданных (python)

Python *
Sandbox

Существует множество сервисов по подбору синонимов, но они редко справляются с терминами, которые содержат в себе более одного слова. Для подбора синонимов для более сложных выражений могут помочь Викиданные. Мало кто знает, что помимо стандартной Википедии существует дополнительная база данных Викиданные(Wikidata), которая представляет собой граф знаний фонда Викимедия. Сейчас она интегрирована в саму Википедию, поэтому для многих статей в левом меню можно найти пункт Элемент Викиданных. Викиданные представлены в модели rdf, то есть информация имеет вид триплетов, которые характеризуют сущность. Триплет выглядит, как утверждение субьект - предикат - обьект. Пример, для сущности Англия одним из таких информационных триплетов представлен: Англия - имеет столицу - Лондон. 

Один из предикатов(типов связи) это altLabel, подразумевающий под собой альтернативные названия, который как раз таки и поможет нам в поиске синонимов.

Сразу стоит учитывать, что Викиданные это очень обширная база знаний, но, тем не менее, не совершенная. Поэтому, для терминов, которые там не представлены, или представлены, но для их сущностей нет введенных альтернативных названий, синонимов найдено не будет.

Читать далее
Total votes 6: ↑5 and ↓1 +4
Views 2.5K
Comments 0