Search results for «[search engine]» / Habr

Publications Hubs Companies Users Comments

goldena Jul 8 2013 at 23:45

Используем поисковые движки для проверки корректности фраз

3 min

10K

По работе мне часто приходится вести переписку на английском, и в силу недолеченного перфекционизма, пользоваться для этого оффлайн/онлайн переводными/толковыми словарями. В целом они со своей работой справляются, пока дело не доходит до проверки правильности словосочетаний или целых фраз. Хочешь ввернуть что-нибудь из разряда продвинутого владения языком, но нет уверенности, что правильно помнишь (большой привет предлогам и фразовым глаголам).

Есть парочка ресурсов, для поиска фраз, но заточены они в основном под общеупотребимые словосочетания, пословицы и фразеологизмы на отдельно взятом языке. К тому же не известно пользуются ли люди искомой фразой или употребив её вы поставите в тупик даже носителя языка.

Читать дальше →

+11

VasylArtiushchenko Jun 28 2019 at 21:42

Redirects: 301, 302, 307 | How-To 301 guide

6 min

13K

Search engine optimization*

What is redirection?

Redirection is a way of forwarding the user to the URL that is different from the one they initially clicked on. Down below some of the most common types of redirection are listed.

how to do a 301 redirect

VasylArtiushchenko Jul 8 2019 at 00:35

14 Best WordPress SEO Plugins in 2019

6 min

2.3K

WordPress*Internet marketing*Search engine optimization*

WordPress SEO plugins will help you automatically add meta tags, load pages faster, correct redirection mistakes, optimize images, etc. Free and premium versions of the most popular WordPress plugins for SEO in 2019 are listed down below.

wordpress seo plugins 2019

VasylArtiushchenko Aug 2 2019 at 17:34

International SEO | International SEO ranking factors

6 min

1.3K

Search engines*Internet marketing*Search engine optimization*

Let's say, your website offers content, products, or services for people from different regions or countries who speak different languages. Search engines will probably count this as duplicate content, leading to low rankings.

international SEO

+10

glebmachine Nov 27 2020 at 10:11

Полнотекстовый поиск в Couchbase Server

7 min

2.6K

Конференции Олега Бунина (Онтико) corporate blogSearch engines*Programming*Go*Conferences

Дмитрий Калугин-Балашов большую часть своей жизни писал поиск: с 2011 года в компании Mail.ru был поиск по почте, затем был небольшой перерыв из-за работы в США, а сейчас это — работа над поиском в Couchbase. Одна из первых вещей, которую Дмитрий понял, работая в США — не всегда покупают самое эффективное решение. Иногда покупают то, где клиент будет иметь меньше проблем.

Поэтому ещё в 2013 году Дмитрий написал движок поиска для почтовых ящиков Mail.ru и рассказал об этом в том же году на конференции HighLoad и в статье на Хабре. А на HighLoad 2019 показал, как устроен полнотекстовый поиск в Couchbase Server, и сегодня мы предлагаем расшифровку его доклада.

Читать дальше →

+10

Desireless Apr 17 2021 at 17:22

Одномерный поиск образца с использованием дискретного преобразования Фурье

4 min

4.2K

Algorithms*

Tutorial

From sandbox

После прочтения статьи про поиск изображения в изображении, осталось множество вопросов к формулам, да и к самому коду где преобразование массивов мне показалось не прозрачным из-за использования множества сторонних библиотечных функций.

Потому занялся дополнительным поиском готовых реализаций, но к сожалению не смотря на обилие упоминаний идеи 1974 года, реализаций алгоритма, даже на законодателе моды в вычислительной математике Фортране я не обнаружил. В семинарах и лекциях да и в диссертациях описание не блистало целостностью, потому собрав с десяток статей и обсуждений в кучу появилось желание написать статью для тех кто простейшую реализацию поиска подстроки хочет "подержать в руках".

Фурье-вычисления для сравнения изображений

+18

sergey-sw May 25 2022 at 15:04

Как мы делали свой поиск в Ozon: эволюция архитектуры от SQL до O2

16 min

25K

Ozon Tech corporate blogHigh performance*Search engines*System Analysis and Design*Microservices*

Technotext 2022

Привет, Хабр! Меня зовут Сергей, я руководитель команды поиска в Ozon. Сегодня я расскажу об эволюции наших поисковых систем: как всё начиналось более 20 лет назад с обычных SQL-запросов, как мы осваивали Sphinx и Elasticsearch и как сейчас наш собственный поисковый движок O2 на базе Apache Lucene выдерживает нагрузку в десятки тысяч RPS в сезон распродаж. Исторические хроники восстанавливались по воспоминаниям современников и представлены для полноты картины. Новейшая история описана на основе собственного опыта, поэтому подробностей будет на порядок больше. Поехали!

+56

eugeniouglov Dec 26 2022 at 00:20

Как я написал свою поисковую систему для быстрого поиска личной информации

6 min

7.9K

Website development*Search engines*

From sandbox

Предыстория

Все началось с того, что мне стало трудно находить нужную информацию, файлы. Чем больше файлов и папок у меня образовывалось, тем больше времени уходило на поиски нужного. Я понял, что каждый раз искать в бесконечных списках файлов и папок, особенно с условием вложенности это не вариант для больших объемов данных.

Что касается поиска по названию файла, то количество символов, указанных в названии ограниченно и слова при поиске должны быть в строго определенной последовательности. Тем более, если система индексирует другие, не нужные для поиска файла (системные файлы, файлы проектов), то поиск выдает много "мусора".

Поиск по содержанию файла даёт не самый релевантный результат. Может выдать бесполезные результаты с содержанием содержащие ключевые слова, но не относящиеся к тому, что действительно необходимо найти.

Более того по содержанию можно искать только текстовые файлы.

Структура содержания информации

Структура папок представляется собой в виде дерева. Мне это не нравится, потому что каждая папка может содержать только определенные файлы, если не учитывать копирование и ссылки.

Так же это можно представить с примером из реальной жизни, для того, чтобы найти зелёное свежее яблоко сорт "девственный". Необходимо найти отдел с фруктами, затем отдел с яблоками, затем ищем зеленные, затем сорт, ну там ещё их на свежие, не свежие фасуют в этом воображаемом примере и наконец найти нужное apple.

Усложняется ещё все и тем, что я не помню, есть ли там вообще яблоки, и если есть, то хранятся ли они в отделе фрукты или там продаются.

eugeniouglov Feb 10 2023 at 01:16

How I wrote my search engine to quickly find personal information

6 min

1.6K

Website development*Search engines*Programming*Start-up developmentData storaging

Opinion

Translation

Search your own data like in google search engine.

eugeniouglov Feb 19 2023 at 19:42

How to increase speed and flexibility of searching files

2 min

531

Search engines*

In a previous article, I described the logic of the project to search for personal information by tagging, but that was for the web version.

Searching for files on a PC is a bit different and I would like to touch on this topic.

gtkek Aug 24 2023 at 14:32

Основы полнотекстового поиска в ElasticSearch. Часть первая

Medium

5 min

15K

Sportmaster Lab corporate blogSearch engines*IT Infrastructure*NoSQL*Search engine optimization*

FAQ

Привет! Меня зовут Глеб, я разработчик команды продукта «Сервис персонализации» в SM Lab. В цикле из трех постов я расскажу про основы полнотекстового поиска в Elasticsearch.

Данный цикл статей предназначен для всех, но будет особенно актуальным для тех читателей, кто только начинает свое знакомство с Elasticsearch. Я надеюсь, каждый из вас найдет что-то полезное для себя.

В первой части обсудим самые базовые понятия Elasticsearch. Во второй части разберем механизмы анализа текста и полнотекстового поиска. В заключительной части взглянем на стандартную модель ранжирования документов в Elasticsearch.

Итак, начнём с самых базовых понятий.

+21

gtkek Aug 31 2023 at 14:20

Основы полнотекстового поиска в ElasticSearch. Часть вторая

Medium

9 min

12K

Sportmaster Lab corporate blogSearch engines*IT Infrastructure*NoSQL*

FAQ

✏️ Technotext 2023

Это вторая статья из цикла. В первой части я рассказывал про самые базовые понятия Elasticsearch. В этом же посте разберем устройство анализа текста и немного пощупаем полнотекстовый поиск.

Несколько слов про анализ текста

Анализ текста — процесс преобразования оригинального текста в структурированный формат, оптимизированный под эффективное хранение и быстрый поиск.

Мы уже познакомились с некоторыми типами Elasticsearch, но в этом разделе будем рассматривать только два — keyword и text. Тип text анализируется для полнотекстового поиска. Тип keyword преимущественно остается без изменений для точного поиска, сортировки и агрегации.

+26

gtkek Sep 28 2023 at 15:48

Основы полнотекстового поиска в ElasticSearch. Часть третья

Medium

4 min

4.9K

Sportmaster Lab corporate blogSearch engines*IT Infrastructure*NoSQL*

FAQ

Это третья и заключительная статья из цикла, в которой рассмотрим стандартную модель ранжирования документов в Elasticsearch.

После того как определено множество документов, которые удовлетворяют параметрам полнотекстового запроса, Elasticsearch рассчитывает метрику релевантности для каждого найденного документа. По значению метрики набор документов сортируется и отдается потребителю.

В Elasticsearch существует несколько моделей ранжирования документов. По умолчанию используется Okapi BM25.

+16

uranusq Jun 28 2023 at 16:38

Googlим бесплатно (и Яндексим): open-source решение с API

Easy

6 min

3.8K

Search engines*Open source*Programming*Google API*Yandex API*

Case

Бесплатно? Конечно же никто у вас деньги за "пойти в гугл" не возьмет... А что если попытаться автоматизировать сей процесс? Вот тут то возникают проблемы и чернозём для бизнесов.

Как и в прошлой статье я полез доставать файлы из интернетов, на этот раз из Гуглов. История повторилась и я осознал, что где-то в закромах у меня был код для этого. С радостью начав его изучать, понял, что радости там не много и легче найти что-то готовое...

Далее мы мельком посмотрим: какие решения на текущий момент нам может предложить рыночек, что и с какими дефектами отдают даром. Также изучим какие проблемы возникают при автоматизации сего процесса и как в конечном итоге это можно сделать легко и бесплатно!

akurilov Apr 2 at 08:50

Поиск в будущем

Medium

6 min

1.3K

Instant Messaging*Search engines*Data Mining*Web analytics*Social networks and communities

Review

Translation

Привычный поиск, вроде Google, работает сугубо в прошлом. То есть любые результаты, которые вы можете увидеть - это то, что уже произошло. Кроме того, есть ещё дополнительные временные издержки на индексирование: дни или даже недели. Неплохо для исторических справок, но всегда слишком поздно для важных новостей.

Есть и другой путь - "перспективный" поиск. Суть его в том, чтобы получить результат в будущем. Лучше всего подходит для наблюдения за СМИ, поиска работы и других типов выгодных предложений.

shai_xylyd Sep 6 2010 at 11:58

Wolframalpha + Wikipedia = Galois/Wiki

2 min

993

Self Promo

Представьте себе Maple, Maxima или Mathematica, в которой правила работы являются энциклопедическими статьями, и, наоборот, энциклопедию, пополняя которую, вы улучшаете работу системы компьютерной алгебры. Эта идея лежит в основе Galois/Wiki (Галуа/Вики) — математической энциклопедии с интеллектуальным поиском.

Читать дальше →

+47

Aleksey Nov 6 2010 at 12:15

Отчет с конференции Lucene Revolution

5 min

3.9K

Search engines*

В начале октября мне удалось побывать на конференции Lucene Revolution, которая проходила в городе-герое Бостоне. Эта конференция была посвящена открытым поисковым технологиям Apache Lucene и Apache Solr. Мне кажется, что на хабре в частности и в рунете в целом этим технологиям уделяется незаслуженно мало внимания. Давайте исправим это упущение.

Читать дальше →

+35

phillennium Feb 1 2011 at 20:51

Google обвиняет Bing в копировании его поисковой выдачи

1 min

2.2K

IT-companies

Translation

Можно сказать, что Bing извлекает урок из соревнования, но похоже, что он извлекает и чужие поисковые результаты. Представитель Google Амит Сингхал утверждает это, предоставив результаты своей любопытной (если не сказать «очень хитроумной») проверки. Вот как она работает: найди такой запрос, по которому ни в одном поисковике ничего не находится, вручную добавь в Google «страницу-приманку» в качестве результата для этого запроса, затем заставь около 20 сотрудников Google провести поиск и кликнуть по этому результату, используя Internet Explorer с включенными функцией Suggested Sites и тулбаром Bing. Через две недели, по словам Сингхала, достаточное количество (примерно 7-9) из 100 «приманок» повляются и в Bing. Включая результаты диких запросов вроде «mbrzxpgjys», «hiybbprqag» и «indoswiftjobinproduction».

Означает ли это, что Bing «жульничает», как утверждает Сингхал? Эксперимент проводился с включенными тулбаром Bing и/или функцией Suggested Search, а про них прямо сообщается, что они собирают данные для улучшения результатов поиска. И на популярные запросы, в отличие от редких, Bing выдает собственные результаты. Microsoft не ворует приватную информацию, но не является ли это нечестным приемом? Мы думаем, что над этим еще поломают копья.

+109

108

carbonariy Feb 13 2011 at 11:18

Использование библиотеки для полнотекстового поиска Xapian в Python

4 min

10K

Python*

From sandbox

Сегодня, в эпоху Web 2.0, когда контента на сайтах становится все больше и больше, перед разработчиками встает задача реализации полнотекстового поиска.

Вариантов немного:

использовать виджеты от разработчиков поисковых систем (Google, Яндекс, etc): легко внедрить, привычный для пользователя интерфейс, поддержка морфологии, исправление слов по словарю, возможно более быстрая индексация сайта поисковыми системами, но, как правило ограниченные возможности по настройке и неизбежное запаздывание индексации;
использовать встроенные в СУБД средства (например FULLTEXT-индекс для MySQL): достаточно легко внедрить, актуальный поисковый индекс, полный контроль над настройкой и внешним видом, но, чаще всего очень низкая производительность на больших объемах данных, отсутствие учета морфологии, либо, в худшем случае, полное отсутствие подобных средств в СУБД;
использовать отдельную библиотеку/систему полнотекствого поиска.

Третий вариант кажется самым лучшим, ведь он сочетает достоинства двух других вариантов. Правда и здесь не обошлось без недостатков — библиотека требует установки, иногда даже запуска демона (например Sphinx), что может быть неприемлемо.

Решений существует масса, у каждого есть свои достоинства и недостатки. Я бы хотел подробнее остановиться на относительно малоизвестной библиотеке Xapian.

Читать дальше →

+36

osmirnov Apr 11 2011 at 19:01

[Перевод] Теперь поиск Twitter ещё в 3 раза быстрее

6 min

3.1K

High performance*

From sandbox

Мне всегда был интересен Ruby-on-Rails (RoR) и Twitter как яркий представитель платформы на этом framework. 6 апреля этого года в блоге команды Twitter появилась запись о полной смене поисковой платформы с RoR на Java. Под катом перевод о том, как это было.

Я готов жить с этим!

+43

2 3