Как стать автором
Обновить
30.03

Поисковые технологии *

От AltaVista до Яндекса

Сначала показывать
Порог рейтинга
Уровень сложности

Awakari в Telegram

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров3.1K

В предыдущей статье я рассказывал об Авакари — системе обратного поиска в потоке сообщений. С тех пор прошло некоторое время на обкатку системы и добавление новых функций. Наконец, дошла очередь до интеграции с телеграмом, что позволяет легко использовать Авакари обычным людям для своих нужд.

Читать далее
Всего голосов 6: ↑5 и ↓1+4
Комментарии14

Как сделать поиск в интернет-магазине

Уровень сложностиСредний
Время на прочтение17 мин
Количество просмотров3.6K

Привет, Хабр! Меня зовут Степан Родионов, я из Х5 Digital. Сегодня расскажу о поиске в интернет-магазине — типовой задаче для e-commerce, которая в теории имеет типовое решение, но на практике оказывается сложнее.

Я запускал около десятка e-commerce проектов, и в каждом из них делал поиск. Этот опыт постарался обобщить в инструкцию по созданию подобного рода систем.

Рассказывать буду на примере проекта Vprok.ru — это мой текущий, самый крупный проект. Он входит в Х5 Digital и занимает на российском рынке третье место: 10 регионов присутствия, более 72 тысяч товаров, примерно 300 RPS на товарные запросы и около 700 тысяч комбинаций товар+склад.

Найдется все
Всего голосов 13: ↑11 и ↓2+9
Комментарии8

Поиск информации в интернете: Google и DuckDuckGo — часть 1

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров18K

Знанием как искать информацию в интернете владеют многие люди. Но не все знают как делать это более эффективно. В этой статье я расскажу о том, как эффективнее работать в Google и DuckDuckGo.

Читать далее
Всего голосов 30: ↑23 и ↓7+16
Комментарии28

Неограниченный доступ к знаниям: библиотека Стандартных Шаблонных Конструкций

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров21K

Есть много причин почему доступ научным статьям и книгам должен быть свободным:

Во-первых, это прекрасно

Во-вторых...
Всего голосов 54: ↑54 и ↓0+54
Комментарии9

Истории

Основы полнотекстового поиска в ElasticSearch. Часть третья

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров4.9K

Это третья и заключительная статья из цикла, в которой рассмотрим стандартную модель ранжирования документов в Elasticsearch.

После того как определено множество документов, которые удовлетворяют параметрам полнотекстового запроса, Elasticsearch рассчитывает метрику релевантности для каждого найденного документа. По значению метрики набор документов сортируется и отдается потребителю.

В Elasticsearch существует несколько моделей ранжирования документов. По умолчанию используется Okapi BM25.

Читать далее
Всего голосов 16: ↑16 и ↓0+16
Комментарии1

Как организовать поиск в стартапе, который планирует вырасти до масштабов ВКонтакте

Время на прочтение8 мин
Количество просмотров3K

Любому сайту нужен поиск. Например, на Хабре сотни тысяч статей на самые разные темы. Чтобы отыскать ту самую через хабы и блоги, может потребоваться о-о-очень много времени. Без поиска пользователи могут не найти то, что им нужно, решить, что здесь этого нет и уйти в другой сервис. 

В этой статье расскажу, через какие этапы обычно проходит внедрение поиска и как подход к нему меняется с ростом компании, какие задачи вам предстоит решить, а ещё — какие метрики помогут понять, что вы на верном пути. 

Читать далее
Всего голосов 22: ↑22 и ↓0+22
Комментарии5

YandexGPT 2 — большое обновление языковой модели Яндекса

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров51K
Сегодня на конференции Practical ML Conf была представлена новая версия нашей большой языковой модели YandexGPT 2. Она уже работает в навыке Алисы «Давай придумаем», где помогает структурировать информацию, генерировать идеи, писать тексты и многое другое. Новая модель отвечает лучше старой в 67% случаев, а в некоторых сценариях побеждает с ещё бо́льшим перевесом. Этого результата мы добились благодаря улучшениям на каждом этапе обучения модели, но ключевое изменение — новый pretrain.

Коротко расскажу о том, что изменилось в процессе обучения модели, в каких сценариях это принесло наибольший эффект и чем мы планируем заниматься дальше.



Читать дальше →
Всего голосов 52: ↑48 и ↓4+44
Комментарии88

YandexGPT тоже провалил тест на ручник

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров41K

Поскольку ChatGPT последних версий недосягаем для честной российской белошвейки, все мы возлагаем огромные надежды на отечественного производителя.

[ Пятница ]
Всего голосов 127: ↑98 и ↓29+69
Комментарии77

Основы полнотекстового поиска в ElasticSearch. Часть вторая

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров12K

Это вторая статья из цикла. В первой части я рассказывал про самые базовые понятия Elasticsearch. В этом же посте разберем устройство анализа текста и немного пощупаем полнотекстовый поиск.

Несколько слов про анализ текста

Анализ текста — процесс преобразования оригинального текста в структурированный формат, оптимизированный под эффективное хранение и быстрый поиск.

Мы уже познакомились с некоторыми типами Elasticsearch, но в этом разделе будем рассматривать только два — keyword и text. Тип text анализируется для полнотекстового поиска. Тип keyword преимущественно остается без изменений для точного поиска, сортировки и агрегации.

Читать далее
Всего голосов 26: ↑26 и ↓0+26
Комментарии0

Запущен полностью независимый поиск по изображениям и видео в Поиске Brave

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров1.5K

Теперь все результаты поиска по изображениям и видео в Поиске Brave обрабатываются исключительно Brave. Пользователям больше не нужно выбирать между Bing и Google для поиска по таким данным.

В мае этого года мы убрали все остававшиеся запросы к API поиска Bing для изображений и видео. На время переходного периода между удалением Bing (он применялся лишь для 7% запросов) и переходом на наше собственное решение, мы временно предоставили пользователям возможность альтернативного поиска по изображениям и видео через редирект на Bing и Google, что позволило сохранить поисковые привычки тех пользователей, которым это было важно. Теперь наш поиск независим от этих шпионящих корпораций.

Читать далее
Всего голосов 6: ↑6 и ↓0+6
Комментарии8

Основы полнотекстового поиска в ElasticSearch. Часть первая

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров15K

Привет! Меня зовут Глеб, я разработчик команды продукта «Сервис персонализации» в SM Lab. В цикле из трех постов я расскажу про основы полнотекстового поиска в Elasticsearch.

Данный цикл статей предназначен для всех, но будет особенно актуальным для тех читателей, кто только начинает свое знакомство с Elasticsearch. Я надеюсь, каждый из вас найдет что-то полезное для себя.

В первой части обсудим самые базовые понятия Elasticsearch. Во второй части разберем механизмы анализа текста и полнотекстового поиска. В заключительной части взглянем на стандартную модель ранжирования документов в Elasticsearch.

Итак, начнём с самых базовых понятий.

Читать далее
Всего голосов 23: ↑22 и ↓1+21
Комментарии1

SEO-продвижение нового сайта: примеры, фишки, особенности

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров7.9K

В статье расскажем о ключевых аспектах SEO-продвижения нового сайта в 2023 году, обсудим важность планирования структуры сайта, эффективного исследования ключевых слов, создания ориентированного на пользователя контента и многое другое. Также рассмотрим последние тренды в SEO, такие как мобильная оптимизация, голосовой поиск, искусственный интеллект и машинное обучение, и их влияние на стратегии продвижения.

Неважно, являетесь ли вы опытным SEO-специалистом, который хочет обновить знания, или новичком, только начинающим путь в мире SEO, эта статья будет полезной для вас в любом случае. В ней вы найдете много ценных советов и рекомендаций, которые помогут увеличить эффективность ваших SEO-усилий в 2023 году.

Существует два основных фактора, определяющих специфику продвижения молодого сайта.

Читать далее
Всего голосов 8: ↑5 и ↓3+2
Комментарии0

Почему нельзя доверять Google

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров65K


В 2005 году компания Google решила вступить в конкуренцию с ICQ, MSN и Skype — и выпустила мессенджер Google Talk (Gchat) на открытом протоколе XMPP с распределённой архитектурой. Казалось бы, замечательно: Google продвигает открытый свободный протокол! Как бы не так.

Google не уважала спецификации, не поддерживала все функции XMPP. В итоге разработка открытого стандарта затормозилась, чтобы адаптироваться к действиям Google. Классные новые функции (например, аватарки) никто не использовал, потому что их не поддерживал Google Talk. Разработчики XMPP стали выполнять роль сисадминов для серверов Google.

Финал немного предсказуем: в 2013 году Google решила закрыть Gtalk/XMPP и забыть о нём, что практически остановило развитие XMPP на долгие годы. Сообщество до сих пор не восстановилось от того удара. Это пример вреда, который Google/Meta*/Microsoft наносят IT-индустрии. И так у них во всём… Главное — собственные интересы, на остальных наплевать.
Читать дальше →
Всего голосов 192: ↑167 и ↓25+142
Комментарии274

Ближайшие события

Улучшение индексации страниц в Google при помощи GPT3

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров2.1K

Почему некоторые молодые интернет магазины сразу получают хороший поисковый трафик, а другие не имеют результата даже через несколько лет? Все дело в индексации страниц поисковой системой Google. Если документы не попадают в индекс, то сайт не приносит трафик и клиентов.

Сегодня постараемся разобраться, что такое индексирование сайта, от чего оно зависит и как можно правильно применить бесплатный инструмент GPT3 для улучшения индекса интернет магазина.

Читать далее
Всего голосов 8: ↑2 и ↓6-4
Комментарии4

Google сдает позиции. Люди все чаще ищут с помощью TikTok и Reddit

Время на прочтение7 мин
Количество просмотров3.6K

Через несколько лет выражение «загугли это» может перестать быть актуальным. Google постепенно перестает ассоциироваться с поиском информации в Интернете. Вырастает целая категория пользователей, которая пользуется совсем другими методами поиска, и которых SEO-ссылками не проймешь.

Конечно, Google по-прежнему остается королем поиска. Платформа, по данным SimilarWeb, занимает 92% мирового рынка поисковых систем. На мобильных устройствах доминирование еще более существенное: 95%. Но все чаще пользователи публично жалуются на качество её работы, и есть немало признаков падения её качества.

Читать далее
Всего голосов 15: ↑12 и ↓3+9
Комментарии14

Маленький поисковик, который не смог

Уровень сложностиПростой
Время на прочтение14 мин
Количество просмотров28K
Пара бывших сотрудников Google решила создать поисковый движок будущего. Они собрали нечто более быстрое, простое и без рекламы. Почему же так вышло, что большинство людей ничего не слышало о Neeva?


Сридхар Рамасвами ушёл из Google не для того, чтобы создать другой поисковый движок. По крайней мере, изначально. В завершение своей 15-летней карьеры в Google Рамасвами управлял целым рекламным отделом компании, руководя более чем десятью тысячами людей, и лучше других знал, какой объём работы необходим, чтобы реализовать поиск правильно.

Нельзя переоценить степень доминирования Google в мире поиска. По данным большинства исследований, Google владеет примерно девяноста процентами мирового рынка поисковиков, и это число стабильно росло в течение двадцати лет. Google — поисковый движок, используемый по умолчанию почти в каждом браузере, почти на каждом устройстве. Мы не выполняем поиск в Интернете, мы гуглим. Вторым и третьим в списке идут Bing и Yahoo, но когда вы в последний раз искали что-нибудь в Bing или Yahoo? Для поддержания своего доминирования Google тратит огромные политические, инженерные и финансовые капиталы.

Но больше остальных Рамасвами знал и то, что Google не может или не хочет сделать со своим движком. Имея миллиарды пользователей и сотни миллиардов долларов, Google не будет рисковать, исследуя существенные изменения в своей странице результатов, новые бизнес-модели или любые продукты, которые заставят пользователей меньше заниматься поиском (Рамасвами тестировал функцию Google Contributor, позволявшую людям платить за отсутствие рекламы на некоторых сайтах, но система не взлетела). Возникла возможность, которой Google просто не могла и не хотела бы пользоваться. Поэтому когда Рамасвами ушёл из компании в 2018 году, они с Вивеком Рагхунатаном (давним руководителем высшего звена Google и YouTube) основали компанию Neeva для создания поискового движка будущего.
Читать дальше →
Всего голосов 77: ↑71 и ↓6+65
Комментарии68

Обработка растровых данных для ML-индикации оруденения. Или как можно сэкономить миллиарды на геологоразведке

Уровень сложностиСложный
Время на прочтение8 мин
Количество просмотров1.5K

Цифровой бум в поисках золота продолжается.

Мы активно стали применять метод обработки первичных растровых данных для последующего применения методов ML с целью индикации вероятной локализации оруденения. И даже есть отличные результаты.

История индикатора уходит в недалекий 2018 год, когда с развитием цифровых технологий многие разочаровались в этом, ожидая что‑то грандиозного, когда система сама покажет, где искать, где копать. Тогда и зародилась идея о том, что нужна не просто «указка», где искать, а индикатор, чтобы он как бы подсвечивал вероятные участки оруденения. В данной статье разберу пару успешных кейсов как следствие применения данной разработки.

Но сначала о самом методе...

Читать далее
Всего голосов 2: ↑2 и ↓0+2
Комментарии5

Приглашаем на Ozon Tech Intro meetup: как работают системы поиска, рекомендаций и рекламы

Время на прочтение2 мин
Количество просмотров1.1K

UPD: Добавили записи докладов и слайды

Всем привет!
Меня зовут Алексей, я руководитель отдела по продукту и технологиям «Рекомендации и персонализация».

Мы уделяем много времени проектированию архитектуры, улучшению скорости и оптимизации алгоритмов:

Ищем пути продукта и UX.

Ускоряем рантайм поиска.

Используем ML для рекламной платформы.

Обучаем модели для наилучшего результата рекомендаций.

И со всем этим ещё и закапываемся в аналитику и проводим множество A/B-экспериментов.

Наша команда решает задачи, в которых используются интересные структуры данных и алгоритмы. 

Читать далее
Всего голосов 7: ↑6 и ↓1+5
Комментарии2

Три движка для одной Лавки: как эволюционировала система поиска в сервисе

Уровень сложностиСредний
Время на прочтение12 мин
Количество просмотров4.9K

Лавка — сервис быстрой доставки продуктов. Один из важнейших сценариев использования сервиса для покупателя — это поиск. Примерно 30% товаров добавляются в корзину именно из его результатов. А ещё, если в пользовательской сессии был успешный запрос в поиск, вероятность совершения заказа вырастает на 10–15%. То есть, если клиенту нужен конкретный продукт и он его быстро находит через поиск, вероятность совершения заказа становится выше.

Корректная и качественная организация поиска — нетривиальная задача, поэтому иногда приходится придумывать нестандартные решения, чтобы всё работало как нужно. В этой статье я расскажу историю развития поиска в Лавке от самого начала до текущего момента. Нам пришлось объединить всю силу и мощь целых трёх движков, чтобы пользователи получали точный и актуальный результат. Параллельно погрузимся в различные технические детали, проблемы и прочие нюансы.

Найти товары!
Всего голосов 16: ↑15 и ↓1+14
Комментарии0

Зализняк: основа русской прикладной лингвистики

Время на прочтение8 мин
Количество просмотров8.7K

При построении прикладных систем, работающих с текстами, первая же задача — это отождествление слов друг с другом. Для большинства языков индо-европейской группы её решение не представляет большой сложности. И решений этих существуют сотни, а самые простые из них, как правило, дают вполне пригодные (в рамках решаемой задачи) результаты.

Английский, с его весьма условным делением на части речи и практически отсутствующим склонением/спряжением, вполне прилично описывается простыми моделями выделения неизменяемой основы слова (стеммерами) с небольшим словариком исключений буквально на сотню слов. Слова немецкого прекрасно бьются на части по формальным признакам, словарю корней и принципу «максимума суммы квадратов длин». Системы окончаний других европейских языков также достаточно просты.

Со славянскими языками сложнее из-за развитой грамматики и глубокой изменчивости — любое русское прилагательное, к примеру, имеет как минимум двадцать четыре разных грамматических формы: три рода и множественное число, да по шесть оставшихся на сегодня падежей. А то и все двадцать девять, если принять во внимание краткие формы (широк, широка, широки) и образуемое от многих прилагательных наречие.

Для решения задачи отождествления разных форм существует некоторое количество реализаций морфологических анализаторов русского. Но почти все они — во всяком случае, заслуживающие внимания — растут из одного корня...

(По материалам внутреннего семинара компании МойОфис)

Читать далее
Всего голосов 105: ↑102 и ↓3+99
Комментарии43

Вклад авторов