Поисковые технологии *

От AltaVista до Яндекса

Статьи Посты Новости Авторы Компании

akurilov 14 окт 2023 в 22:45

Awakari в Telegram

Простой

4 мин

3.1K

Мессенджеры*Поисковые технологии*Интерфейсы*Развитие стартапаОблачные сервисы*

Роадмэп

В предыдущей статье я рассказывал об Авакари — системе обратного поиска в потоке сообщений. С тех пор прошло некоторое время на обкатку системы и добавление новых функций. Наконец, дошла очередь до интеграции с телеграмом, что позволяет легко использовать Авакари обычным людям для своих нужд.

StepanRodionov 13 окт 2023 в 11:36

Как сделать поиск в интернет-магазине

Средний

17 мин

3.6K

Блог компании Конференции Олега Бунина (Онтико)Блог компании X5 TechПоисковые технологии*Поисковая оптимизация*

Кейс

Привет, Хабр! Меня зовут Степан Родионов, я из Х5 Digital. Сегодня расскажу о поиске в интернет-магазине — типовой задаче для e-commerce, которая в теории имеет типовое решение, но на практике оказывается сложнее.

Я запускал около десятка e-commerce проектов, и в каждом из них делал поиск. Этот опыт постарался обобщить в инструкцию по созданию подобного рода систем.

Рассказывать буду на примере проекта Vprok.ru — это мой текущий, самый крупный проект. Он входит в Х5 Digital и занимает на российском рынке третье место: 10 регионов присутствия, более 72 тысяч товаров, примерно 300 RPS на товарные запросы и около 700 тысяч комбинаций товар+склад.

Найдется все

YarIkGU 8 окт 2023 в 15:52

Поиск информации в интернете: Google и DuckDuckGo — часть 1

Простой

4 мин

18K

Поисковые технологии*

Дайджест

Знанием как искать информацию в интернете владеют многие люди. Но не все знают как делать это более эффективно. В этой статье я расскажу о том, как эффективнее работать в Google и DuckDuckGo.

+16

PashaPodolsky 4 окт 2023 в 09:25

Неограниченный доступ к знаниям: библиотека Стандартных Шаблонных Конструкций

Средний

9 мин

21K

Поисковые технологии*Читальный залРаспределённые системы*Будущее здесьIPFS*

Обзор

Есть много причин почему доступ научным статьям и книгам должен быть свободным:

Во-первых, это прекрасно

Во-вторых...

+54

gtkek 28 сен 2023 в 15:48

Основы полнотекстового поиска в ElasticSearch. Часть третья

Средний

4 мин

4.9K

Блог компании Sportmaster LabПоисковые технологии*IT-инфраструктура*NoSQL*

FAQ

Это третья и заключительная статья из цикла, в которой рассмотрим стандартную модель ранжирования документов в Elasticsearch.

После того как определено множество документов, которые удовлетворяют параметрам полнотекстового запроса, Elasticsearch рассчитывает метрику релевантности для каждого найденного документа. По значению метрики набор документов сортируется и отдается потребителю.

В Elasticsearch существует несколько моделей ранжирования документов. По умолчанию используется Okapi BM25.

+16

bgarkushin 21 сен 2023 в 13:33

Как организовать поиск в стартапе, который планирует вырасти до масштабов ВКонтакте

8 мин

Блог компании VKБлог компании Конференции Олега Бунина (Онтико)Высокая производительность*Поисковые технологии*Анализ и проектирование систем*

Любому сайту нужен поиск. Например, на Хабре сотни тысяч статей на самые разные темы. Чтобы отыскать ту самую через хабы и блоги, может потребоваться о-о-очень много времени. Без поиска пользователи могут не найти то, что им нужно, решить, что здесь этого нет и уйти в другой сервис.

В этой статье расскажу, через какие этапы обычно проходит внедрение поиска и как подход к нему меняется с ростом компании, какие задачи вам предстоит решить, а ещё — какие метрики помогут понять, что вы на верном пути.

+22

hommforever 7 сен 2023 в 10:34

YandexGPT 2 — большое обновление языковой модели Яндекса

Простой

4 мин

51K

Блог компании ЯндексПоисковые технологии*Машинное обучение*Искусственный интеллектIT-компании

Сегодня на конференции Practical ML Conf была представлена новая версия нашей большой языковой модели YandexGPT 2. Она уже работает в навыке Алисы «Давай придумаем», где помогает структурировать информацию, генерировать идеи, писать тексты и многое другое. Новая модель отвечает лучше старой в 67% случаев, а в некоторых сценариях побеждает с ещё бо́льшим перевесом. Этого результата мы добились благодаря улучшениям на каждом этапе обучения модели, но ключевое изменение — новый pretrain.

Коротко расскажу о том, что изменилось в процессе обучения модели, в каких сценариях это принесло наибольший эффект и чем мы планируем заниматься дальше.

Читать дальше →

+44

aGGre55or 1 сен 2023 в 08:00

YandexGPT тоже провалил тест на ручник

Средний

7 мин

41K

Информационная безопасность*Поисковые технологии*Open source*Машинное обучение*Исследования и прогнозы в IT*

Аналитика

Поскольку ChatGPT последних версий недосягаем для честной российской белошвейки, все мы возлагаем огромные надежды на отечественного производителя.

[ Пятница ]

+69

gtkek 31 авг 2023 в 14:20

Основы полнотекстового поиска в ElasticSearch. Часть вторая

Средний

9 мин

12K

Блог компании Sportmaster LabПоисковые технологии*IT-инфраструктура*NoSQL*

FAQ

✏️ Технотекст 2023

Это вторая статья из цикла. В первой части я рассказывал про самые базовые понятия Elasticsearch. В этом же посте разберем устройство анализа текста и немного пощупаем полнотекстовый поиск.

Несколько слов про анализ текста

Анализ текста — процесс преобразования оригинального текста в структурированный формат, оптимизированный под эффективное хранение и быстрый поиск.

Мы уже познакомились с некоторыми типами Elasticsearch, но в этом разделе будем рассматривать только два — keyword и text. Тип text анализируется для полнотекстового поиска. Тип keyword преимущественно остается без изменений для точного поиска, сортировки и агрегации.

+26

BraveSoftware 29 авг 2023 в 13:43

Запущен полностью независимый поиск по изображениям и видео в Поиске Brave

Простой

3 мин

1.5K

Блог компании BraveПоисковые технологии*

Кейс

Перевод

Теперь все результаты поиска по изображениям и видео в Поиске Brave обрабатываются исключительно Brave. Пользователям больше не нужно выбирать между Bing и Google для поиска по таким данным.

В мае этого года мы убрали все остававшиеся запросы к API поиска Bing для изображений и видео. На время переходного периода между удалением Bing (он применялся лишь для 7% запросов) и переходом на наше собственное решение, мы временно предоставили пользователям возможность альтернативного поиска по изображениям и видео через редирект на Bing и Google, что позволило сохранить поисковые привычки тех пользователей, которым это было важно. Теперь наш поиск независим от этих шпионящих корпораций.

gtkek 24 авг 2023 в 14:32

Основы полнотекстового поиска в ElasticSearch. Часть первая

Средний

5 мин

15K

Блог компании Sportmaster LabПоисковые технологии*IT-инфраструктура*NoSQL*Поисковая оптимизация*

FAQ

Привет! Меня зовут Глеб, я разработчик команды продукта «Сервис персонализации» в SM Lab. В цикле из трех постов я расскажу про основы полнотекстового поиска в Elasticsearch.

Данный цикл статей предназначен для всех, но будет особенно актуальным для тех читателей, кто только начинает свое знакомство с Elasticsearch. Я надеюсь, каждый из вас найдет что-то полезное для себя.

В первой части обсудим самые базовые понятия Elasticsearch. Во второй части разберем механизмы анализа текста и полнотекстового поиска. В заключительной части взглянем на стандартную модель ранжирования документов в Elasticsearch.

Итак, начнём с самых базовых понятий.

+21

EkaterinaMz 18 авг 2023 в 14:36

SEO-продвижение нового сайта: примеры, фишки, особенности

Средний

5 мин

7.9K

Поисковые технологии*Поисковая оптимизация*

Из песочницы

В статье расскажем о ключевых аспектах SEO-продвижения нового сайта в 2023 году, обсудим важность планирования структуры сайта, эффективного исследования ключевых слов, создания ориентированного на пользователя контента и многое другое. Также рассмотрим последние тренды в SEO, такие как мобильная оптимизация, голосовой поиск, искусственный интеллект и машинное обучение, и их влияние на стратегии продвижения.

Неважно, являетесь ли вы опытным SEO-специалистом, который хочет обновить знания, или новичком, только начинающим путь в мире SEO, эта статья будет полезной для вас в любом случае. В ней вы найдете много ценных советов и рекомендаций, которые помогут увеличить эффективность ваших SEO-усилий в 2023 году.

Существует два основных фактора, определяющих специфику продвижения молодого сайта.

alizar 14 авг 2023 в 12:00

Почему нельзя доверять Google

Простой

6 мин

65K

Блог компании RUVDS.comПоисковые технологии*Google ChromeБраузерыIT-компании

Мнение

В 2005 году компания Google решила вступить в конкуренцию с ICQ, MSN и Skype — и выпустила мессенджер Google Talk (Gchat) на открытом протоколе XMPP с распределённой архитектурой. Казалось бы, замечательно: Google продвигает открытый свободный протокол! Как бы не так.

Google не уважала спецификации, не поддерживала все функции XMPP. В итоге разработка открытого стандарта затормозилась, чтобы адаптироваться к действиям Google. Классные новые функции (например, аватарки) никто не использовал, потому что их не поддерживал Google Talk. Разработчики XMPP стали выполнять роль сисадминов для серверов Google.

Финал немного предсказуем: в 2013 году Google решила закрыть Gtalk/XMPP и забыть о нём, что практически остановило развитие XMPP на долгие годы. Сообщество до сих пор не восстановилось от того удара. Это пример вреда, который Google/Meta*/Microsoft наносят IT-индустрии. И так у них во всём… Главное — собственные интересы, на остальных наплевать.

Читать дальше →

+142

274

seo7908801 8 авг 2023 в 10:06

Улучшение индексации страниц в Google при помощи GPT3

Средний

7 мин

2.1K

Поисковые технологии*Поисковая оптимизация*

Кейс

Почему некоторые молодые интернет магазины сразу получают хороший поисковый трафик, а другие не имеют результата даже через несколько лет? Все дело в индексации страниц поисковой системой Google. Если документы не попадают в индекс, то сайт не приносит трафик и клиентов.

Сегодня постараемся разобраться, что такое индексирование сайта, от чего оно зависит и как можно правильно применить бесплатный инструмент GPT3 для улучшения индекса интернет магазина.

-4

ITMan82 3 авг 2023 в 13:34

Google сдает позиции. Люди все чаще ищут с помощью TikTok и Reddit

7 мин

3.6K

Блог компании ГК ITGLOBAL.COMПоисковые технологии*Поисковая оптимизация*

Перевод

Через несколько лет выражение «загугли это» может перестать быть актуальным. Google постепенно перестает ассоциироваться с поиском информации в Интернете. Вырастает целая категория пользователей, которая пользуется совсем другими методами поиска, и которых SEO-ссылками не проймешь.

Конечно, Google по-прежнему остается королем поиска. Платформа, по данным SimilarWeb, занимает 92% мирового рынка поисковых систем. На мобильных устройствах доминирование еще более существенное: 95%. Но все чаще пользователи публично жалуются на качество её работы, и есть немало признаков падения её качества.

ru_vds 2 авг 2023 в 16:00

Маленький поисковик, который не смог

Простой

14 мин

28K

Блог компании RUVDS.comПоисковые технологии*БраузерыИскусственный интеллектIT-компании

Кейс

Перевод

Пара бывших сотрудников Google решила создать поисковый движок будущего. Они собрали нечто более быстрое, простое и без рекламы. Почему же так вышло, что большинство людей ничего не слышало о Neeva?

Сридхар Рамасвами ушёл из Google не для того, чтобы создать другой поисковый движок. По крайней мере, изначально. В завершение своей 15-летней карьеры в Google Рамасвами управлял целым рекламным отделом компании, руководя более чем десятью тысячами людей, и лучше других знал, какой объём работы необходим, чтобы реализовать поиск правильно.

Нельзя переоценить степень доминирования Google в мире поиска. По данным большинства исследований, Google владеет примерно девяноста процентами мирового рынка поисковиков, и это число стабильно росло в течение двадцати лет. Google — поисковый движок, используемый по умолчанию почти в каждом браузере, почти на каждом устройстве. Мы не выполняем поиск в Интернете, мы гуглим. Вторым и третьим в списке идут Bing и Yahoo, но когда вы в последний раз искали что-нибудь в Bing или Yahoo? Для поддержания своего доминирования Google тратит огромные политические, инженерные и финансовые капиталы.

Но больше остальных Рамасвами знал и то, что Google не может или не хочет сделать со своим движком. Имея миллиарды пользователей и сотни миллиардов долларов, Google не будет рисковать, исследуя существенные изменения в своей странице результатов, новые бизнес-модели или любые продукты, которые заставят пользователей меньше заниматься поиском (Рамасвами тестировал функцию Google Contributor, позволявшую людям платить за отсутствие рекламы на некоторых сайтах, но система не взлетела). Возникла возможность, которой Google просто не могла и не хотела бы пользоваться. Поэтому когда Рамасвами ушёл из компании в 2018 году, они с Вивеком Рагхунатаном (давним руководителем высшего звена Google и YouTube) основали компанию Neeva для создания поискового движка будущего.

Читать дальше →

+65

DjMpegAlex 27 июл 2023 в 11:31

Обработка растровых данных для ML-индикации оруденения. Или как можно сэкономить миллиарды на геологоразведке

Сложный

8 мин

1.5K

Поисковые технологии*Python*Обработка изображений*Геоинформационные сервисы*Машинное обучение*

Из песочницы

Цифровой бум в поисках золота продолжается.

Мы активно стали применять метод обработки первичных растровых данных для последующего применения методов ML с целью индикации вероятной локализации оруденения. И даже есть отличные результаты.

История индикатора уходит в недалекий 2018 год, когда с развитием цифровых технологий многие разочаровались в этом, ожидая что‑то грандиозного, когда система сама покажет, где искать, где копать. Тогда и зародилась идея о том, что нужна не просто «указка», где искать, а индикатор, чтобы он как бы подсвечивал вероятные участки оруденения. В данной статье разберу пару успешных кейсов как следствие применения данной разработки.

Но сначала о самом методе...

alguryanov 25 июл 2023 в 15:21

Приглашаем на Ozon Tech Intro meetup: как работают системы поиска, рекомендаций и рекламы

2 мин

1.1K

Блог компании Ozon TechПоисковые технологии*Java*Поисковая оптимизация*Конференции

UPD: Добавили записи докладов и слайды

Всем привет!
Меня зовут Алексей, я руководитель отдела по продукту и технологиям «Рекомендации и персонализация».

Мы уделяем много времени проектированию архитектуры, улучшению скорости и оптимизации алгоритмов:

• Ищем пути продукта и UX.

• Ускоряем рантайм поиска.

• Используем ML для рекламной платформы.

• Обучаем модели для наилучшего результата рекомендаций.

И со всем этим ещё и закапываемся в аналитику и проводим множество A/B-экспериментов.

Наша команда решает задачи, в которых используются интересные структуры данных и алгоритмы.

Dasfex 25 июл 2023 в 10:01

Три движка для одной Лавки: как эволюционировала система поиска в сервисе

Средний

12 мин

4.9K

Блог компании ЯндексПоисковые технологии*Программирование*Машинное обучение*Распределённые системы*

Кейс

Лавка — сервис быстрой доставки продуктов. Один из важнейших сценариев использования сервиса для покупателя — это поиск. Примерно 30% товаров добавляются в корзину именно из его результатов. А ещё, если в пользовательской сессии был успешный запрос в поиск, вероятность совершения заказа вырастает на 10–15%. То есть, если клиенту нужен конкретный продукт и он его быстро находит через поиск, вероятность совершения заказа становится выше.

Корректная и качественная организация поиска — нетривиальная задача, поэтому иногда приходится придумывать нестандартные решения, чтобы всё работало как нужно. В этой статье я расскажу историю развития поиска в Лавке от самого начала до текущего момента. Нам пришлось объединить всю силу и мощь целых трёх движков, чтобы пользователи получали точный и актуальный результат. Параллельно погрузимся в различные технические детали, проблемы и прочие нюансы.

Найти товары!

+14

Keva 21 июл 2023 в 12:36

Зализняк: основа русской прикладной лингвистики

8 мин

8.7K

Блог компании МойОфисПоисковые технологии*Семантика*Читальный зал

При построении прикладных систем, работающих с текстами, первая же задача — это отождествление слов друг с другом. Для большинства языков индо-европейской группы её решение не представляет большой сложности. И решений этих существуют сотни, а самые простые из них, как правило, дают вполне пригодные (в рамках решаемой задачи) результаты.

Английский, с его весьма условным делением на части речи и практически отсутствующим склонением/спряжением, вполне прилично описывается простыми моделями выделения неизменяемой основы слова (стеммерами) с небольшим словариком исключений буквально на сотню слов. Слова немецкого прекрасно бьются на части по формальным признакам, словарю корней и принципу «максимума суммы квадратов длин». Системы окончаний других европейских языков также достаточно просты.

Со славянскими языками сложнее из-за развитой грамматики и глубокой изменчивости — любое русское прилагательное, к примеру, имеет как минимум двадцать четыре разных грамматических формы: три рода и множественное число, да по шесть оставшихся на сегодня падежей. А то и все двадцать девять, если принять во внимание краткие формы (широк, широка, широки) и образуемое от многих прилагательных наречие.

Для решения задачи отождествления разных форм существует некоторое количество реализаций морфологических анализаторов русского. Но почти все они — во всяком случае, заслуживающие внимания — растут из одного корня...

(По материалам внутреннего семинара компании МойОфис)

+99

1 2

4 5 ...

51 52

Поисковые технологии *

Awakari в Telegram

Как сделать поиск в интернет-магазине

Поиск информации в интернете: Google и DuckDuckGo — часть 1

Неограниченный доступ к знаниям: библиотека Стандартных Шаблонных Конструкций

Истории

Основы полнотекстового поиска в ElasticSearch. Часть третья

Как организовать поиск в стартапе, который планирует вырасти до масштабов ВКонтакте

YandexGPT 2 — большое обновление языковой модели Яндекса

YandexGPT тоже провалил тест на ручник

Основы полнотекстового поиска в ElasticSearch. Часть вторая

Запущен полностью независимый поиск по изображениям и видео в Поиске Brave

Основы полнотекстового поиска в ElasticSearch. Часть первая

SEO-продвижение нового сайта: примеры, фишки, особенности

Почему нельзя доверять Google

Ближайшие события

Улучшение индексации страниц в Google при помощи GPT3

Google сдает позиции. Люди все чаще ищут с помощью TikTok и Reddit

Маленький поисковик, который не смог

Обработка растровых данных для ML-индикации оруденения. Или как можно сэкономить миллиарды на геологоразведке

Приглашаем на Ozon Tech Intro meetup: как работают системы поиска, рекомендаций и рекламы

Три движка для одной Лавки: как эволюционировала система поиска в сервисе

Зализняк: основа русской прикладной лингвистики

Вклад авторов