Поисковые технологии *

От AltaVista до Яндекса

СтатьиПостыНовостиАвторыКомпании

DjMpegAlex 27 июл 2023 в 08:31

Обработка растровых данных для ML-индикации оруденения. Или как можно сэкономить миллиарды на геологоразведке

Сложный

8 мин

1.8K

Python * Геоинформационные сервисы * Машинное обучение * Поисковые технологии * Обработка изображений *

Из песочницы

Цифровой бум в поисках золота продолжается.

Мы активно стали применять метод обработки первичных растровых данных для последующего применения методов ML с целью индикации вероятной локализации оруденения. И даже есть отличные результаты.

История индикатора уходит в недалекий 2018 год, когда с развитием цифровых технологий многие разочаровались в этом, ожидая что‑то грандиозного, когда система сама покажет, где искать, где копать. Тогда и зародилась идея о том, что нужна не просто «указка», где искать, а индикатор, чтобы он как бы подсвечивал вероятные участки оруденения. В данной статье разберу пару успешных кейсов как следствие применения данной разработки.

Но сначала о самом методе...

alguryanov 25 июл 2023 в 12:21

Приглашаем на Ozon Tech Intro meetup: как работают системы поиска, рекомендаций и рекламы

2 мин

1.9K

Блог компании Ozon TechКонференцииПоисковая оптимизация * Java * Поисковые технологии *

UPD: Добавили записи докладов и слайды

Всем привет!
Меня зовут Алексей, я руководитель отдела по продукту и технологиям «Рекомендации и персонализация».

Мы уделяем много времени проектированию архитектуры, улучшению скорости и оптимизации алгоритмов:

• Ищем пути продукта и UX.

• Ускоряем рантайм поиска.

• Используем ML для рекламной платформы.

• Обучаем модели для наилучшего результата рекомендаций.

И со всем этим ещё и закапываемся в аналитику и проводим множество A/B-экспериментов.

Наша команда решает задачи, в которых используются интересные структуры данных и алгоритмы.

Dasfex 25 июл 2023 в 07:01

Три движка для одной Лавки: как эволюционировала система поиска в сервисе

Средний

12 мин

6.6K

Блог компании ЯндексПоисковые технологии * Программирование * Машинное обучение * Распределённые системы *

Кейс

Лавка — сервис быстрой доставки продуктов. Один из важнейших сценариев использования сервиса для покупателя — это поиск. Примерно 30% товаров добавляются в корзину именно из его результатов. А ещё, если в пользовательской сессии был успешный запрос в поиск, вероятность совершения заказа вырастает на 10–15%. То есть, если клиенту нужен конкретный продукт и он его быстро находит через поиск, вероятность совершения заказа становится выше.

Корректная и качественная организация поиска — нетривиальная задача, поэтому иногда приходится придумывать нестандартные решения, чтобы всё работало как нужно. В этой статье я расскажу историю развития поиска в Лавке от самого начала до текущего момента. Нам пришлось объединить всю силу и мощь целых трёх движков, чтобы пользователи получали точный и актуальный результат. Параллельно погрузимся в различные технические детали, проблемы и прочие нюансы.

Найти товары!

+14

Keva 21 июл 2023 в 09:36

Зализняк: основа русской прикладной лингвистики

8 мин

10K

Блог компании МойОфисПоисковые технологии * Семантические сети * Читальный зал

При построении прикладных систем, работающих с текстами, первая же задача — это отождествление слов друг с другом. Для большинства языков индо-европейской группы её решение не представляет большой сложности. И решений этих существуют сотни, а самые простые из них, как правило, дают вполне пригодные (в рамках решаемой задачи) результаты.

Английский, с его весьма условным делением на части речи и практически отсутствующим склонением/спряжением, вполне прилично описывается простыми моделями выделения неизменяемой основы слова (стеммерами) с небольшим словариком исключений буквально на сотню слов. Слова немецкого прекрасно бьются на части по формальным признакам, словарю корней и принципу «максимума суммы квадратов длин». Системы окончаний других европейских языков также достаточно просты.

Со славянскими языками сложнее из-за развитой грамматики и глубокой изменчивости — любое русское прилагательное, к примеру, имеет как минимум двадцать четыре разных грамматических формы: три рода и множественное число, да по шесть оставшихся на сегодня падежей. А то и все двадцать девять, если принять во внимание краткие формы (широк, широка, широки) и образуемое от многих прилагательных наречие.

Для решения задачи отождествления разных форм существует некоторое количество реализаций морфологических анализаторов русского. Но почти все они — во всяком случае, заслуживающие внимания — растут из одного корня...

(По материалам внутреннего семинара компании МойОфис)

+100

uranusq 28 июн 2023 в 13:38

Googlим бесплатно (и Яндексим): open-source решение с API

Простой

6 мин

8.2K

Open source * Google API * Яндекс API * Программирование * Поисковые технологии *

Кейс

Бесплатно? Конечно же никто у вас деньги за "пойти в гугл" не возьмет... А что если попытаться автоматизировать сей процесс? Вот тут то возникают проблемы и чернозём для бизнесов.

Как и в прошлой статье я полез доставать файлы из интернетов, на этот раз из Гуглов. История повторилась и я осознал, что где-то в закромах у меня был код для этого. С радостью начав его изучать, понял, что радости там не много и легче найти что-то готовое...

Далее мы мельком посмотрим: какие решения на текущий момент нам может предложить рыночек, что и с какими дефектами отдают даром. Также изучим какие проблемы возникают при автоматизации сего процесса и как в конечном итоге это можно сделать легко и бесплатно!

Elya_Snezhkova 20 июн 2023 в 05:00

Тестируем поиск 2ГИС: единороги и счастье пользователя

7 мин

4.4K

Блог компании 2ГИСТестирование веб-сервисов * Геоинформационные сервисы * Поисковые технологии *

2ГИС — миллионы организаций и геообъектов, которые ищут в поиске. И чем точнее работает поиск, тем лучше для пользователя.

Я Эля Снежкова, лид команды тестирования. Мы проверяем, насколько быстро и эффективно работает поиск в 2ГИС. Расскажу, как мы тестируем, про единорогов в тестировании и как мы измеряем счастье пользователя.

+16

akurilov 19 июн 2023 в 10:33

Дерево Киви для поиска шаблонов по тексту

Средний

4 мин

3.2K

Мессенджеры * Поисковые технологии * Алгоритмы * Регулярные выражения *

Кейс

История этого эксперимента началась где-то в 2022 году с желания фильтровать поступающую из разнородных каналов информацию. В современном мире люди вынуждены находиться в бурном потоке всевозможных новостей, публикаций и коммерческих объявлений и вручную пытаться найти в этом потоке то, что им нужно.

BraveSoftware 19 июн 2023 в 09:14

Запускаем API Поиска Brave: больше конкуренции и независимости на рынке поиска

Простой

4 мин

1.8K

Блог компании BraveПоисковые технологии * Проектирование API * Браузеры

Обзор

Перевод

Мы запускаем API Поиска Brave, который предоставит доступ к нашему движку компаниям и разработчикам по всему миру, нуждающимся в технологиях сетевого поиска для новых поколений своих приложений.

Поиск Brave — это единственный защищающий конфиденциальность пользователей и независимый поисковый индекс на западе, и мы являемся конкурентами большого брата в лице Google и Microsoft Bing. API Поиска Brave позволит каждому получить миллиарды конфиденциальных и исключающих рекламу результатов поиска в Сети с помощью простого вызова API.

aleksandrsopoev 12 июн 2023 в 07:33

Эмодзи как альтернативный способ поиска в картографических сервисах

Простой

8 мин

1.3K

Поисковые технологии * Геоинформационные сервисы *

Из песочницы

Приложение.

Введение

Эмодзи — это своеобразный картиночный язык, это набор смыслов, выраженных с помощью визуальных образов.

За каждым эмодзи стоит определённое его значение. Примеры — можно посмотреть в поиске по эмодзи и / или же в специальных сервисах перевода, например в Яндекс.Переводчике. Есть значения, которые вполне можно использовать в поиске.

Если в поисковой системе человек вбивает эмодзи сам по себе (пример — ?), то не столь очевидно что именно он хочет в результатах поиска — просто подробнее узнать о значении этого эмодзи или же что-то другое, например связанное с такси. И если у пользователя при формировании запроса есть потребность «заказать такси» — в связке с эмодзи ему нужно использовать дополнительные уточняющие слова, такие как «заказать».

А вот в картах за счёт контекста — можно сузить возможную потребность до навигационной и тем самым, возможно, избежать необходимости использования дополнительных уточняющих слов. Если на картах человек вбивает в качестве запроса ?, то это по идее также как и запросы «такси», «заказать ?», «заказать такси» может означать именно поиск такси. Это значит, что эмодзи как возможный язык ввода, кажется, в ряде случаев может быть вполне применим и самодостаточен (не требующий ввода дополнительных слов для уточнения потребности пользователя), потому что использование карт само по себе может сужать список возможных потребностей пользователей до необходимости найти конкретное место и/или организацию.

Использование эмодзи как способ поиска на картах, среди прочего, кажется может быть особо полезен тем кто не знает языка, не умеет или не может напечатать запрос и не может воспользоваться голосовым помощником для формирования запроса.

Один из способов реализовать возможность такого поиска — привязать к каждому эмодзи свой смысл-сущность, который будет одинаков на обеих сторонах:

• картографического сервиса — при выдаче информации по запросу,

• пользователя — для формирования запроса.

+10

garipovazamat 11 июн 2023 в 06:45

Оптимизация поиска объявлений по датам бронирования посуточной аренды

Средний

9 мин

2.1K

Блог компании ЦианПоисковая оптимизация * Поисковые технологии *

Кейс

Всем привет! Меня зовут Азамат, я backend-разработчик в Циан, занимаюсь поисковыми сервисами. В статье я расскажу, как мы в команде оптимизировали поиск объявлений по датам бронирования в разделе посуточной аренды. Как мы решили проблему роста потребления cpu, ускорили сам поиск и удешевили железо.

Статья будет особенно полезна тем, кто хочет лучше узнать, как работает elasticsearch, занимается разработкой и поддержкой поисковых сервисов, и у кого есть потребность оптимизировать нетривиальный поиск.

hommforever 5 июн 2023 в 07:29

YandexGPT в Алисе: как мы создаём языковую модель нового поколения

7 мин

50K

Блог компании ЯндексIT-компанииИскусственный интеллектМашинное обучение * Поисковые технологии *

✏️ Технотекст 2023

Обучение больших языковых моделей — это одно из самых актуальных направлений в машинном обучении. Крупнейшие IT-компании бьются над созданием всё более совершенных моделей. В том числе и Яндекс: мы создаём и применяем в наших сервисах нейросети YaLM уже больше двух лет.

В этом году улучшение моделей стало приоритетным на уровне всей компании. Внутри эта работа известна как проект «Генезис» или YaLM 2.0. Её результатом стал большой скачок в качестве наших моделей.

Новая модель получила название YandexGPT (YaGPT), вы могли впервые попробовать её в Алисе по запросу «Давай придумаем» чуть больше двух недель назад. Сегодня мы обновили YaGPT: Алиса научилась писать ответы с учётом истории предыдущих сообщений. В честь этого хотим рассказать Хабру историю всего проекта. Уже в ближайшее время новая модель станет частью и других сервисов Яндекса.

Читать дальше →

+61

Angelina_Kurgak 2 июн 2023 в 16:51

Применение Python для сбора и предобработки данных цифрового следа

Простой

6 мин

Поисковые технологии * Python * Google ChromeBig Data * Поисковая оптимизация *

Обзор

Из песочницы

Python для сбора и предобработки данных цифрового следа.

Про цифровой след обычно говорят лишь в общих чертах, и описание программирования для работы с ним лишь упоминают. В данной статье рассмотрен набор библиотек Python и приемов, которые можно использовать для сбора и предобработки данных цифрового следа.

qwertyforce 2 июн 2023 в 14:39

Автоматический майнинг изображений

Средний

6 мин

4.6K

Искусственный интеллектМашинное обучение * Обработка изображений * Python * Поисковые технологии *

Кейс

В предыдущих статьях мы рассказали, как создать фотогалерею с собственной поисковой системой [1,2]¹. Но где нам найти изображения для нашей галереи? Нам придется вручную искать источники «хороших» изображений, а затем вручную проверять, является ли каждое изображение «хорошим». Можно ли автоматизировать обе эти задачи? Ответ — да.

+11

EkaterinaMz 31 мая 2023 в 13:53

Как ранжируются сайты в тематике криптовалют?

Средний

6 мин

1.2K

Поисковые технологии * Поисковая оптимизация * Криптовалюты

Аналитика

В последнее время наблюдается определенная динамика выдачи, связанная с выходами на лидерские позиции в выдаче новых сайтов, таких как VPN-агрегаторы.

Выход в ТОП подобных сайтов за короткий срок (домен зарегистрирован 20 сентября 2022), очевидно, подразумевает высокую работоспособность накрутки, однако, это не единственный и часто далеко не главный драйвер роста сайтов в нише.

Arnak 22 мая 2023 в 11:07

Neeva, «платный» конкурент Google, закрывает свой поисковик. Почему?

6 мин

14K

Блог компании getmatchРазвитие стартапаПоисковые технологии * Искусственный интеллект

Два года назад я писал о потенциальном новом поисковике, дерзнувшем бросить вызов гигантам — Google и Bing. С упором на приватность данных и (шок!) платным поиском. Который жил бы не за счет продажи данных пользователей рекламодателям. Со слоганом «Вы — не продукт». Так вот, вчера он объявил о своем закрытии. По крайней мере, в качестве поисковой системы. Ставка на то, что некоторые пользователи готовы платить за безопасность своих данных, не оправдалась. Людей, не пожелавших быть продуктами, оказалось немного.

Читать дальше →

+38

GalsSoftware 20 мая 2023 в 03:19

Репликация сегментов в OpenSearch

Средний

4 мин

2.9K

NoSQL * Open source * Базы данных * Поисковая оптимизация * Поисковые технологии *

Обзор

Многие наши коллеги всё больше смотрят в сторону OpenSearch, который постепенно обрастает всё новыми и новыми функциями. В телеграм-канале мы уже публиковали пост с описанием обновлений в версии 2.7, среди которых есть репликация сегментов (есть ещё и поиск по снэпшотам, но о нём как-нибудь в другой раз). Репликация сегментов — это альтернатива репликации документов. При репликации документов все ноды-реплики выполняют ту же операцию индексирования, что и основная нода. При репликации сегментов только основная нода выполняет операцию индексирования, создавая файлы сегментов, которые далее копируются на каждую ноду-реплику. При такой схеме репликации нагрузка по индексированию ложится только на основную ноду, освобождая ресурсы на репликах для использования под другие операции. В этом посте мы расскажем о концепции репликации сегментов, преимуществах и недостатках по сравнению с репликацией документов. Велком ту подкат.

Читать дальше →

rrromochka 17 мая 2023 в 10:19

Как поисковики индексируют контент нейросетей? Что ждет Google, Yandex и Bing?

Простой

15 мин

5.6K

Поисковые технологии * Поисковая оптимизация * Искусственный интеллект

Мнение

Вопрос индексации и ранжирования в поисковых системах беспокоит многих, кто пользуется нейросетями для генерации текстов, изображений и всего, что умеют создавать технологии искусственного интеллекта. Мы подготовили большой материал, собрали мнения ТОП SEO‑специалистов о тонкостях работы поисковиков и об отношении к контенту, сделанному при помощи ИИ.

alizar 10 мая 2023 в 12:57

Бесплатные фронтенды к ChatGPT

Простой

5 мин

49K

Natural Language Processing * Будущее здесьИскусственный интеллектМашинное обучение * Поисковые технологии *

Обзор

Специалист без доступа к ChatGPT сегодня сродни бухгалтеру XX века без компьютера. Конечно, он может работать, но не так эффективно.

Ещё немного, и владение ChatGPT станет почти обязательным требованием квалифицированного сотрудника по многим специальностям. Поэтому печально, что разработчики OpenAI ограничили тестирование инструмента только пользователями с зарубежными SIM-картами. В этой ситуации у нас три выхода:

Съездить в соседнюю страну и приобрести SIM-карту (например, в Польше она стоит 5 злотых у оператора Play24, без абонентской платы, и многократно пригодится в будущем, так что это полезная инвестиция).
Купить «одноразовую» виртуальную симку на одном из полулегальных сервисов, чтобы получить SMS (без гарантии, потому что эту симку тысячи раз перепродают).
Воспользоваться сторонним фронтендом, который даёт доступ к ChatGPT из России без VPN и СМС.

На третьем пункте и остановимся. Любопытно, что созданием таких фронтендов занялись в основном русскоязычные разработчики, потому что на западе у всех есть доступ к оригиналу, а вот в РФ это проблема. Статья о регистрации ChatGPT на левую симку стала самой популярной на Хабре за последние несколько лет, если не подводит память (1,2 млн просмотров).

Читать дальше →

+23

BraveSoftware 4 мая 2023 в 09:01

Поисковик Brave: окончательно рвём связи с Bing

Простой

3 мин

3.3K

Блог компании BraveПоисковые технологии *

Кейс

Перевод

Теперь абсолютно каждый результат Поиска Brave получен исключительно из нашего собственного индекса. Мы окончательно избавились от любых запросов по API к Bing (раньше они составляли примерно 7% от поисковой выдачи).

Scraponist 3 мая 2023 в 07:13

Как ускорить бинарный поиск

Простой

7 мин

11K

Python * Базы данных * Алгоритмы * Поисковая оптимизация * Поисковые технологии *

Из песочницы

Приветствую, сообщество Habr.

Я хочу рассказать о том, как ускорить бинарный поиск и как с его помощью искать информацию в текстовом файле быстрее, чем в любой базе данных.

1 2 ...

9 10

12 13 ...

58 59

Поисковые технологии *

Обработка растровых данных для ML-индикации оруденения. Или как можно сэкономить миллиарды на геологоразведке

Приглашаем на Ozon Tech Intro meetup: как работают системы поиска, рекомендаций и рекламы

Три движка для одной Лавки: как эволюционировала система поиска в сервисе

Зализняк: основа русской прикладной лингвистики

Googlим бесплатно (и Яндексим): open-source решение с API

Тестируем поиск 2ГИС: единороги и счастье пользователя

Дерево Киви для поиска шаблонов по тексту

Запускаем API Поиска Brave: больше конкуренции и независимости на рынке поиска

Эмодзи как альтернативный способ поиска в картографических сервисах

Оптимизация поиска объявлений по датам бронирования посуточной аренды

YandexGPT в Алисе: как мы создаём языковую модель нового поколения

Применение Python для сбора и предобработки данных цифрового следа

Автоматический майнинг изображений

Ближайшие события

Как ранжируются сайты в тематике криптовалют?

Neeva, «платный» конкурент Google, закрывает свой поисковик. Почему?

Репликация сегментов в OpenSearch

Как поисковики индексируют контент нейросетей? Что ждет Google, Yandex и Bing?

Бесплатные фронтенды к ChatGPT

Поисковик Brave: окончательно рвём связи с Bing

Как ускорить бинарный поиск

Вклад авторов