Обновить
47.26

Поисковые технологии *

От AltaVista до Яндекса

Сначала показывать
Порог рейтинга
Уровень сложности

Обработка растровых данных для ML-индикации оруденения. Или как можно сэкономить миллиарды на геологоразведке

Уровень сложностиСложный
Время на прочтение8 мин
Количество просмотров1.8K

Цифровой бум в поисках золота продолжается.

Мы активно стали применять метод обработки первичных растровых данных для последующего применения методов ML с целью индикации вероятной локализации оруденения. И даже есть отличные результаты.

История индикатора уходит в недалекий 2018 год, когда с развитием цифровых технологий многие разочаровались в этом, ожидая что‑то грандиозного, когда система сама покажет, где искать, где копать. Тогда и зародилась идея о том, что нужна не просто «указка», где искать, а индикатор, чтобы он как бы подсвечивал вероятные участки оруденения. В данной статье разберу пару успешных кейсов как следствие применения данной разработки.

Но сначала о самом методе...

Читать далее

Приглашаем на Ozon Tech Intro meetup: как работают системы поиска, рекомендаций и рекламы

Время на прочтение2 мин
Количество просмотров1.9K

UPD: Добавили записи докладов и слайды

Всем привет!
Меня зовут Алексей, я руководитель отдела по продукту и технологиям «Рекомендации и персонализация».

Мы уделяем много времени проектированию архитектуры, улучшению скорости и оптимизации алгоритмов:

Ищем пути продукта и UX.

Ускоряем рантайм поиска.

Используем ML для рекламной платформы.

Обучаем модели для наилучшего результата рекомендаций.

И со всем этим ещё и закапываемся в аналитику и проводим множество A/B-экспериментов.

Наша команда решает задачи, в которых используются интересные структуры данных и алгоритмы. 

Читать далее

Три движка для одной Лавки: как эволюционировала система поиска в сервисе

Уровень сложностиСредний
Время на прочтение12 мин
Количество просмотров6.6K

Лавка — сервис быстрой доставки продуктов. Один из важнейших сценариев использования сервиса для покупателя — это поиск. Примерно 30% товаров добавляются в корзину именно из его результатов. А ещё, если в пользовательской сессии был успешный запрос в поиск, вероятность совершения заказа вырастает на 10–15%. То есть, если клиенту нужен конкретный продукт и он его быстро находит через поиск, вероятность совершения заказа становится выше.

Корректная и качественная организация поиска — нетривиальная задача, поэтому иногда приходится придумывать нестандартные решения, чтобы всё работало как нужно. В этой статье я расскажу историю развития поиска в Лавке от самого начала до текущего момента. Нам пришлось объединить всю силу и мощь целых трёх движков, чтобы пользователи получали точный и актуальный результат. Параллельно погрузимся в различные технические детали, проблемы и прочие нюансы.

Найти товары!

Зализняк: основа русской прикладной лингвистики

Время на прочтение8 мин
Количество просмотров10K

При построении прикладных систем, работающих с текстами, первая же задача — это отождествление слов друг с другом. Для большинства языков индо-европейской группы её решение не представляет большой сложности. И решений этих существуют сотни, а самые простые из них, как правило, дают вполне пригодные (в рамках решаемой задачи) результаты.

Английский, с его весьма условным делением на части речи и практически отсутствующим склонением/спряжением, вполне прилично описывается простыми моделями выделения неизменяемой основы слова (стеммерами) с небольшим словариком исключений буквально на сотню слов. Слова немецкого прекрасно бьются на части по формальным признакам, словарю корней и принципу «максимума суммы квадратов длин». Системы окончаний других европейских языков также достаточно просты.

Со славянскими языками сложнее из-за развитой грамматики и глубокой изменчивости — любое русское прилагательное, к примеру, имеет как минимум двадцать четыре разных грамматических формы: три рода и множественное число, да по шесть оставшихся на сегодня падежей. А то и все двадцать девять, если принять во внимание краткие формы (широк, широка, широки) и образуемое от многих прилагательных наречие.

Для решения задачи отождествления разных форм существует некоторое количество реализаций морфологических анализаторов русского. Но почти все они — во всяком случае, заслуживающие внимания — растут из одного корня...

(По материалам внутреннего семинара компании МойОфис)

Читать далее

Googlим бесплатно (и Яндексим): open-source решение с API

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров8.2K

Бесплатно? Конечно же никто у вас деньги за "пойти в гугл" не возьмет... А что если попытаться автоматизировать сей процесс? Вот тут то возникают проблемы и чернозём для бизнесов.

Как и в прошлой статье я полез доставать файлы из интернетов, на этот раз из Гуглов. История повторилась и я осознал, что где-то в закромах у меня был код для этого. С радостью начав его изучать, понял, что радости там не много и легче найти что-то готовое...

Далее мы мельком посмотрим: какие решения на текущий момент нам может предложить рыночек, что и с какими дефектами отдают даром. Также изучим какие проблемы возникают при автоматизации сего процесса и как в конечном итоге это можно сделать легко и бесплатно!

Читать далее

Тестируем поиск 2ГИС: единороги и счастье пользователя

Время на прочтение7 мин
Количество просмотров4.4K

2ГИС — миллионы организаций и геообъектов, которые ищут в поиске. И чем точнее работает поиск, тем лучше для пользователя.

Я Эля Снежкова, лид команды тестирования. Мы проверяем, насколько быстро и эффективно работает поиск в 2ГИС. Расскажу, как мы тестируем, про единорогов в тестировании и как мы измеряем счастье пользователя.

Читать далее

Дерево Киви для поиска шаблонов по тексту

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров3.2K

История этого эксперимента началась где-то в 2022 году с желания фильтровать поступающую из разнородных каналов информацию. В современном мире люди вынуждены находиться в бурном потоке всевозможных новостей, публикаций и коммерческих объявлений и вручную пытаться найти в этом потоке то, что им нужно.

Читать далее

Запускаем API Поиска Brave: больше конкуренции и независимости на рынке поиска

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров1.8K

Мы запускаем API Поиска Brave, который предоставит доступ к нашему движку компаниям и разработчикам по всему миру, нуждающимся в технологиях сетевого поиска для новых поколений своих приложений.

Поиск Brave — это единственный защищающий конфиденциальность пользователей и независимый поисковый индекс на западе, и мы являемся конкурентами большого брата в лице Google и Microsoft Bing. API Поиска Brave позволит каждому получить миллиарды конфиденциальных и исключающих рекламу результатов поиска в Сети с помощью простого вызова API.

Читать далее

Эмодзи как альтернативный способ поиска в картографических сервисах

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров1.3K

Приложение.

Введение

Эмодзи — это своеобразный картиночный язык, это набор смыслов, выраженных с помощью визуальных образов.

За каждым эмодзи стоит определённое его значение. Примеры — можно посмотреть в поиске по эмодзи и / или же в специальных сервисах перевода, например в Яндекс.Переводчике. Есть значения, которые вполне можно использовать в поиске.

Если в поисковой системе человек вбивает эмодзи сам по себе (пример — ?), то не столь очевидно что именно он хочет в результатах поиска — просто подробнее узнать о значении этого эмодзи или же что-то другое, например связанное с такси. И если у пользователя при формировании запроса есть потребность «заказать такси» — в связке с эмодзи ему нужно использовать дополнительные уточняющие слова, такие как «заказать».

А вот в картах за счёт контекста — можно сузить возможную потребность до навигационной и тем самым, возможно, избежать необходимости использования дополнительных уточняющих слов. Если на картах человек вбивает в качестве запроса ?, то это по идее также как и запросы «такси», «заказать ?», «заказать такси» может означать именно поиск такси. Это значит, что эмодзи как возможный язык ввода, кажется, в ряде случаев может быть вполне применим и самодостаточен (не требующий ввода дополнительных слов для уточнения потребности пользователя), потому что использование карт само по себе может сужать список возможных потребностей пользователей до необходимости найти конкретное место и/или организацию.

Использование эмодзи как способ поиска на картах, среди прочего, кажется может быть особо полезен тем кто не знает языка, не умеет или не может напечатать запрос и не может воспользоваться голосовым помощником для формирования запроса.

Один из способов реализовать возможность такого поиска — привязать к каждому эмодзи свой смысл-сущность, который будет одинаков на обеих сторонах:

картографического сервиса — при выдаче информации по запросу,

пользователя — для формирования запроса.

Читать далее

Оптимизация поиска объявлений по датам бронирования посуточной аренды

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров2.1K

Всем привет! Меня зовут Азамат, я backend-разработчик в Циан, занимаюсь поисковыми сервисами. В статье я расскажу, как мы в команде оптимизировали поиск объявлений по датам бронирования в разделе посуточной аренды. Как мы решили проблему роста потребления cpu, ускорили сам поиск и удешевили железо.

Статья будет особенно полезна тем, кто хочет лучше узнать, как работает elasticsearch, занимается разработкой и поддержкой поисковых сервисов, и у кого есть потребность оптимизировать нетривиальный поиск.

Читать далее

YandexGPT в Алисе: как мы создаём языковую модель нового поколения

Время на прочтение7 мин
Количество просмотров50K
Обучение больших языковых моделей — это одно из самых актуальных направлений в машинном обучении. Крупнейшие IT-компании бьются над созданием всё более совершенных моделей. В том числе и Яндекс: мы создаём и применяем в наших сервисах нейросети YaLM уже больше двух лет.

В этом году улучшение моделей стало приоритетным на уровне всей компании. Внутри эта работа известна как проект «Генезис» или YaLM 2.0. Её результатом стал большой скачок в качестве наших моделей.

Новая модель получила название YandexGPT (YaGPT), вы могли впервые попробовать её в Алисе по запросу «Давай придумаем» чуть больше двух недель назад. Сегодня мы обновили YaGPT: Алиса научилась писать ответы с учётом истории предыдущих сообщений. В честь этого хотим рассказать Хабру историю всего проекта. Уже в ближайшее время новая модель станет частью и других сервисов Яндекса.



Читать дальше →

Применение Python для сбора и предобработки данных цифрового следа

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров8K

Python для сбора и предобработки данных цифрового следа.

Про цифровой след обычно говорят лишь в общих чертах, и описание программирования для работы с ним лишь упоминают. В данной статье рассмотрен набор библиотек Python и приемов, которые можно использовать для сбора и предобработки данных цифрового следа.

Читать далее

Автоматический майнинг изображений

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров4.6K

В предыдущих статьях мы рассказали, как создать фотогалерею с собственной поисковой системой [1,2]1. Но где нам найти изображения для нашей галереи? Нам придется вручную искать источники «хороших» изображений, а затем вручную проверять, является ли каждое изображение «хорошим». Можно ли автоматизировать обе эти задачи? Ответ — да.

Читать далее

Ближайшие события

Как ранжируются сайты в тематике криптовалют?

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров1.2K

В последнее время наблюдается определенная динамика выдачи, связанная с выходами на лидерские позиции в выдаче новых сайтов, таких как VPN-агрегаторы

Выход в ТОП подобных сайтов за короткий срок (домен зарегистрирован 20 сентября 2022), очевидно, подразумевает высокую работоспособность накрутки, однако, это не единственный и часто далеко не главный драйвер роста сайтов в нише.

Читать далее

Neeva, «платный» конкурент Google, закрывает свой поисковик. Почему?

Время на прочтение6 мин
Количество просмотров14K


Два года назад я писал о потенциальном новом поисковике, дерзнувшем бросить вызов гигантам — Google и Bing. С упором на приватность данных и (шок!) платным поиском. Который жил бы не за счет продажи данных пользователей рекламодателям. Со слоганом «Вы — не продукт». Так вот, вчера он объявил о своем закрытии. По крайней мере, в качестве поисковой системы. Ставка на то, что некоторые пользователи готовы платить за безопасность своих данных, не оправдалась. Людей, не пожелавших быть продуктами, оказалось немного.

Читать дальше →

Репликация сегментов в OpenSearch

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров2.9K


Многие наши коллеги всё больше смотрят в сторону OpenSearch, который постепенно обрастает всё новыми и новыми функциями. В телеграм-канале мы уже публиковали пост с описанием обновлений в версии 2.7, среди которых есть репликация сегментов (есть ещё и поиск по снэпшотам, но о нём как-нибудь в другой раз). Репликация сегментов — это альтернатива репликации документов. При репликации документов все ноды-реплики выполняют ту же операцию индексирования, что и основная нода. При репликации сегментов только основная нода выполняет операцию индексирования, создавая файлы сегментов, которые далее копируются на каждую ноду-реплику. При такой схеме репликации нагрузка по индексированию ложится только на основную ноду, освобождая ресурсы на репликах для использования под другие операции. В этом посте мы расскажем о концепции репликации сегментов, преимуществах и недостатках по сравнению с репликацией документов. Велком ту подкат.
Читать дальше →

Как поисковики индексируют контент нейросетей? Что ждет Google, Yandex и Bing?

Уровень сложностиПростой
Время на прочтение15 мин
Количество просмотров5.6K

Вопрос индексации и ранжирования в поисковых системах беспокоит многих, кто пользуется нейросетями для генерации текстов, изображений и всего, что умеют создавать технологии искусственного интеллекта. Мы подготовили большой материал, собрали мнения ТОП SEO‑специалистов о тонкостях работы поисковиков и об отношении к контенту, сделанному при помощи ИИ.

Читать далее

Бесплатные фронтенды к ChatGPT

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров49K


Специалист без доступа к ChatGPT сегодня сродни бухгалтеру XX века без компьютера. Конечно, он может работать, но не так эффективно.

Ещё немного, и владение ChatGPT станет почти обязательным требованием квалифицированного сотрудника по многим специальностям. Поэтому печально, что разработчики OpenAI ограничили тестирование инструмента только пользователями с зарубежными SIM-картами. В этой ситуации у нас три выхода:

  1. Съездить в соседнюю страну и приобрести SIM-карту (например, в Польше она стоит 5 злотых у оператора Play24, без абонентской платы, и многократно пригодится в будущем, так что это полезная инвестиция).
  2. Купить «одноразовую» виртуальную симку на одном из полулегальных сервисов, чтобы получить SMS (без гарантии, потому что эту симку тысячи раз перепродают).
  3. Воспользоваться сторонним фронтендом, который даёт доступ к ChatGPT из России без VPN и СМС.

На третьем пункте и остановимся. Любопытно, что созданием таких фронтендов занялись в основном русскоязычные разработчики, потому что на западе у всех есть доступ к оригиналу, а вот в РФ это проблема. Статья о регистрации ChatGPT на левую симку стала самой популярной на Хабре за последние несколько лет, если не подводит память (1,2 млн просмотров).
Читать дальше →

Поисковик Brave: окончательно рвём связи с Bing

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров3.3K

Теперь абсолютно каждый результат Поиска Brave получен исключительно из нашего собственного индекса. Мы окончательно избавились от любых запросов по API к Bing (раньше они составляли примерно 7% от поисковой выдачи).

Читать далее

Как ускорить бинарный поиск

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров11K

Приветствую, сообщество Habr.

Я хочу рассказать о том, как ускорить бинарный поиск и как с его помощью искать информацию в текстовом файле быстрее, чем в любой базе данных.

Читать далее

Вклад авторов