Как стать автором
Обновить
26.03

Поисковые технологии *

От AltaVista до Яндекса

Сначала показывать
Порог рейтинга
Уровень сложности

Что считать счастьем покупателя?

Время на прочтение7 мин
Количество просмотров9.4K

По запросу [форма] мы должны угадать, что именно нужно покупателю: выпечка, наращивание ногтей, косплеить медсестру или калибратор кубов бетона. Задача — быстро понять, кто перед нами и что сделает человека счастливым.

Я работаю над качеством поиска в Яндекс.Маркете. И качество поиска прямо связано с ощущением счастья пользователя от шопинга. Счастье нужно измерять. Самый очевидный способ — посмотреть, купил ли что-нибудь пользователь. Но мы не всегда приходим в магазин или на Маркет, чтобы взять что-то конкретное.

Человек может:

  • Формулировать требования к покупке по мере сравнения вариантов.

    Пример с соковыжималкой
    Предположим, он ищет соковыжималку, но ещё не знает, какие они бывают. По мере изучения товаров он примерно начинает понимать, что хочет. На старте у него нет ни фиксированного бюджета, ни требований, только мечта. Дальше нужно сопоставить мечту с конкретной карточкой товара. С точки зрения метрики покупки, пользователь будет довольно долго бесцельно бродить в начале — но мы понимаем, что эта часть была очень важна, там он изучал предложение и понимал, как устроен мир.
  • Приходить с примерным бюджетом и выбирать что-то под него, например, при поиске подарка. В этой ситуации у пользователя даже нет мечты, он ходит по категориям и ищет что-то, что его «зацепит».
  • Более-менее точно понимать, что хочет купить (часто вплоть до модели товара), но искать лучшее предложение.
  • Знать модель товара и проверять, насколько честна цена на неё, насколько хороши отзывы и так далее.

То есть с точки зрения человека покупка — далеко не единственная цель. Маркетплейс используется и для развлечения, и для изучения предложений, и даже для проверки цены, когда стоишь в очереди к кассе в реальном магазине.

Мы работаем над улучшением поиска по товарам. Поэтому нам нужна была метрика, которая показывает удовлетворённость людей тем, что мы показываем на выдаче. Мы искали её в несколько итераций, и сейчас я хочу рассказать о том, что мы уже придумали.
Читать дальше →
Всего голосов 33: ↑31 и ↓2+29
Комментарии29

Как искали в 90-х и куда исчезли российские поисковые системы?

Время на прочтение4 мин
Количество просмотров17K


Если сегодня кто-то говорит «поищи в интернете», обычно подразумевается «Яндекс» или Google. Но так было далеко не всегда. Во второй половине 90-х ассортимент поисковых систем был намного шире: в зарубежном интернете успешно работали AltaVista и Yahoo, Lycos и WebCrawler, а еще Ask.com, HotBot, Excite, Infoseek и множество других. Рунет также переживал бурный расцвет: здесь присутствовало несколько полноценных поисковых систем и целое семейство каталогов ссылок. Прошло время, выжил только «Яндекс», превратившийся в гигантскую мегакорпорацию. Куда делись все остальные?
Читать дальше →
Всего голосов 29: ↑28 и ↓1+27
Комментарии44

Расчет окупаемости SEO-продвижения сайта

Время на прочтение2 мин
Количество просмотров7.3K

Google-таблица в помощь:

Собственнику бизнеса, чтобы понять:

1) При каких бизнес-показателях SEO будет прибыльным, а при каких убыточным
2) Сколько времени и денег потребуется, чтобы выйти в операционный плюс и полностью окупить вложения
3) Есть ли вообще смысл вкладываться в SEO на текущем этапе развития бизнеса

SEO-специалисту, чтобы:

1) Понимать, стоит ли брать клиента в работу
2) Повысить конверсию в заказ
3) Повысить средний чек

Читать далее
Всего голосов 15: ↑3 и ↓12-9
Комментарии6

5 тактик для лучшего ранжирования в Google Discover

Время на прочтение4 мин
Количество просмотров3.8K

Хотя вы не можете на 100% попасть в Discover, но можете приложить максимум усилий для улучшения ранжирования в данном сервисе Google.

Читать далее
Всего голосов 4: ↑2 и ↓20
Комментарии0

Истории

Поисковая система «Video Color» для любителей фильмов

Время на прочтение4 мин
Количество просмотров24K

«Video Color» - поисковая система для поиска названий фильмов по скриншоту. В отличие от аналогов всегда даёт исключительно чёткие ответы: «не найдено» или название фильма.

Читать далее
Всего голосов 11: ↑9 и ↓2+7
Комментарии19

Интеллектуальный поиск отечественных аналогов для импортных микросхем. Поучаствуй в beta тестировании

Время на прочтение4 мин
Количество просмотров11K

Наша компания занимается разработкой микросхем и само собой мы делаем все возможное что бы они были как можно больше представлены на рынке. Да мы знаем, "что импорт дешевле и документация у них лучше". Но мы работаем над нашими проблемами, особенно в текущих условиях, когда дефицит микросхем и различные государственные меры поддержки дают шанс увеличить долю отечественной продукции. Что бы максимально облегчить жизнь и сберечь свое и самое главное время наших потенциальных потребителей мы разработали специальный сервис по поиску отечественных аналогов импортных микросхем.

К созданию сервиса нас подтолкнул вал писем с экселевскими таблицами с перечислением сотен и тысяч наименований микросхем, просто ВОМ-ы или Ведомости Покупных Изделий, с просьбой подсказать возможные аналоги. Это очень муторный и тяжелый и зачастую неэффективный труд. Приходится просматривать множество спецификаций, додумывать, для чего может использоваться та или иная микросхема и предлагать какие либо отечественные аналоги. В общем замена импортных микросхем на отечественные требует некоторого приложения фантазии и патриотизма. Поэтому для облечения всю монотонную и формальную работу должен делать компьютер, а не человек. Обычно на стороне потребителя за вопрос поиска аналогов отвечает не разработчик, а сотрудник отдела закупки, которые в большинстве случаев не понимают функций, выполняемой данной микросхемой в изделии, и тем самым отсекаются возможные варианты. Наши же специалисты так же стараются честно подойти к сравнению и например, пишут что аналога нет, если по их мнению какой либо важный параметр сильно отличается, хотя на самом деле разработчик просто перезаложился. Срабатывает как минимум два больших субъективных фильтра. Поэтому наш сервис в первую очередь ориентирован именно на разработчика и должен быть понятен и удобен именно для разработчика с привычным ему форматом, что бы он не скидывал это на "закупку".

Читать далее
Всего голосов 27: ↑26 и ↓1+25
Комментарии14

ElasticSearch — как мы делали свою речевую аналитику

Время на прочтение10 мин
Количество просмотров11K

Привет! Меня зовут Аркадий. Последние пару лет я в основном занимаюсь развитием поиска по тексту в команде TQM (Tinkoff Quality Management) в банке Тинькофф. Наш продукт — это речевая аналитика по звонкам, чатам и другим активностям, контроль качества, анализ и прочее. Более подробно о продукте можно прочитать на странице бизнес-решений. Примерный объем нашего индекса в проде — 16 Тб, около 450 млрд сущностей.

Каждый раз, когда встает вопрос о полнотекстовом поиске, команда оказывается перед выбором: а надо ли? Уже есть полнотекстовый поиск в Postgres, а тут придется заказывать серверы, строить кластер. Но чем чаще пользователю требуется что-то найти, тем чаще приходится смотреть в сторону специализированных поисковых движков.

Как пишут сами разработчики Elasticsearch, он нужен именно «для поиска, вы же знаете» (you know, for search) и не сможет заменить полноценное хранилище данных. Зато достаточно быстрый, очень надежный и хорошо горизонтально масштабируется (при наших объемах). 

Мы в TQM используем Elastic потому, что он гибкий, широко известный, имеет удобный и простой синтаксис, множество библиотек для работы как на Python, так и на C# (NEST). Хорошо скейлится под наши объемы (1—30 Тб). Kibana также очень удобна, мы используем ее для мониторинга, консоль Kibana применяем для запросов. А еще по сравнению с тем же Sphinx, Elastic удобно масштабировать (просто добавляем шарды, ноды, и он сам распределяет данные по ним). В случае с тем же Sphinx нам пришлось бы писать этот распределенный поиск самим, и не факт, что у нас получилось бы хорошо с первого раза. 

Читать далее
Всего голосов 17: ↑17 и ↓0+17
Комментарии9

Как абуз DMCA делает большинство авторов контента беззащитными

Время на прочтение6 мин
Количество просмотров11K

Манипуляция с датой публикации позволяет убрать из поиска Google почти что угодно. Во всем виновата лазейка в авторском праве и это большая проблема для всего интернета.

Неприятно, когда в интернете о тебе пишут вранье. Еще хуже, когда ложь уходит в народ и начинает отнимать клиентов, потенциальные партнеры задают неудобные вопросы, да и перед близкими неприятно — они ведь тоже умеют пользоваться интернетом.

С негативом хочется разобраться побыстрее и относительно недавно на рынке появилось действенное решение — абуз DMCA или закона об авторском праве. Метод почти не дает осечек и мало кто задумывается, что за ним стоит воровство контента и русская рулетка с законом. Работает же, так чего думать?

Есть один нюанс — все действия по DMCA фиксируются в открытом доступе, что рано или поздно выстрелит в обратную сторону. Плюс никто не снимает с повестки вопросы этики, ведь никто не застрахован от абуза DMCA.

Обязательно прочтите это мини-расследование, если интересны неприятные стороны работы Google.

Читать далее
Всего голосов 25: ↑20 и ↓5+15
Комментарии47

Конкордантность смысла

Время на прочтение16 мин
Количество просмотров2.4K

В [1, 2, 3] тексты (знаковые последовательности с повторами) с помощью матричных единиц, как образов слов, превращались (координатизировались) в алгебраические системы. Координатизация — необходимое условие алгебраизации любой предметной области...

Читать далее
Всего голосов 9: ↑7 и ↓2+5
Комментарии6

Как нас могут логировать общедоступными методами

Время на прочтение6 мин
Количество просмотров13K

DISCLAIMER: Данная статья написана в ознакомительных целях и не является руководством к неправомерным действиям или обучающим материалом для сокрытия правонарушений.

Итак, логирование пользователя интернета предполагает осуществление с ним такого взаимодействия, в ходе которого изучаемый пользователь посетит (в той или иной форме) внешний веб-ресурс, доступ к логу которого имеется у исследователя. Это может быть, специально созданные, гиперссылка или файл, запускающий при своем открытии специальные алгоритмы сбора пользовательских данных. Большое число сервисов, предлагающих подобный функционал, находится в общем доступе.

Мы разделили логеры на две основные категории по принципу их работы...

Читать далее
Всего голосов 9: ↑9 и ↓0+9
Комментарии16

Elasticsearch vs Sphinx

Время на прочтение3 мин
Количество просмотров12K

Каждый разработчик приложения рано или поздно сталкивается с таким важным вопросом, как выбор поискового движка. Мы рассмотрели два популярных, но принципиально разных варианта – Sphinx и Elasticsearch – и объяснили, почему сделали выбор в пользу первого для своего приложения.

Читать далее
Всего голосов 11: ↑3 и ↓8-5
Комментарии11

Использование перцептивных хэшей для ускорения поиска кадров в базе данных «VideoColor»

Время на прочтение3 мин
Количество просмотров1.1K

Перцептивное хеширование - это использование алгоритма, который создает фрагмент или отпечаток пальца различных форм мультимедиа. (Источник)

Есть хорошая статья на Habr’е с которой можно ознакомиться здесь.

Читать далее
Всего голосов 3: ↑3 и ↓0+3
Комментарии0

Беспилотные технологии и решение задач оперативного характера

Время на прочтение6 мин
Количество просмотров4.1K

Беспилотные технологии и решение задач оперативного характера.

Трехмерными моделями успешно пользуются инженеры, геодезисты, строители, но в этот раз в рамках статьи будут рассмотрены возможности применения результатов трехмерного моделирования в целях планирования, координации действий сотрудников специальных служб, подбора площадки для размещения техники, создания оптимальных маршрутов  передвижения и других.

Моделирование для достижения целей
Всего голосов 10: ↑10 и ↓0+10
Комментарии7

Ближайшие события

Weekend Offer в AliExpress
Дата20 – 21 апреля
Время10:00 – 20:00
Место
Онлайн
Конференция «Я.Железо»
Дата18 мая
Время14:00 – 23:59
Место
МоскваОнлайн

Использование индексных хэшей для ускорения поиска кадров в базе данных

Время на прочтение4 мин
Количество просмотров3.4K

Снова хочу поднять тему о поиске видео по кадру. Сегодня поговорим об использовании индексных хэшей для ускорения поиска.

Читать далее
Всего голосов 8: ↑6 и ↓2+4
Комментарии4

Проблемы поиска кадров в базе данных, связанные с соотношением сторон и их решение

Время на прочтение3 мин
Количество просмотров778

Технология поиска «VideoColor» заключается в том, что каждый кадр в видео рассматривается как отдельное изображение по которому может вестись поиск. Индексируемое, а затем и искомое изображение, делится на табличные области и в каждой из её ячеек находятся усреднённые значения компонент красного, зелёного и синего цветов. По ним, в дальнейшем, можно производить сравнение для нахождения искомого кадра.

Читать далее
Всего голосов 1: ↑0 и ↓1-1
Комментарии0

Вы «продоете теплых кросовок»: ищем идеальную пару обуви с помощью Elasticsearch

Время на прочтение9 мин
Количество просмотров6.7K

Привет, эту статью мы пишем вместе — Дмитрий Генинг, руководитель направления разработки R&D, и Александр Желубенков, руководитель направления ранжирования и навигации в компании Lamoda. 

Одна из самых важных систем, с которой мы работаем — это поиск. Ежедневно на Lamoda пользователи вводят тысячи самых разных запросов: белые ботинки, сумочка с леопардовым рисунком, очки-авиаторы и другие вещи для обновления гардероба. Наша задача — сделать поиск таким, чтобы он буквально угадывал желания пользователей и находил сразу то, что нужно. 

В этой статье мы расскажем:

• что находится «под капотом» поиска в Lamoda;

• как мы понимаем пользователей и разбираем поисковые запросы;

• как обогащаются атрибуты товаров и по какой логике формируется запрос к Elasticsearch;

• над чем работаем сейчас и какие есть планы на будущее.

Читать далее
Всего голосов 22: ↑21 и ↓1+20
Комментарии5

Нейросеть, способная объяснить себе задачу: P-tuning для YaLM

Время на прочтение9 мин
Количество просмотров16K

Мы уже рассказывали о том, как применили семейство генеративных нейросетей YaLM для подготовки ответов в Поиске, Алисе или даже в Балабобе. Главная особенность наших моделей — метод few-shot learning, который позволяет без дополнительного обучения решать большинство задач в области обработки естественного языка. Достаточно лишь подготовить подводку на человеческом языке — и модель сгенерирует текст. Но что, если это не самый оптимальный путь?

Сегодня я расскажу читателям Хабра про апгрейд этого метода под названием P-tuning. Вы узнаете про недостатки оригинального метода few-shot и преимущества нового подхода. Покажу, где он уже применяется на примере покемонов. Добро пожаловать под кат.
Читать дальше →
Всего голосов 32: ↑32 и ↓0+32
Комментарии6

Иерархическая классификация ожидаемого типа ответа на вопрос в вопросно-ответных системах на основе графов знаний

Время на прочтение4 мин
Количество просмотров1.6K

Одним из важных шагов, используемых людьми в поиске ответа на вопрос, является понимание того, какой именно тип ответа устроит автора. К примеру, на вопрос: "Который час?", мы ожидаем услышать ответ с типом "время", а на вопрос "Где родился Иван Петров?" -- ответ с типом "населённый пункт". То же самое верно и для вопросно-ответных систем (Question-Answering, QA), целью которых является поиск ответа на фактографические вопросы. В данной статье я представлю модуль определения ожидаемого типа ответа на вопрос (Expected Answer Type, EAT), который способен определять не только один класс, но и строить иерархию классов в качестве прогнозного значения. Модуль предоставляется как в виде веб-интерфейса (UI) так и в виде RESTful API. Данная функциональность позволяет конечным пользователям получать предсказания типа ответа для 104 языков, видеть достоверность прогноза и оставлять обратную связь. Кроме того, API позволяет исследователям и разработчикам интегрировать EAT-классификацию в свои системы.

Читать далее
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

Привет, я робот Макс! Как устроен цифровой ассистент Госуслуг

Время на прочтение9 мин
Количество просмотров19K

Цифровые ассистенты — тренд в массовом обслуживании. Они автоматизируют работу поддержки, помогают пользователям найти и подобрать услуги, записаться на прием, развлекают.

Читать далее
Всего голосов 27: ↑22 и ↓5+17
Комментарии27

Создаём личный «Архив интернета»

Время на прочтение7 мин
Количество просмотров25K


Как показала история, сеть из миллиардов связанных между собой документов — очень хрупкая и эфемерная система. Странички живут недолго. Если нашли интересную страницу, сайт или видео — нельзя просто сделать закладку и надеяться, что контент по ссылке останется доступен в будущем. Не останется. Информация исчезнет, ссылки изменятся, домены сменят владельцев, статьи на Хабре спрячут в черновики. У каждой страницы свой срок жизни. Ничто не вечно под луной, и ничего с этим не поделать.

К счастью, у нас есть инструменты, чтобы сохранить информацию на десятилетия. Свой персональный архив, полностью под контролем, со всеми сайтами и актуальными страницами. Отсюда никто ничего не удалит без вашего ведома, никогда.
Читать дальше →
Всего голосов 41: ↑40 и ↓1+39
Комментарии44
Изменить настройки темы

Вклад авторов