Поисковые технологии *

От AltaVista до Яндекса

СтатьиПостыНовостиАвторыКомпании

@Barov 15 ноя 2021 в 08:04

Беспилотные технологии и решение задач оперативного характера

6 мин

4.7K

Беспроводные технологии * МультикоптерыПоисковые технологии * Робототехника

Из песочницы

Беспилотные технологии и решение задач оперативного характера.

Трехмерными моделями успешно пользуются инженеры, геодезисты, строители, но в этот раз в рамках статьи будут рассмотрены возможности применения результатов трехмерного моделирования в целях планирования, координации действий сотрудников специальных служб, подбора площадки для размещения техники, создания оптимальных маршрутов передвижения и других.

Моделирование для достижения целей

+10

@aapsoftware 13 ноя 2021 в 21:54

Использование индексных хэшей для ускорения поиска кадров в базе данных

4 мин

3.9K

Поисковые технологии * Работа с видео * Обработка изображений *

Снова хочу поднять тему о поиске видео по кадру. Сегодня поговорим об использовании индексных хэшей для ускорения поиска.

@aapsoftware 12 ноя 2021 в 15:29

Проблемы поиска кадров в базе данных, связанные с соотношением сторон и их решение

3 мин

839

Хранение данных * Поисковые технологии *

Технология поиска «VideoColor» заключается в том, что каждый кадр в видео рассматривается как отдельное изображение по которому может вестись поиск. Индексируемое, а затем и искомое изображение, делится на табличные области и в каждой из её ячеек находятся усреднённые значения компонент красного, зелёного и синего цветов. По ним, в дальнейшем, можно производить сравнение для нахождения искомого кадра.

-1

@dmgening 11 ноя 2021 в 08:14

Вы «продоете теплых кросовок»: ищем идеальную пару обуви с помощью Elasticsearch

9 мин

7.4K

Блог компании Lamoda TechПоисковые технологии * Разработка под e-commerce * Поисковая оптимизация *

Привет, эту статью мы пишем вместе — Дмитрий Генинг, руководитель направления разработки R&D, и Александр Желубенков, руководитель направления ранжирования и навигации в компании Lamoda.

Одна из самых важных систем, с которой мы работаем — это поиск. Ежедневно на Lamoda пользователи вводят тысячи самых разных запросов: белые ботинки, сумочка с леопардовым рисунком, очки-авиаторы и другие вещи для обновления гардероба. Наша задача — сделать поиск таким, чтобы он буквально угадывал желания пользователей и находил сразу то, что нужно.

В этой статье мы расскажем:

• что находится «под капотом» поиска в Lamoda;

• как мы понимаем пользователей и разбираем поисковые запросы;

• как обогащаются атрибуты товаров и по какой логике формируется запрос к Elasticsearch;

• над чем работаем сейчас и какие есть планы на будущее.

+20

@roman-gorb 10 ноя 2021 в 08:29

Нейросеть, способная объяснить себе задачу: P-tuning для YaLM

9 мин

21K

Блог компании ЯндексАлгоритмы * Искусственный интеллектМашинное обучение * Поисковые технологии *

Мы уже рассказывали о том, как применили семейство генеративных нейросетей YaLM для подготовки ответов в Поиске, Алисе или даже в Балабобе. Главная особенность наших моделей — метод few-shot learning, который позволяет без дополнительного обучения решать большинство задач в области обработки естественного языка. Достаточно лишь подготовить подводку на человеческом языке — и модель сгенерирует текст. Но что, если это не самый оптимальный путь?

Сегодня я расскажу читателям Хабра про апгрейд этого метода под названием P-tuning. Вы узнаете про недостатки оригинального метода few-shot и преимущества нового подхода. Покажу, где он уже применяется на примере покемонов. Добро пожаловать под кат.

Читать дальше →

+32

@perevalov_a 3 ноя 2021 в 12:35

Иерархическая классификация ожидаемого типа ответа на вопрос в вопросно-ответных системах на основе графов знаний

4 мин

1.9K

Голосовые интерфейсы * Машинное обучение * Проектирование API * Семантические сети * Поисковые технологии *

Одним из важных шагов, используемых людьми в поиске ответа на вопрос, является понимание того, какой именно тип ответа устроит автора. К примеру, на вопрос: "Который час?", мы ожидаем услышать ответ с типом "время", а на вопрос "Где родился Иван Петров?" -- ответ с типом "населённый пункт". То же самое верно и для вопросно-ответных систем (Question-Answering, QA), целью которых является поиск ответа на фактографические вопросы. В данной статье я представлю модуль определения ожидаемого типа ответа на вопрос (Expected Answer Type, EAT), который способен определять не только один класс, но и строить иерархию классов в качестве прогнозного значения. Модуль предоставляется как в виде веб-интерфейса (UI) так и в виде RESTful API. Данная функциональность позволяет конечным пользователям получать предсказания типа ответа для 104 языков, видеть достоверность прогноза и оставлять обратную связь. Кроме того, API позволяет исследователям и разработчикам интегрировать EAT-классификацию в свои системы.

@Nikita_Us 3 ноя 2021 в 09:40

Привет, я робот Макс! Как устроен цифровой ассистент Госуслуг

9 мин

25K

Блог компании РТЛабсПоисковые технологии * Управление продуктом *

Цифровые ассистенты — тренд в массовом обслуживании. Они автоматизируют работу поддержки, помогают пользователям найти и подобрать услуги, записаться на прием, развлекают.

+17

@1shaman 3 ноя 2021 в 08:00

Создаём личный «Архив интернета»

7 мин

32K

Блог компании FirstVDSНакопителиПоисковые технологии * СофтХостинг

Как показала история, сеть из миллиардов связанных между собой документов — очень хрупкая и эфемерная система. Странички живут недолго. Если нашли интересную страницу, сайт или видео — нельзя просто сделать закладку и надеяться, что контент по ссылке останется доступен в будущем. Не останется. Информация исчезнет, ссылки изменятся, домены сменят владельцев, статьи на Хабре спрячут в черновики. У каждой страницы свой срок жизни. Ничто не вечно под луной, и ничего с этим не поделать.

К счастью, у нас есть инструменты, чтобы сохранить информацию на десятилетия. Свой персональный архив, полностью под контролем, со всеми сайтами и актуальными страницами. Отсюда никто ничего не удалит без вашего ведома, никогда.

Читать дальше →

+38

@Takagi 2 ноя 2021 в 08:14

Извлекаем суть новости. Опыт Яндекса

7 мин

12K

Блог компании ЯндексNatural Language Processing * Искусственный интеллектМашинное обучение * Поисковые технологии *

Привет! Меня зовут Илья Гусев, я занимаюсь машинным обучением в команде Яндекс.Новостей. У каждого новостного сюжета на сервисе есть своя страница, где собраны новости об одном и том же событии из разных источников. Сегодня мы рассмотрим построение краткой выжимки, дайджеста сюжета. В такой выжимке, состоящей из фрагментов новостных документов, содержится основная информация о событии. Очевидно, почему дайджест полезен для пользователя — мы выводим на экран сюжета самое важное о событии. С похожими задачами сталкиваются многие инженеры: например OpenAI недавно опубликовала статью про реферирование книг. Поэтому я надеюсь, что описанный ниже подход будет вам полезен.

Как и всё в Новостях, построение такой выжимки должно быть полностью автоматическим. До внедрения выжимки текстовая часть сюжета выглядела так:

Теперь она выглядит так:

Читать дальше →

+22

@KeyVaan 1 ноя 2021 в 14:32

Как создать органическую интернет-репутацию с нуля и контролировать её

9 мин

1.8K

Поисковые технологии * Управление e-commerce * Управление продуктом *

Recovery Mode

Как показывает практика, статьи про репутацию и её влияние на мнение пользователя вызывают негатив, поскольку речь зачастую идет именно об исправлении ситуации, когда компания уже накосячила, а любые попытки исправить репутационные последствия воспринимаются как обман пользователя.

В этот раз я решил описать то, как стоит создавать репутацию компании с нуля. Разумеется, в комплексе крайне редко начинают прорабатывать все пункты. Причиной тому служит то, что репутация не бустит продажи и рост компании в моменте так, как это делает прямая лидогенерация. Однако, чтобы охватить большинство инструментов, представим, что есть некая компания X, которая продвигается и реализует свою продукцию как оффлайн, так и в интернете.

@Dmitry_Po 11 окт 2021 в 09:00

Эффективное геометрическое хеширование пространства признаков для быстрого точного поиска наиболее близких дескрипторов

11 мин

Поисковые технологии * Алгоритмы * Математика * Машинное обучение *

Туториал

Перевод

При решении задачи распознавания лиц в компании Оксаджайл (Oxagile) был разработан новый алгоритм эффективного геометрического хеширования пространства лицевых признаков с целью быстрого поиска двух наиболее близких по косинусному расстоянию лицевых дескрипторов. Разработанный алгоритм обладает той же точностью, что и метод простого перебора и, в то же время, он приблизительно в сто раз быстрее. С более подробным описанием алгоритма можно познакомиться в англоязычном оригинале настоящей статьи.

@ilvar 4 окт 2021 в 10:29

Сравнение эффективности поиска: Elasticsearch и конкуренты

5 мин

23K

Поисковые технологии *

Перевод

В области поисковых систем с открытым исходным кодом появилось несколько новых интересных игроков. Мы решили внимательно изучить некоторые из них, чтобы узнать, насколько они сравнимы с Elasticsearch - как по набору функций, так и по производительности.

@Reformat 19 сен 2021 в 14:45

Обработка русского языка на Java

4 мин

12K

Kotlin * Java * Программирование * Поисковые технологии * Natural Language Processing *

Туториал

Рассказ пойдет об одной новой, общедоступной Java/Kotlin библиотеке, для работы с русским языком. Она позволяет получить исходные формы + морфологическую информацию для большинства слов русского языка. Статья предназначена для тех, кто создает ботов, обрабатывает сообщения и занимается поиском. Для справки, ключевое отличие лемматизации от стеммизации (урезания до нормализованной формы) состоит в том, что лемма удовлятворяет правилам языка, например для слова "яблоками" леммой будет "яблоко", а не просто урезанный корень. Лемма может быть и более сложной, например для слова люди, начальная форма – человек. В этой статье мы рассмотрим способ быстрого извлечения такой информации из морфологического словаря.

Запустить процесс

+10

@ITSumma 17 сен 2021 в 09:17

Какой софт использует ЦРУ и АНБ для дата-майнинга

6 мин

17K

Блог компании ITSummaBig Data * Data Mining * КиберпанкПоисковые технологии *

После утечки данных от Сноудена стало понятно, что АНБ собирает данные на всех граждан до совершения преступлений, а не на конкретных подозреваемых после преступления.

Аналогичную практику сбора разведданных на всех граждан до совершения преступления начали практиковать и в других странах, в том числе России. Речь идёт о длительном хранении интернет-трафика, сведений о перемещении, звонков, записей видеонаблюдения и т.д. Это очень удобно, ведь в случае необходимости найдутся улики практически на любого человека.

Разумеется, для быстрого поиска в таком огромном массиве данных требуется специальный софт.

Читать дальше →

+31

@Razoomnick 15 сен 2021 в 11:16

Делаем быстрый поиск по неточному совпадению среди 100 миллионов товаров

10 мин

13K

Поисковые технологии * .NET * Алгоритмы * C# * Разработка под e-commerce *

Туториал

Это четвертая статья с этой картинкой для привлечения внимания. Она каким-то удивительным образом опять подошла по смыслу.

Мы делаем проект по управлению большими каталогами товаров, и нам потребовалось быстро искать товары по неточному совпадению.

Забегая вперед, скажу, что от идеи до рабочего решения на продакшене прошло пять часов.

Исходная ситуация такова: таблица в MS SQL базе, 50 миллионов записей, записи добавляются постоянно, удаляются или обновляются крайне редко. Средняя длина названия товара составляет 64 символа. Поиск по неточному совпадению работает, для этого используются триграммы и полнотекстовый индекс по столбцу с триграммами. Ранжирование результатов осуществляется при помощи функции CONTAINSTABLE. Результаты получаются релевантные, но поиск работает откровенно медленно, 2-5 секунд на запрос, в зависимости от длины запроса. Мы хотим ускорить его раз в 20, а лучше в 100 подручными средствами.

+12

@istishev 13 сен 2021 в 13:29

Как работает распознавание лиц? Разбор

4 мин

38K

Блог компании Droider.RuАлгоритмы * Поисковые технологии * СофтФототехника

Среднестатистический человек может идентифицировать знакомое лицо в толпе с точностью 97,53%. Вы скажете, это немало и будете правы. Но это ничто по сравнению с современными алгоритмами, которые добились точности 99,8% еще в 2014 году. А в последние несколько лет они достигли практически совершенства! Современный алгоритм, использующийся в камерах видеонаблюдения в Москве способен обрабатывать 1 миллиард изображений менее чем за полсекунды с точностью близкой к 100%.

Этот алгоритм насколько крут, что уже в этом году в Московском Метро планируют ввести систему прохода по лицу — FacePay. При этом нам обещают, что система будет работать даже если человек в медицинской маске.

Как вы понимаете, жизнь уже не будет прежней. Поэтому давайте разберемся:

Как работают алгоритмы распознавания лиц?
Страшны ли эти алгоритмы на самом деле и где их применяют во благо?
А также поговорим какого будущего нам ждать.

Читать дальше →

+12

@GlobalSign_admin 5 сен 2021 в 21:53

PunkSpider: поисковик уязвимых сайтов готов к рестарту

4 мин

6.1K

Блог компании GlobalSignИнформационная безопасность * Поисковые технологии *

История развивается по спирали. На хакерской конференции DEF CON 29 в 2021 году состоялся анонс новой версии PunkSpider — поисковой системы по уязвимостям в веб-приложениях, своеобразного аналога Shodan, только для веб-сайтов. Сканер уязвимостей с фаззингом (перебор всех вариантов) проверяет сайты на наличие самых распространённых, удобно эксплуатируемых багов — и сообщает о них всему интернету.

PunkSpider успешно работал с 2014 по 2018 годы. Потом его пришлось закрыть из-за множества жалоб от компаний, чьи сайты становились лёгкими мишенями для взлома. Но сейчас разработчики разобрались с юридическими проблемами и готовы возобновить проект.

На данную минуту PunkSpider ещё не запустили, на сайте висит заглушка, опубликована только ссылка на расширение для Chrome.

Читать дальше →

+10

@SLY_G 29 авг 2021 в 19:42

Гуглояз – как Google ограничивает мысли о борьбе с монополиями

9 мин

33K

Бизнес-модели * Поисковые технологии * Финансы в IT

Перевод

— Разве ты не понимаешь, что весь смысл новояза в том, чтобы сузить диапазон мышления? В итоге мыслепреступление станет попросту невозможным, поскольку не будет слов, которыми его можно было бы выразить.
— «1984», Джордж Оруэлл

Не так давно люди, активно интересующиеся вопросами SEO, могли заметить, что я вступил в перебранку в твиттере с парочкой сотрудников Google. Страсти там реально накалились.

Иногда работать представителем Google за деньги бывает трудновато.

Всё началось с того, что я поставил под сомнение этичность и направленность против конкуренции таких действий Google, как поднятие в рейтинге собственных материалов, касающихся таких слов, как “SEO” и “robots.txt” (из моих областей интереса), а также Google Flights, YouTube, окошек «People Also Ask» и других особенностей поисковика, которые появляются среди самых первых результатов.

Нечестная конкуренция Google связанная с поднятием собственных сервисов в результатах поиска – проблема давно известная. Правительства разных стран проводят расследования таких действий и работают над новыми законами, касающимися этих и других проблем, связанных с монополизацией.

Читать дальше →

+65

178

@IvanKonev2 14 авг 2021 в 13:55

Передовые технологии на службе СЭД

21 мин

Поисковые технологии * CRM-системы * Kotlin * Исследования и прогнозы в IT * Облачные сервисы *

Туториал

Из песочницы

В статье монографически раскрываются современные аспекты разработки документо-ориентированных систем основанных на собственном опыте. Все исследования и реализация технологий последовательно выполнены в ряде проектов на протяжении последних 3-х лет, где частично или полностью использовался представленный подход. Пошагово показан путь создания высоконагруженной СЭД и одновременно формирования в рамках полученной платформы многофункциональной CRM.

Стратегия разработки подчинена парадигме: если технологии позволяют не расширять инфраструктуру при допустимом ущербе качества с сохранением стабильности и доступности – инфраструктура не расширяется. Данная парадигма минимизирует вероятные точки отказа, уменьшает стоимость разработки проекта и в итоге стоимость инфраструктуры.

+10

@nin-jin 12 июл 2021 в 06:47

Бывший сотрудник Яндекса выпустил бесплатный поисковик с блек… листами, но без рекламы

6 мин

66K

Веб-разработка * Поисковые технологии * Google API * Поисковая оптимизация * $mol *

Технотекст 2021

Здравствуйте, меня зовут Дмитрий Карловский и я крайне опечален качеством поиска современных поисковиков.

Например, обсуждали мы как-то в $mol-чате стоит ли делать "человеко-понятную" псевдостатику в урлах вида /snjat-dvushku/s-remontom/v-vihino для SEO, или всё же сеошники - шарлатаны, гадающие на поисковой гуще. Решили проверить кто там у нас в топе по запросу "квартира купить однокомнатная горьковская" и получили такой результат:

Дыбенко, Лесная, Жопа Мира, всё, что угодно, только не то, что спрашивали. Первые 4 результата - нерелевантный мусор. А потом сервис самого же Яндекса. Как так получилось, что в 2к21, в эпоху машинного обучения и GPT-3, у нас получился поиск хуже, чем на заре интернета?

Отгадка

+77

209

1 2 ...

14 15

17 18 ...

58 59

Поисковые технологии *

Беспилотные технологии и решение задач оперативного характера

Использование индексных хэшей для ускорения поиска кадров в базе данных

Проблемы поиска кадров в базе данных, связанные с соотношением сторон и их решение

Вы «продоете теплых кросовок»: ищем идеальную пару обуви с помощью Elasticsearch

Нейросеть, способная объяснить себе задачу: P-tuning для YaLM

Иерархическая классификация ожидаемого типа ответа на вопрос в вопросно-ответных системах на основе графов знаний

Привет, я робот Макс! Как устроен цифровой ассистент Госуслуг

Создаём личный «Архив интернета»

Извлекаем суть новости. Опыт Яндекса

Как создать органическую интернет-репутацию с нуля и контролировать её

Эффективное геометрическое хеширование пространства признаков для быстрого точного поиска наиболее близких дескрипторов

Сравнение эффективности поиска: Elasticsearch и конкуренты

Обработка русского языка на Java

Ближайшие события

Какой софт использует ЦРУ и АНБ для дата-майнинга

Делаем быстрый поиск по неточному совпадению среди 100 миллионов товаров

Как работает распознавание лиц? Разбор

PunkSpider: поисковик уязвимых сайтов готов к рестарту

Гуглояз – как Google ограничивает мысли о борьбе с монополиями

Передовые технологии на службе СЭД

Бывший сотрудник Яндекса выпустил бесплатный поисковик с блек… листами, но без рекламы

Вклад авторов