Search results for «[поисковые алгоритмы]» / Habr

Publications Hubs Companies Users Comments

AI-SHA Feb 15 at 10:30

Как математика улучшает геосервисы и помогает быстрее сориентироваться

Medium

7 min

2.2K

Криптонит corporate blogProgramming*Geoinformation services*Mathematics*GitHub*

Сегодня всё чаще требуется учитывать географическую привязку и выполнять поиск в локальном окружении клиента. Иными словами, регулярно возникает необходимость найти что-то (или кого-то) рядом с конкретным пользователем. «Где ближайший банкомат?», «Кто из друзей поблизости?», «Какие тут аптеки?». Подобные запросы миллионами поступают в сервисы геолокации каждый день, при этом существующие подходы к решению этой задачи не исчерпали возможностей оптимизации. Наверняка вы не раз сетовали на то, как долго обновляются метки на карте.

В этой статье эксперт отдела перспективных исследований российской компании «Криптонит» Игорь Нетай рассказывает о способе ускорить обнаружение объектов, принадлежащих одному географическому региону с произвольно заданными размерами. Материал станет частью научной работы о перспективах применения H-кривых в геохешинге.

С помощью рассмотренной в этой статье алгоритмической оптимизации можно быстрее выполнять поиск в различных масштабах — от полушария Земли до конкретного здания.

Координаты одной строкой

Удобство географической персонализации постепенно вытеснило паранойю, и во многих онлайн-сервисах теперь открыто используются данные о местоположении пользователей и различных объектов. Делаете заказ через интернет? Вам предложат забрать его в пункте выдачи поближе к дому. Вызываете такси? Сначала запрос передаётся водителям рядом с вами. Ищете кафе? На карте отобразятся ближайшие.

Все эти алгоритмы сводятся к решению одной и той же задачи: они определяют, какие координатные точки из базы данных входят в тот же условно заданный регион, что и указанная в запросе целевая точка (как правило, обозначающая местоположение пользователя). Для этого используется система кодирования географических координат в виде значений хеш-функции, называемых геохеши.

+12

TSjB Apr 7 at 17:47

Алгоритм расчёта расстояния между строками

Medium

3 min

6.2K

Search engines*Algorithms*R*

Case

По работе стояла задача оптимизации поиска по адресам (улицы, дома и объекты). Главный критерий - нахождение адреса, если написано с ошибками или не дописан он в полной мере. Bert’ы, косинусные расстояния эмбеддингов и т.д. не подходили, так как они заточены под смысловой поиск, а в адресах смысла нет. TF-IDF c лемматизацией тоже не очень подходил для этой задачи, результаты были плохие.

Для реализации начал использовать расстояние Дамерау-Левенштейна, и в последствие, развил это до собственного алгоритма, который находит расстояние между двумя строками.

Цель данного поста описание только алгоритма.

+16

maybe_elf Mar 26 at 12:07

Результаты поиска Google с ИИ продвигают сайты с вредоносным ПО

2 min

1.3K

Information Security*Search engines*Search engine optimization*Artificial Intelligence

Новые алгоритмы Google в рамках эксперимента Search Generative Experience на основе искусственного интеллекта начали рекомендовать мошеннические сайты с вредоносными расширениями Chrome, поддельными подарочными кампаниями, спамом и другие.

maybe_elf Nov 16 2023 at 11:07

Google разрешит пользователям комментировать результаты поиска

2 min

976

Search engines*Google ChromeBrowsersSearch engine optimization*

Google запустила эксперимент «Заметки» через Search Labs. Он позволит пользователям добавить собственные аннотации к результатам поиска.

maybe_elf Nov 18 2019 at 16:14

WSJ: в поисковике Google предпочтение отдается крупным компаниям

4 min

1.9K

Algorithms*Google API*Legislation in ITBusiness Models*IT-companies

Wall Street Journal провело расследование работы поиска Google. Журналисты заявили, что компания серьезно вмешивается в алгоритм формирования поисковой выдачи.

По словам собеседников издания, в 2018 году Google внесла в алгоритмы более 3200 изменений, в 2017 году — 2400, а в 2010 году — около 500. В самой корпорации это объясняют тем, что примерно 15% запросов представляют собой слова или комбинации, с которыми система ранее не сталкивалась, и поэтому разработчики вынуждены корректировать работу алгоритмов для релевантной выдачи.

WSJ утверждает, что, тем не менее, Google отдает предпочтение крупным компаниям, так как на этих площадках покупатель вероятнее что-то приобретет. В итоге на верхние строчки выдачи попадает Amazon. Расследователи заявили, что это происходит даже тогда, когда продукты уже вышли из продажи в магазине. «Неверно также полагать, что мы не пытаемся решить проблему с отображением вышедших из продажи товаров на высоких позициях в выдаче», — в ответ заявила представитель корпорации.

Читать дальше →

+11

evgeny2234 Jan 31 2019 at 21:51

Организация поиска по веб-странице на JavaScript (без jQuery)

8 min

112K

Website development*JavaScript*jQuery*

From sandbox

Пару дней назад получил тестовое задание от компании на вакансию Front-end dev. Конечно же, задание состояло из нескольких пунктов. Но сейчас речь пойдет только об одном из них — организация поиска по странице. Т.е. банальный поиск по введенному в поле тексту (аналог Ctrl+F в браузере). Особенность задания была в том, что использование каких-либо JS фреймворков или библиотек запрещено. Все писать на родном native JavaScript.

(Для наглядности далее буду сопровождать всю статью скринами и кодом, чтоб мне и вам было понятнее, о чем речь в конкретный момент)

Читать дальше →

Clickru Feb 19 2020 at 10:59

Внедрили микроразметку, а расширенных сниппетов нет: 10 возможных причин

7 min

5.5K

Click.ru corporate blogInternet marketing*Search engine optimization*

Внедрили микроразметку, а расширенных сниппетов нет: 10 возможных причин

Расширенные сниппеты — дело тонкое. Даже если вы все настроили верно, есть нюансы, из-за которых они могут не показываться. Причем не всегда это зависит от вас. Разбираемся, почему у вас вдруг нет расширенных сниппетов, хотя вы очень старались с разметкой. Предлагаем способы лечения.

p4ymak Mar 3 2020 at 00:13

Ray Casting Visual Search (RCVS). Простой и быстрый алгоритм поиска схожих по геометрии 3D моделей

8 min

Search engines*Working with 3D-graphics*Algorithms*CGI*Search engine optimization*

Technotext 2020

From sandbox

Для меня эти две модели очень похожи, однако у них нет очевидных характеристик, по которым можно было бы измерить их сходство. У этих моделей разное количество вершин, рёбер и полигонов, они разного размера, к тому же по-разному повёрнуты в пространстве, и у обеих одинаковые трансформации (Положение = [0,0,0], Вращение в радианах = [0,0,0], Масштаб = [1,1,1]). Как определить их подобие?

+14

avallac Apr 27 2022 at 13:32

Найти за полсекунды: сравниваем похожие фотографии

10 min

24K

Конференции Олега Бунина (Онтико) corporate blogHigh performance*Search engines*PHP*Algorithms*

Technotext 2022

Привет, меня зовут Петр и я работаю в Badoo в команде биллинга. В этой статье я хочу поделиться своим опытом работы над пет-проектом по созданию хранилища фотографий с возможностью поиска дубликатов. Я расскажу, с каким багажом я вошел в этот проект, в чем заключалась задача и как её решал. В конце поделюсь результатами и почему я считаю, что это один из лучших проектов, которым я занимался.

Однажды мои знакомые попросили сделать им хранилище изображений для их проекта по модерации внешних ресурсов. Условия: срок хранения до трех лет, фотографии при этом присылаются неравномерно, в среднем поток — 150.000 картинок в сутки.

Казалось бы, достаточно банальная задача. Если бы не еще одно условие: хорошо бы сопоставлять фотографии с уже имеющимися: искать дубликаты и помечать их.

+52

Cloud4Y Mar 9 2023 at 11:42

Как сделать поисковую систему с ИИ, используя FastAPI, Qdrant и ChatGPT

Medium

11 min

6.4K

Cloud4Y corporate blogSearch engines*Machine learning*SoftwareArtificial Intelligence

Tutorial

Translation

Как сделать свои мини-поисковик, который будет прикидываться великим деятелем прошлого и сыпать умными цитатами? Рассказываем.

alizar May 26 2008 at 12:54

Google рассказывает о своих поисковых алгоритмах

2 min

1.1K

IT-companies

В течение долгого времени компания Google хранила в строгом секрете формулы своих поисковых алгоритмов. Причины понятны: во-первых, чтобы защититься от конкурентов; во-вторых, чтобы эту информацию не могли использовать в своих целях «чёрные» оптимизаторы. И вот, наконец, политика скрытности начинает меняться. Глава подразделения поискового качества (Search Quality) Уди Манбер опубликовал сообщение в корпоративном блоге, которое он сам называет первым шагом по открытию ранее секретной информации.

В первом сообщении Уди Манбер рассказывает об основах системы ранжирования поискового движка Google. Он объясняет, что всем известный алгоритм PageRank является частью гораздо более масштабной системы, которая включает в себя языковые модели (обработка фраз, синонимов, опечаток и т.д.), модели обработки запросов (это не лингвистика, а попытка понять суть поисковых запросов), временные модели (на некоторые запросы лучше выдавать самые свежие страницы, проиндексированные в последние 30 минут, а на другие — старые страницы с проверенным качеством), а также модели персонализации.

В первом сообщении Манбера мы не видим ничего «секретного», чего бы не знали раньше. Но это только начало, и в будущем Манбер может опубликовать новую интересную информацию, та что есть смысл внимательно следить за корпоративным блогом Google.

Независимые эксперты с иронией комментируют, что Google всегда была не менее закрытой компанией, чем Microsoft. Даже хуже, более лицемерной, потому что система работы Google такая: они заставляют людей открывать информацию в свободный доступ, собирают её в свой закрытый «чёрный ящик», с помощью которого зарабатывают деньги. Понятно, что такие действия вызывают некоторое недовольство у авторов контента, так что новая стратегия Google по открытию своих алгоритмов — это, в какой-то степени, вынужденный шаг.

+39

marks Jul 18 2010 at 11:44

Google борется за право хранить корпоративную тайну поисковых алгоритмов

3 min

971

IT-companies

Все больше людей заявляют о том, что Google превращается из империи добра в империю зла, поскольку компания сохраняет большую часть своей работы втайне, включая поисковые алгоритмы (интересно, какая из компаний работает совершенно открыто?). Так вот, большое количество специалистов различных сфер деятельности, от IT до экономики, заявляют, что алгоритмы Google должны стать достоянием общественности.

Читать дальше →

+44

151

2Heads Sep 28 2011 at 11:23

Интерфейсы: Упрощаем поисковый механизм (или почему этого не делаем)

3 min

1.6K

Interfaces*

From sandbox

Добрый день!

Сегодня наш разговор пойдет о проектировке пользовательских интерфейсов и коснется проектирования поиска как для сайтов (в частности поисковых систем), так и для программных продуктов.

Так как проектирование интерфейсов призвано решать задачи, то и мы начнем с их постановки:
Упростить поисковый механизм

Читать дальше →

-8

MACROSCOP Jun 30 2016 at 16:07

Почему разработчики видеонаблюдения любят ритейл больше, чем производство?

5 min

2.7K

Macroscop corporate blogSearch engines*Programming*

Знаете ли вы, что в ассортименте вендоров ПО для видеосистем есть много решений для прикладных задач торговли — модулей для подсчета посетителей, определения длины очереди, контроля операций на кассе и т.п. А предложений для решения производственных и промышленных задач практически нет. Все потому что мы, разработчики ПО для видеонаблюдения, для производства, в отличие от ритейла, разрабатываем редко, и стоит это дорого.

Почему? Давайте разбираться.

Читать дальше →

MACROSCOP Aug 30 2016 at 13:24

На пути к простоте: как сложно она дается разработчикам

6 min

13K

Macroscop corporate blogSearch engines*Development Management*Product Management*

«Сила простоты» — эта фраза все чаще звучит в комнатах разработчиков Macroscop во время планирования версий. Сейчас мы как никогда сфокусированы на простоте продукта, включении в него только того, что реально нужно пользователям, и удалении всего мало востребованного.

Удивительно, но сделать продукт простым для пользователя очень сложно. Мы поняли это на собственном опыте, когда столкнулись с вопросами, на которые не нашли однозначного ответа:
• что важнее, простота или функциональность?
• до какой степени нужно и можно упрощать продукт?
• и на кого ориентироваться в конечном счете при внесении изменений?

Простота – это сложно

Конечно, нам всегда было ясно, что продукт надо делать простым для пользователя. Это подтверждается и здравым смыслом, и опытом успешных компаний из самых разных областей.

Посмотрите, например, на Dropbox. Однажды гендиректор Macroscop Артем Разумков пообщался с одним из создателей этого сервиса. Тот рассказал, что идея хранения файлов в облаке была известна давно, и для этого надо было нажать на кнопку только 1 раз – загрузить файл. То, что придумали они – это просто переход от одного нажатию к нулю нажатий: человек просто помещает файл в обычную папку, и он загружается в облако автоматически. Кнопку «загрузить» вообще не надо нажимать! Эта простая идея перехода от 1 нажатия к 0 нажатий позволила им взлететь до невероятных высот. Вот она сила простоты!

Читать дальше →

+14

TopTop10 Nov 5 2019 at 13:28

Google BERT — новый поисковый алгоритм. Как изменится ранжирование и что делать сейчас?

2 min

11K

Google Chrome

Recovery Mode

Google не устает радовать своих пользователей и официально представил новый поисковый алгоритм – Google BERT.

Что известно об этом и в чем суть? Давайте разбираться.

Google BERT-это алгоритм поисковой системы, призванный улучшить релевантность результатов поисковой выдачи за счет способности анализировать не ключевые фразы, а предложения.
Аббревиатура BERT означает следующее — Bidirectional Encoder Representations from Transformers, что, в переводе на русский язык, значит: двунаправленная нейронная сеть кодировщик. Для получения лучшего результата используется нейронная сеть, которая способна наделить поисковую систему пониманием, в том числе на разных языках. На данный момент алгоритм применяется на 10% запросов к поисковой системе, в основном это США. Основной язык для тестирования – английский и в будущем планируется применение для SERP большинства языков и стран.

Читать дальше →

ganzmavag Nov 7 2023 at 19:12

Вас забанила нейросеть: как новый алгоритм Яндекса постепенно выкидывает из поиска региональные СМИ

Easy

9 min

45K

Search engines*Search engine optimization*

✏️ Technotext 2023

Пару недель назад я совершенно случайно обнаружил в Яндекс Вебмастере плашку о фатальной ошибке. Там было написано, что мой сайт может угрожать безопасности пользователя, или на нём были обнаружены нарушения правил поисковой системы. Других ошибок не было: индекс качества даже немного подрос.

Удивительно было, что этот сайт — известное в регионе СМИ, и вопросов к нему со стороны Яндекса не было все восемь лет его существования. Потому что мы и на самом деле нарушениями правил поисковиков не занимаемся. Но сначала я, конечно, подумал, что проблема в нас самих — где‑то спрятался баг или, того хуже, взломали. Однако всё оказалось куда интереснее.

Дело оказалось в новом алгоритме Яндекса, который теперь буквально запрещает писать новости. В нашей области он уже забанил примерно треть независимых региональных СМИ. Причём под удар, на удивление, попали одни из самых качественных. Поэтому я считаю, что проблема здесь не столько в сайтах, сколько в самом алгоритме, создатели которого придумали хорошую идею по борьбе за уникальность контента, но не до конца её протестировали. Почему я пришёл к такому выводу и что конкретно с алгоритмом не так, я здесь и расскажу.

На КПДВ: «Региональный журналист пишет новость» глазами другой нейросети Яндекса — «Шедеврум».

+252

304

yurkennis Jul 22 2013 at 13:50

Искусство понимать с полуслова. Расширение запроса в Яндексе

20 min

30K

Яндекс corporate blogSearch engines*

Сегодня мы расскажем о механизме, который позволяет поиску Яндекса находить именно то, что имел в виду пользователь, как бы кратко и небрежно он ни сформулировал свой запрос.

В мире поиска такой механизм называют расширением поискового запроса. Термин достаточно широкий, включает в себя переформулировки, синонимы, транслит и даже однокоренные слова (последние иногда ошибочно называют поддержкой морфологии).

Из каких частей этот механизм состоит? Что помогает ему угадывать? И почему на каждую из его редких ошибок приходятся тысячи запросов, на которых он сильно помог?

Почему нельзя просто так взять и расширить запрос.

Читать дальше →

+72

Irina_Ua May 17 2014 at 14:06

Мэтт снова угрожает новым алгоритмом

3 min

11K

PAYSTO corporate blogSearch engines*

Из-за специфики предлагаемого нами продукта, команда Paysto постоянно интересуется новыми тенденциями и предполагаемыми изменениями в сфере SEO, а в частности, алгоритмом работы поисковых систем. Во время работы над прошлой статьей, при просмотре массы видеообращений от Мэтта Каттса, специалиста, работающего в группе, которая занимается развитием качества поиска Google, мы наткнулись на видео о том, что, возможно, Google в очередной раз планирует изменить алгоритм ранжирования сайтов. По заявлению Мэтта при создании нового алгоритма постарались максимально реализовать возможность учета социальных факторов при формировании рейтинга того или иного ресурса.

Читать дальше →

HabrAndrey Nov 18 2014 at 18:59

Google будет помечать мобильные сайты в результатах поиска

2 min

61K

Google Developers corporate blogSearch engines*Development of mobile applications*

Translation

Уровень подготовки веб-мастера: любой

Наверняка многим из вас случалось переходить из результатов мобильного поиска Google на неоптимизированные для просмотра на смартфонах сайты. Страницы с крошечными ссылками и трудно читаемым текстом, которые вдобавок не умещаются на экране устройства, производят неблагоприятное впечатление.

Чтобы предупредить возможные неудобства пользователей мобильных устройств при просмотре сайтов, мы станем помечать в результатах нашего поиска страницы, оптимизированные для смартфонов и планшетов.
Отметка “Для мобильных” в результатах поиска

Отметка «Для мобильных» в результатах поиска

Для мобильных

+22