Pull to refresh

Как математика улучшает геосервисы и помогает быстрее сориентироваться

Level of difficultyMedium
Reading time7 min
Views2.2K

Сегодня всё чаще требуется учитывать географическую привязку и выполнять поиск в локальном окружении клиента. Иными словами, регулярно возникает необходимость найти что-то (или кого-то) рядом с конкретным пользователем. «Где ближайший банкомат?», «Кто из друзей поблизости?», «Какие тут аптеки?». Подобные запросы миллионами поступают в сервисы геолокации каждый день, при этом существующие подходы к решению этой задачи не исчерпали возможностей оптимизации. Наверняка вы не раз сетовали на то, как долго обновляются метки на карте.

В этой статье эксперт отдела перспективных исследований российской компании «Криптонит» Игорь Нетай рассказывает о способе ускорить обнаружение объектов, принадлежащих одному географическому региону с произвольно заданными размерами. Материал станет частью научной работы о перспективах применения H-кривых в геохешинге.

С помощью рассмотренной в этой статье алгоритмической оптимизации можно быстрее выполнять поиск в различных масштабах — от полушария Земли до конкретного здания.

Координаты одной строкой

Удобство географической персонализации постепенно вытеснило паранойю, и во многих онлайн-сервисах теперь открыто используются данные о местоположении пользователей и различных объектов. Делаете заказ через интернет? Вам предложат забрать его в пункте выдачи поближе к дому. Вызываете такси? Сначала запрос передаётся водителям рядом с вами. Ищете кафе? На карте отобразятся ближайшие.

Все эти алгоритмы сводятся к решению одной и той же задачи: они определяют, какие координатные точки из базы данных входят в тот же условно заданный регион, что и указанная в запросе целевая точка (как правило, обозначающая местоположение пользователя). Для этого используется система кодирования географических координат в виде значений хеш-функции, называемых геохеши.

Читать далее
Total votes 14: ↑13 and ↓1+12
Comments7

Алгоритм расчёта расстояния между строками

Level of difficultyMedium
Reading time3 min
Views6.2K

По работе стояла задача оптимизации поиска по адресам (улицы, дома и объекты). Главный критерий - нахождение адреса, если написано с ошибками или не дописан он в полной мере. Bert’ы, косинусные расстояния эмбеддингов и т.д. не подходили, так как они заточены под смысловой поиск, а в адресах смысла нет. TF-IDF c лемматизацией тоже не очень подходил для этой задачи, результаты были плохие.

Для реализации начал использовать расстояние Дамерау-Левенштейна, и в последствие, развил это до собственного алгоритма, который находит расстояние между двумя строками.

Цель данного поста описание только алгоритма.

Читать далее
Total votes 16: ↑16 and ↓0+16
Comments17

Результаты поиска Google с ИИ продвигают сайты с вредоносным ПО

Reading time2 min
Views1.3K

Новые алгоритмы Google в рамках эксперимента Search Generative Experience на основе искусственного интеллекта начали рекомендовать мошеннические сайты с вредоносными расширениями Chrome, поддельными подарочными кампаниями, спамом и другие. 

Читать далее
Total votes 3: ↑3 and ↓0+3
Comments2

Google разрешит пользователям комментировать результаты поиска

Reading time2 min
Views976

Google запустила эксперимент «Заметки» через Search Labs. Он позволит пользователям добавить собственные аннотации к результатам поиска.

Читать далее
Total votes 2: ↑2 and ↓0+2
Comments1

WSJ: в поисковике Google предпочтение отдается крупным компаниям

Reading time4 min
Views1.9K
image

Wall Street Journal провело расследование работы поиска Google. Журналисты заявили, что компания серьезно вмешивается в алгоритм формирования поисковой выдачи.

По словам собеседников издания, в 2018 году Google внесла в алгоритмы более 3200 изменений, в 2017 году — 2400, а в 2010 году — около 500. В самой корпорации это объясняют тем, что примерно 15% запросов представляют собой слова или комбинации, с которыми система ранее не сталкивалась, и поэтому разработчики вынуждены корректировать работу алгоритмов для релевантной выдачи.

WSJ утверждает, что, тем не менее, Google отдает предпочтение крупным компаниям, так как на этих площадках покупатель вероятнее что-то приобретет. В итоге на верхние строчки выдачи попадает Amazon. Расследователи заявили, что это происходит даже тогда, когда продукты уже вышли из продажи в магазине. «Неверно также полагать, что мы не пытаемся решить проблему с отображением вышедших из продажи товаров на высоких позициях в выдаче», — в ответ заявила представитель корпорации.
Читать дальше →
Total votes 11: ↑11 and ↓0+11
Comments3

Организация поиска по веб-странице на JavaScript (без jQuery)

Reading time8 min
Views112K
Пару дней назад получил тестовое задание от компании на вакансию Front-end dev. Конечно же, задание состояло из нескольких пунктов. Но сейчас речь пойдет только об одном из них — организация поиска по странице. Т.е. банальный поиск по введенному в поле тексту (аналог Ctrl+F в браузере). Особенность задания была в том, что использование каких-либо JS фреймворков или библиотек запрещено. Все писать на родном native JavaScript.

(Для наглядности далее буду сопровождать всю статью скринами и кодом, чтоб мне и вам было понятнее, о чем речь в конкретный момент)
Читать дальше →
Total votes 21: ↑11 and ↓10+1
Comments10

Внедрили микроразметку, а расширенных сниппетов нет: 10 возможных причин

Reading time7 min
Views5.5K
Внедрили микроразметку, а расширенных сниппетов нет: 10 возможных причин

Расширенные сниппеты — дело тонкое. Даже если вы все настроили верно, есть нюансы, из-за которых они могут не показываться. Причем не всегда это зависит от вас. Разбираемся, почему у вас вдруг нет расширенных сниппетов, хотя вы очень старались с разметкой. Предлагаем способы лечения.

Читать дальше
Total votes 11: ↑9 and ↓2+7
Comments9

Ray Casting Visual Search (RCVS). Простой и быстрый алгоритм поиска схожих по геометрии 3D моделей

Reading time8 min
Views5K


Для меня эти две модели очень похожи, однако у них нет очевидных характеристик, по которым можно было бы измерить их сходство. У этих моделей разное количество вершин, рёбер и полигонов, они разного размера, к тому же по-разному повёрнуты в пространстве, и у обеих одинаковые трансформации (Положение = [0,0,0], Вращение в радианах = [0,0,0], Масштаб = [1,1,1]). Как определить их подобие?
Total votes 14: ↑14 and ↓0+14
Comments13

Найти за полсекунды: сравниваем похожие фотографии

Reading time10 min
Views24K

Привет, меня зовут Петр и я работаю в Badoo в команде биллинга. В этой статье я хочу поделиться своим опытом работы над пет-проектом по созданию хранилища фотографий с возможностью поиска дубликатов. Я расскажу, с каким багажом я вошел в этот проект, в чем заключалась задача и как её решал. В конце поделюсь результатами и почему я считаю, что это один из лучших проектов, которым я занимался. 

Однажды мои знакомые попросили сделать им хранилище изображений для их проекта по модерации внешних ресурсов. Условия: срок хранения до трех лет, фотографии при этом присылаются неравномерно, в среднем поток — 150.000 картинок в сутки.

Казалось бы, достаточно банальная задача. Если бы не еще одно условие: хорошо бы сопоставлять фотографии с уже имеющимися: искать дубликаты и помечать их. 

Читать далее
Total votes 54: ↑53 and ↓1+52
Comments7

Как сделать поисковую систему с ИИ, используя FastAPI, Qdrant и ChatGPT

Level of difficultyMedium
Reading time11 min
Views6.4K

Как сделать свои мини-поисковик, который будет прикидываться великим деятелем прошлого и сыпать умными цитатами? Рассказываем.

Читать далее
Total votes 11: ↑9 and ↓2+7
Comments1

Google рассказывает о своих поисковых алгоритмах

Reading time2 min
Views1.1K
В течение долгого времени компания Google хранила в строгом секрете формулы своих поисковых алгоритмов. Причины понятны: во-первых, чтобы защититься от конкурентов; во-вторых, чтобы эту информацию не могли использовать в своих целях «чёрные» оптимизаторы. И вот, наконец, политика скрытности начинает меняться. Глава подразделения поискового качества (Search Quality) Уди Манбер опубликовал сообщение в корпоративном блоге, которое он сам называет первым шагом по открытию ранее секретной информации.

В первом сообщении Уди Манбер рассказывает об основах системы ранжирования поискового движка Google. Он объясняет, что всем известный алгоритм PageRank является частью гораздо более масштабной системы, которая включает в себя языковые модели (обработка фраз, синонимов, опечаток и т.д.), модели обработки запросов (это не лингвистика, а попытка понять суть поисковых запросов), временные модели (на некоторые запросы лучше выдавать самые свежие страницы, проиндексированные в последние 30 минут, а на другие — старые страницы с проверенным качеством), а также модели персонализации.

В первом сообщении Манбера мы не видим ничего «секретного», чего бы не знали раньше. Но это только начало, и в будущем Манбер может опубликовать новую интересную информацию, та что есть смысл внимательно следить за корпоративным блогом Google.

Независимые эксперты с иронией комментируют, что Google всегда была не менее закрытой компанией, чем Microsoft. Даже хуже, более лицемерной, потому что система работы Google такая: они заставляют людей открывать информацию в свободный доступ, собирают её в свой закрытый «чёрный ящик», с помощью которого зарабатывают деньги. Понятно, что такие действия вызывают некоторое недовольство у авторов контента, так что новая стратегия Google по открытию своих алгоритмов — это, в какой-то степени, вынужденный шаг.
Total votes 61: ↑50 and ↓11+39
Comments25

Google борется за право хранить корпоративную тайну поисковых алгоритмов

Reading time3 min
Views971
image

Все больше людей заявляют о том, что Google превращается из империи добра в империю зла, поскольку компания сохраняет большую часть своей работы втайне, включая поисковые алгоритмы (интересно, какая из компаний работает совершенно открыто?). Так вот, большое количество специалистов различных сфер деятельности, от IT до экономики, заявляют, что алгоритмы Google должны стать достоянием общественности.

Читать дальше →
Total votes 80: ↑62 and ↓18+44
Comments151

Интерфейсы: Упрощаем поисковый механизм (или почему этого не делаем)

Reading time3 min
Views1.6K
Добрый день!

Сегодня наш разговор пойдет о проектировке пользовательских интерфейсов и коснется проектирования поиска как для сайтов (в частности поисковых систем), так и для программных продуктов.

Так как проектирование интерфейсов призвано решать задачи, то и мы начнем с их постановки:
Упростить поисковый механизм
Читать дальше →
Total votes 18: ↑5 and ↓13-8
Comments10

Почему разработчики видеонаблюдения любят ритейл больше, чем производство?

Reading time5 min
Views2.7K
Знаете ли вы, что в ассортименте вендоров ПО для видеосистем есть много решений для прикладных задач торговли — модулей для подсчета посетителей, определения длины очереди, контроля операций на кассе и т.п. А предложений для решения производственных и промышленных задач практически нет. Все потому что мы, разработчики ПО для видеонаблюдения, для производства, в отличие от ритейла, разрабатываем редко, и стоит это дорого.

Почему? Давайте разбираться.
Читать дальше →
Total votes 4: ↑2 and ↓20
Comments3

На пути к простоте: как сложно она дается разработчикам

Reading time6 min
Views13K
«Сила простоты» — эта фраза все чаще звучит в комнатах разработчиков Macroscop во время планирования версий. Сейчас мы как никогда сфокусированы на простоте продукта, включении в него только того, что реально нужно пользователям, и удалении всего мало востребованного.

Удивительно, но сделать продукт простым для пользователя очень сложно. Мы поняли это на собственном опыте, когда столкнулись с вопросами, на которые не нашли однозначного ответа:
• что важнее, простота или функциональность?
• до какой степени нужно и можно упрощать продукт?
• и на кого ориентироваться в конечном счете при внесении изменений?

Простота – это сложно


Конечно, нам всегда было ясно, что продукт надо делать простым для пользователя. Это подтверждается и здравым смыслом, и опытом успешных компаний из самых разных областей.

Посмотрите, например, на Dropbox. Однажды гендиректор Macroscop Артем Разумков пообщался с одним из создателей этого сервиса. Тот рассказал, что идея хранения файлов в облаке была известна давно, и для этого надо было нажать на кнопку только 1 раз – загрузить файл. То, что придумали они – это просто переход от одного нажатию к нулю нажатий: человек просто помещает файл в обычную папку, и он загружается в облако автоматически. Кнопку «загрузить» вообще не надо нажимать! Эта простая идея перехода от 1 нажатия к 0 нажатий позволила им взлететь до невероятных высот. Вот она сила простоты!
Читать дальше →
Total votes 24: ↑19 and ↓5+14
Comments5

Google BERT — новый поисковый алгоритм. Как изменится ранжирование и что делать сейчас?

Reading time2 min
Views11K
Google не устает радовать своих пользователей и официально представил новый поисковый алгоритм – Google BERT.

Что известно об этом и в чем суть? Давайте разбираться.

Google BERT-это алгоритм поисковой системы, призванный улучшить релевантность результатов поисковой выдачи за счет способности анализировать не ключевые фразы, а предложения.
Аббревиатура BERT означает следующее — Bidirectional Encoder Representations from Transformers, что, в переводе на русский язык, значит: двунаправленная нейронная сеть кодировщик. Для получения лучшего результата используется нейронная сеть, которая способна наделить поисковую систему пониманием, в том числе на разных языках. На данный момент алгоритм применяется на 10% запросов к поисковой системе, в основном это США. Основной язык для тестирования – английский и в будущем планируется применение для SERP большинства языков и стран.
Читать дальше →
Total votes 16: ↑12 and ↓4+8
Comments2

Вас забанила нейросеть: как новый алгоритм Яндекса постепенно выкидывает из поиска региональные СМИ

Level of difficultyEasy
Reading time9 min
Views45K

Пару недель назад я совершенно случайно обнаружил в Яндекс Вебмастере плашку о фатальной ошибке. Там было написано, что мой сайт может угрожать безопасности пользователя, или на нём были обнаружены нарушения правил поисковой системы. Других ошибок не было: индекс качества даже немного подрос.

Удивительно было, что этот сайт — известное в регионе СМИ, и вопросов к нему со стороны Яндекса не было все восемь лет его существования. Потому что мы и на самом деле нарушениями правил поисковиков не занимаемся. Но сначала я, конечно, подумал, что проблема в нас самих — где‑то спрятался баг или, того хуже, взломали. Однако всё оказалось куда интереснее.

Дело оказалось в новом алгоритме Яндекса, который теперь буквально запрещает писать новости. В нашей области он уже забанил примерно треть независимых региональных СМИ. Причём под удар, на удивление, попали одни из самых качественных. Поэтому я считаю, что проблема здесь не столько в сайтах, сколько в самом алгоритме, создатели которого придумали хорошую идею по борьбе за уникальность контента, но не до конца её протестировали. Почему я пришёл к такому выводу и что конкретно с алгоритмом не так, я здесь и расскажу.

На КПДВ: «Региональный журналист пишет новость» глазами другой нейросети Яндекса — «Шедеврум».

Читать далее
Total votes 264: ↑258 and ↓6+252
Comments304

Искусство понимать с полуслова. Расширение запроса в Яндексе

Reading time20 min
Views30K
Сегодня мы расскажем о механизме, который позволяет поиску Яндекса находить именно то, что имел в виду пользователь, как бы кратко и небрежно он ни сформулировал свой запрос.

В мире поиска такой механизм называют расширением поискового запроса. Термин достаточно широкий, включает в себя переформулировки, синонимы, транслит и даже однокоренные слова (последние иногда ошибочно называют поддержкой морфологии).

Из каких частей этот механизм состоит? Что помогает ему угадывать? И почему на каждую из его редких ошибок приходятся тысячи запросов, на которых он сильно помог?

image
Почему нельзя просто так взять и расширить запрос.
Читать дальше →
Total votes 78: ↑75 and ↓3+72
Comments28

Мэтт снова угрожает новым алгоритмом

Reading time3 min
Views11K
image
Из-за специфики предлагаемого нами продукта, команда Paysto постоянно интересуется новыми тенденциями и предполагаемыми изменениями в сфере SEO, а в частности, алгоритмом работы поисковых систем. Во время работы над прошлой статьей, при просмотре массы видеообращений от Мэтта Каттса, специалиста, работающего в группе, которая занимается развитием качества поиска Google, мы наткнулись на видео о том, что, возможно, Google в очередной раз планирует изменить алгоритм ранжирования сайтов. По заявлению Мэтта при создании нового алгоритма постарались максимально реализовать возможность учета социальных факторов при формировании рейтинга того или иного ресурса.
Читать дальше →
Total votes 15: ↑8 and ↓7+1
Comments5

Google будет помечать мобильные сайты в результатах поиска

Reading time2 min
Views61K
Уровень подготовки веб-мастера: любой

Наверняка многим из вас случалось переходить из результатов мобильного поиска Google на неоптимизированные для просмотра на смартфонах сайты. Страницы с крошечными ссылками и трудно читаемым текстом, которые вдобавок не умещаются на экране устройства, производят неблагоприятное впечатление.

Чтобы предупредить возможные неудобства пользователей мобильных устройств при просмотре сайтов, мы станем помечать в результатах нашего поиска страницы, оптимизированные для смартфонов и планшетов.
Отметка “Для мобильных” в результатах поиска
Отметка «Для мобильных» в результатах поиска
Для мобильных
Total votes 32: ↑27 and ↓5+22
Comments32
1