Обновить
27.66

Поисковые технологии *

От AltaVista до Яндекса

Сначала показывать
Порог рейтинга
Уровень сложности

Как найти похожие картинки

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров6K

Веб 2.0 — отличная штука. Сайты на самообслуживании. Пользователи наполняют их сами («постят контент», как сейчас выражаются). Сами напостили, сами посмеялись. А владелец сайта только платит за хостинг и стрижет купоны на рекламе. Удобно же.

Но жизнь наша так странно устроена, что плюсов без минусов не бывает, а нередко недостатки вообще являются продолжением достоинств. Есть проблемы и у самонаполняемых сайтов — баяны. В смысле, дубли.

Дубли многие посетители не любят, особенно старожилы, на зубок помнящие мемасики, появившиеся во времена превед‑медведа и олбанского йазыгга. Каждое их появление они встречают фырканьем и угрозами немедленно отписаться.

Что же делать? Конечно, призвать на помощью железную машину — пусть она сама ищет баяны.

Читать далее

Войны ИИ: Google против Microsoft. Как Google вчистую проигрывает одному ChatGPT

Время на прочтение8 мин
Количество просмотров15K


Microsoft, Google, Baidu и другие вовсю работают над тем, чтобы первыми создать бота, который сможет отвечать на все ваши вопросы. Битва идет не на жизнь, а на смерть. И пока что в ней выигрывает Microsoft. Всё потому, что в 2019 году она инвестировала в OpenAI, конкурента тогда гораздо более известной DeepMind. Это уже оказалось одной из их лучших инвестиций. В сумме они потратили всего $10 млрд, а их главный конкурент из-за этого на днях потерял $100 млрд капитализации, пытаясь представить публике что-то хотя бы отдаленно похожее.

Читать дальше →

Не надо ждать когда bing запустит chatGPT — уже есть ИИ, который отвечает исходя из результатов поиска

Уровень сложностиПростой
Время на прочтение1 мин
Количество просмотров7.6K

И кстати, он даже не требует регистрации.

Как можно заметить, сейчас системы а-ля chatGPT начали расти как грибы после дождя. И мне попался такой сайт как perplexity.ai

Этот сайт делает то, что bing только обещает - ищет в интернете за меня и дает ответы, исходя из найденных результатов. Причем для каждого предложения он дает ссылки на источники, откуда он брал информацию.

Сейчас, правда, он отвечает всего парой абзацев и показывает не более пяти источников. Но если он научится анализировать тысячи источников и давать подробное резюме, то он может стать очень удобным инструментом.

Читать далее

Microsoft будет использовать ChatGPT, чтобы улучшить Bing и обойти Google

Время на прочтение3 мин
Количество просмотров3K

Поисковая система Bing получит новый интерфейс чат-бота, который будет синтезировать информацию из сети.

Читать далее

Почему не стоит использовать черное SEO

Время на прочтение5 мин
Количество просмотров5.4K

Пётр Гришечкин, SEO-специалист в команде проекта “Своё Родное” от Россельхозбанка

Продолжим серию статей про SEO и поговорим о причинах разделения на SEO-специалистов и на СЕОшников. Я говорю о темной стороне SEO, или, как ее обычно называют, о черном SEO.

В этой статье я собираюсь поделиться с вами некоторыми методами черного SEO, их негативными последствиями, и, самое главное, как их избежать. Итак, сядьте поудобнее, расслабьтесь, и позвольте мне рассказать вам о темной стороне SEO.

Читать далее

SEO Выводы из утечки кода поисковика Яндекс

Время на прочтение6 мин
Количество просмотров106K

Я был в восторге, когда узнал об утечке проприетарного исходного кода Яндекса. И после анализа данных я должен сказать, что выводы оказались весьма интересными! Итак, без лишних слов, давайте окунемся в основные выводы, которые я сделал.

Читать далее

Как мы ищем документы в Naumen Disk или еще один вариант организации FTS

Время на прочтение14 мин
Количество просмотров3.7K

В процессе работы над проектом мы рассмотрели различные способы организации Full Text Search (FTS) по файлам. И… отказались от них в пользу своего решения, которое базируется на стандартных методах. В статье я опишу путь построения полнотекстового поиска по файлам для веб приложения с акцентом на задачи FTS.

Читать далее

Вот что я нагуглила за неделю в качестве старшего инженера-программиста

Время на прочтение6 мин
Количество просмотров42K

Три года назад разработчик Софи Кунин* опубликовала пост под названием «Вот что я нагуглила за неделю в качестве профессионального инженера-программиста», и он явно нашел отклик у читателей, поскольку стал довольно вирусным. За эти три года многое произошло. Софи повысили, теперь она старший инженер-программист и руководитель направления веб-разработок в Monzo. Но одно не изменилось: она по-прежнему много гуглит, каждый божий день. Вот что она нагуглила за неделю, версия 2022 года.

Очевидный дисклеймер: эта статья слегка отредактирована, поскольку автор удалила большую часть того, что не относится к работе.

*Обращаем ваше внимание, что позиция автора может не всегда совпадать с мнением МойОфис.

Читать далее

Алгоритм поиска «одинаковых» геометрий

Время на прочтение5 мин
Количество просмотров3K

Привет! Меня зовут Мацкевич Евгений, я бекэнд-разработчик 3D-движка компании «Бимейстер». Хоть это и не очевидно на первый взгляд, но элементы загружаемых пользователями 3D-моделей зачастую повторяются, имея при этом различные положение в пространстве, масштабирование и вращение. Я расскажу о том, как мы научили нашу систему распознавать такие элементы как «одинаковые», выделять из них уникальный, а для остальных – вычислять матрицы трансформации. Это дало возможность однократно загружать уникальный элемент, а вместо прочих одинаковых – их матрицы, что сократило трафик и объем занимаемой оперативной памяти.

Читать далее

Цепи Маркова: как использовать силу анализа ссылок в SEO

Время на прочтение4 мин
Количество просмотров2.2K

Как SEO-эксперт, я знаю, насколько важно определить важные страницы сайта и спрогнозировать потенциальные возможности для размещения ссылок. Именно поэтому в своей работе я использую мощный метод: цепи Маркова. В этой статье я объясню, что это такое, как это работает и как вы можете использовать этот метод для улучшения вашей стратегии построения ссылок в рамках SEO.

Читать далее

Как Яндекс научился распознавать, что написано в рукописных архивах

Время на прочтение11 мин
Количество просмотров38K

Привет, Хабр. Меня зовут Саша, в прошлый раз я рассказывал сообществу про поиск организаций в Яндексе. В этот раз мы вновь поговорим про поиск, но уже совершенно другого рода. Сегодня расскажем про «Поиск по архивам». Этот проект вырос из моего личного интереса к истокам семьи, но в итоге (хочется верить!) поможет тысячам других таких же пользователей чуть больше узнать о своих корнях.

Генеалогическое исследование — очень трудоёмкий процесс. Информация о родственниках разбросана по разным архивам, запросы на получение данных могут обрабатываться долго, а доступ даже в открытые архивы ограничен. Несмотря на то что оцифровка архивных документов ведётся уже более десяти лет, по ним не так-то просто искать — придётся отсматривать вручную множество сканов в надежде найти фамилию предка. 

Чтобы упростить этот процесс, мы научились превращать в текст сканы архивных документов. Основная сложность этой задачки заключалась в том, что текст в архивах написан от руки. Машинописный текст всё-таки создан по предсказуемым правилам: автор использует набор уже известных шрифтов. А рукописный текст уникальный, потому что каждый человек пишет по-своему. Кроме того, архивные документы написаны не просто от руки, но и на дореволюционном русском языке, который существенно отличается от современного. 

Решению этой задачи мы и посвятим историю. А поможет мне с ней Таня @miryable из команды, которая уже много лет развивает в Яндексе технологию оптического распознавания символов (OCR).

Читать далее

Как мы внедряли полнотекстовый поиск

Время на прочтение4 мин
Количество просмотров6.5K

Раньше я работала на проекте N, где главной бизнесовой сущностью было событие. Это событие имеет свое название и еще несколько полей.
Когда-то нам пришел запрос от юзеров: событие у нас в системе называется, например, "событие от Ивана Ивановича", а они пытаются вбить в поиск "иван иванович рассказал про X" и не получают никаких результатов.
Данная проблема решается с помощью полнотекстового поиска. Вопрос в том, как его реализовать.

Читать далее

Как я написал свою поисковую систему для быстрого поиска личной информации

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров9.2K

Предыстория

Все началось с того, что мне стало трудно находить нужную информацию, файлы. Чем больше файлов и папок у меня образовывалось, тем больше времени уходило на поиски нужного. Я понял, что каждый раз искать в бесконечных списках файлов и папок, особенно с условием вложенности это не вариант для больших объемов данных.

Что касается поиска по названию файла, то количество символов, указанных в названии ограниченно и слова при поиске должны быть в строго определенной последовательности. Тем более, если система индексирует другие, не нужные для поиска файла (системные файлы, файлы проектов), то поиск выдает много "мусора".

Поиск по содержанию файла даёт не самый релевантный результат. Может выдать бесполезные результаты с содержанием содержащие ключевые слова, но не относящиеся к тому, что действительно необходимо найти.

Более того по содержанию можно искать только текстовые файлы.

Структура содержания информации

Структура папок представляется собой в виде дерева. Мне это не нравится, потому что каждая папка может содержать только определенные файлы, если не учитывать копирование и ссылки.

Так же это можно представить с примером из реальной жизни, для того, чтобы найти зелёное свежее яблоко сорт "девственный". Необходимо найти отдел с фруктами, затем отдел с яблоками, затем ищем зеленные, затем сорт, ну там ещё их на свежие, не свежие фасуют в этом воображаемом примере и наконец найти нужное apple.

Усложняется ещё все и тем, что я не помню, есть ли там вообще яблоки, и если есть, то хранятся ли они в отделе фрукты или там продаются.

Читать далее

Ближайшие события

Как мы затащили MoscowCityHack2022

Время на прочтение4 мин
Количество просмотров2.1K

10-13 июня 2022 года прошел MoscowCityHack2022. Наша команда NorthShine заняла на нем первое место в первом кейсе. Задача была написать "сервис проверки поддельных новостей (fake news) в сфере технологий и инноваций".

Мы провели небольшой ресерч и определились с тем, как в принципе будем писать сервис по определению фейковых новостей. Сначала нам надо было решить какую новость считать правдивой, а какую - нет...

Читать далее

Как добавить свой интернет-магазин в Яндекс.Маркет? Правила размещения для магазинов

Время на прочтение5 мин
Количество просмотров14K

Яндекс.Маркет – это крупнейший агрегатор товаров разных категорий. Он содержит более 100 млн. предложений от различных магазинов. Посетители площадки имеют возможность просматривать товары в удобном виде, ознакомляться с отзывами и совершать покупки.

Использование Яндекс.Маркета имеет множество плюсов.  Во-первых, он имеет достаточно большую аудиторию и даже начинающие интернет-магазины смогут значительно увеличить свои продажи с ЯМ. Также, к положительным сторонам можно отнести:

Читать далее

Поиск данных в инструментах Data Governance: вызовы и решения

Время на прочтение7 мин
Количество просмотров2.1K

Добрый день!

Меня зовут Никита, я работаю ведущим системным аналитиком в Департаменте управления данными компании Ростелеком.

В данной статье я опишу наш опыт использования Реестра отчетов и Бизнес-глоссария, подводные камни, с которыми мы столкнулись, а также планы по оптимизации рабочих процессов в инструментах Data Governance (далее – DG).

Три года назад ИТ-команда Ростелекома разработала Реестр отчетов и Бизнес-глоссарий на базе Open-Source технологий, и данные модули впоследствии получили широкое распространение в периметре компании. Также была создана Единая точка входа, позволяющая сотрудникам получать быстрый доступ ко всем отчетам и бизнес-терминам, существующим в компании. За два года количество постоянных пользователей Единой точки входа увеличилось с 200 до 2300 человек, при этом количество уникальных посетителей Единой точки входа составляет порядка 400 пользователей еженедельно, и данная цифра постоянно растет.

Инструментарий для работы с данными покрывает значительный объем запросов Ростелекома в разрезе таких сегментов как B2B, B2C, БТИ и т.д. Подробнее можно прочитать здесь и здесь.

Департамент по управлению данными заинтересован не только в оптимизации процессов работы с данными во всей компании, но и в улучшении показателей пользовательского опыта в разрезе DG продуктов. Для этого необходимо модернизировать функционал существующих систем путем поиска точек роста и выпуска обновлений по их устранению. Искать точки роста мы решили при помощи интервьюирования пользователей и сбора обратной связи от них. По результатам были отрисованы карты пользовательских путей (cjm – "customer journey map") в разрезе DG инструментов, а также сформирован бэклог, описывающий основные зоны роста в части систем по управлению данными. В связи с этим, в скором времени планируется ряд обновлений с целью внедрения доработок и увеличения эффективности продуктов.

Читать далее

Пример использования API поиска Algolia на примере телеграм бота

Время на прочтение3 мин
Количество просмотров4.3K

В данном примере разберем, как пользоваться API поиска в известеом поисковом сервисе Algolia.

Читать далее

Децентрализованный поиск для свободного веба

Время на прочтение12 мин
Количество просмотров11K

Возможно ли создать поисковую систему, которую тяжело подвергнуть цензуре, влиянию и блокировке?

Говоря техническим языком, возможно ли выполнять полнотекстовый поиск не имея удаленного сервера, удобным для пользователя способом, одновременно храня поисковый индекс в peer-to-peer системе и имея возможность быстро обновлять поисковый индекс?

Да, это возможно!

Под катом описание архитектуры поискового движка Summa на Rust и набора приемов, позволивших ответить утвердительно на все вопрос

Читать далее

Способ представления числовых ключей для обратного поискового индекса

Время на прочтение5 мин
Количество просмотров3.8K

Числа — совершенно особенная категория текстовых объектов. Они могут быть представлены разными способами: от зачастую многословного и не всегда согласованного между собой ряда убывающих числительных до записи арабскими или римскими цифрами, с разбивкой запятыми или точками, с пробелами или без них.

Не проще обстоят дела и с программным представлением таких объектов.

Читать далее

150+ хакерских поисковых систем и инструментов

Время на прочтение11 мин
Количество просмотров120K

Все таргетированные хакерские атаки начинаются с разведки. Социальные инженеры, красные команды и отдельные пентестеры также собирают информацию о своих целях перед тем, как перейти к активным действиям. Им помогают десятки инструментов и хаков. Под катом ссылки на некоторые из них.

Пост состоит из 8 объемных разделов:

1. метапоисковики и поисковые комбайны;

2. инструменты для работы с дорками;

3. поиск по электронной почте и логинам;

4. поиск по номерам телефонов;

5. поиск в сети TOR;

6. поиск по интернету вещей, IP, доменам и поддоменам;

7. поиск данных об уязвимостях и индикаторов компрометации;

8. поиск по исходному коду.

В этом списке собраны инструменты, которые члены нашей команды используют в работе. И все же, эта подборка пригодится не только пентестерам, но и разработчикам, журналистам, HR, маркетологам и всем, кто много ищет в интернете. Знания — это сила. Используйте их во благо.

Читать далее

Вклад авторов