Поисковые технологии *

От AltaVista до Яндекса

СтатьиПостыНовостиАвторыКомпании

@PashaPodolsky 21 мар 2021 в 07:56

Устройство поисковых систем: базовый поиск и инвертированный индекс

24 мин

33K

Программирование * Поисковые технологии * Анализ и проектирование систем * Алгоритмы * Rust *

Под капотом почти каждой поисковой строки бьется одно и то же пламенное сердце — инвертированный индекс. Именно инвертированный индекс принимает текстовые запросы и возвращает пользователю список документов, а пользователь смотрит на всё это дело и радуется котиками, ответам с StackOverflow и страничкам на вики.

В статье описано устройство поиска, инвертированного индекса и его оптимизаций с отсылками к теории. В качестве подопытного кролика взят Tantivy — реализация архитектуры Lucene на Rust. Статья получилась концентрированной, математикосодержащей и несовместимой с расслабленным чтением хабра за чашкой кофе, осторожно!

Читать дальше →

+37

@AivanF 20 мар 2021 в 12:02

Ещё один поиск Вк по фото

7 мин

57K

Поисковые технологии * Python * Big Data * DevOps * Искусственный интеллект

Я люблю ввязываться в авантюры, и за последний месяц об одной из них я пару раз рассказывал друзьям, что вызывало восторг, поэтому решил поделиться с хабравчанами! Эта история про отважные пет-проекты, мощь опен-сорса и саморазвитие, а также основные технические детали. Надеюсь, вас это вдохновит.

Вдохновиться

+27

@host_m 19 мар 2021 в 09:20

Однажды Microsoft забанила всю мою страну за читерство

15 мин

27K

Блог компании VDSina.ruПоисковые технологии * Ненормальное программирование * Игры и игровые консолиPython *

Перевод

Об игре

Club Bing — это набор игр, в которые можно было играть в 2007-2012 годах. Все игры были связаны со словами, в них нужно было играть онлайн, чтобы зарабатывать очки, которые можно было тратить в онлайн-магазине для покупки призов. Одна из игр называлась Chicktionary. Цель игры: использовать 7 букв, чтобы составить как можно больше слов.

Буквы, которые можно использовать, указаны внизу, а слова, которые нужно составить — это маленькие яйца сверху. Всегда есть одно слово из семи букв.

В первые дни после выпуска этих игр можно было заработать множество призов. Хотя сайт позволял получать на один адрес только один приз, можно было запросто добавить номер квартиры к адресу собственного дома и создать множество уникальных адресов:

123 Main St. Apt #1, Anywhere, YZ, USA
123 Main St. Apt #2, Anywhere, YZ, USA
123 Main St. Apt #3, Anywhere, YZ, USA

Очевидно, наилучшим соотношением стоимости к очкам обладал контроллер XBox, поэтому можно было оставить компьютер набирать очки на нескольких аккаунтах, а затем тратить все очки на покупку контроллеров. На одном форуме был пост с фотографией парня, получившего почтой примерно 100 контроллеров за один день. Он сразу же выложил их на Ebay и продал.

Читать дальше →

+97

@velon 18 мар 2021 в 04:47

Интернационализация поиска по городским адресам. Реализуем русскоязычный Soundex на Sphinx Search

14 мин

3.6K

Поисковые технологии * Open source * Sphinx * Алгоритмы * Регулярные выражения *

Как много в вашем городе иностранных туристов? В моём мало, но встречаются, как правило стоят потерянные посреди улицы и повторяют одно единственное слово – название чего бы то ни было. А прохожие пытаются им на пальцах объяснить куда пройти, а когда «моя твоя не понимать» – берут за руку и ведут к пункту назначения. Как это не удивительно, обычно цель в пяти минутах ходьбы, т.е. какое-то примерное представление о городе эти туристы всё же имели. Может по бумажной карте ориентировались.

А как часто лично вы оказывались в такой ситуации, в незнакомом городе в другой стране?

Появление смартфонов и приложений для навигации решило много проблем. Ура, можно посмотреть свою геолокацию, можно найти куда идти, прикинуть в каком направлении и даже проложить маршрут.

Осталась одна проблема: все улицы в приложении подписаны местными иероглифами на местном наречии, и ладно если в стране пребывания принята латиница, клавиатура на латинице есть во всех смартфонах и мир к ней привык, и то я испытывал дискомфорт, из-за диакритических знаков, принятых в чешском алфавите. А боль и страдания иностранцев, видящих кириллицу, могу только представить, посмотрите псевдокириллицу и поймёте. Если бы я оказался на их месте, я бы писал названия и адреса латиницей, пытаясь воспроизвести звучание - фонетический поиск.

В публикации опишу как реализовать фонетические алгоритмы поиска Soudex на движке Sphinx Search. Одной транслитерацией здесь не обойдётся, хотя и без неё никуда. Получившийся конфигурационный файл, доступен на GitHub Gist.

Длиннопост

@BraveSoftware 12 мар 2021 в 10:06

Новый, смелый, анонимный: поисковик Brave Search

3 мин

13K

Блог компании BraveПоисковые технологии *

Перевод

Создатели браузера Brave запустят независимый, privacy-first поиск, который не является обёрткой над поисковыми машинами из bigtech.

+21

@Leono 11 фев 2021 в 09:34

Быстро разрабатываться и не падать: инструменты и опыт поиска Маркета. Доклад Яндекса

12 мин

3.7K

Блог компании ЯндексПоисковые технологии * Промышленное программирование * Тестирование веб-сервисов *

Поговорим о взаимодействии разработчика с ручными и автоматическими тестировщиками. Тимлид команды разработки в Маркете Юрий Акатов yuraaka рассказал о том, как создать платформу модульных автотестов и интегрировать её в процесс релиза, о проблемах нагрузочного тестирования и автоматизации, а также об отладке кода на продакшене и минимизации ущерба от непойманных багов, которые прокрадываются в релиз.

— Всем привет. Меня зовут Юра, я около семи лет работаю в поиске Маркета. Сегодня мы с вами поговорим о нашем опыте, о том, как мы организовали процессы и инструментарий, чтобы быстро разрабатываться и не падать.

Читать дальше →

@oKOT 8 фев 2021 в 17:13

Tier 2 в SEO и интернет маркетинге

12 мин

9.2K

Блог компании ITSOFTПоисковые технологии * Веб-аналитика * Интернет-маркетинг * Поисковая оптимизация *

Recovery Mode

Поскольку как в Гугле, так и в Яндексе пока почти нет информации на русском про tier 2 начнем с определений. В переводе с английского tier – это ярус, уже можно понять, что tier 2 это какой-то второй ярус. Если мы начнем «гуглить» tier 2, то увидим, что термин применяется в построении сетей разных уровней, а также в центрах обработки данных как показатель их надежности, но еще и в выдаче виз в Великобританию. Казалось бы, а при чем здесь SEO или маркетинг?

Рунет по разному, но зачастую значительно позже переваривает и популяризирует тренды или методы, которые в англоязычном мировом интернете уже давно систематизированы и изучены. В Google на английском поиск по запросу “tier seo” показывает, что эти методы продвижения с помощью усиления ссылок второго уровня tier 2 используется и активно обсуждается на англоязычных форумах уже много лет. Надо отметить, что даже в продвинутом англоязычном seo иногда не в курсе термина tier 2, хотя успешно используют эти методы.

Стоп, а если я не «сеошник», тогда мне не надо дальше читать этот длиннопост? Сеошники вряд ли много нового узнают, однако, статья должна быть полезна и маркетологам. На самом деле кто бы вы ни были, но вы в любом случае сталкиваетесь с tier 2. В этой статье я попытаюсь пояснить почему каждому пользователю сети Интернет важно знать о вариантах ссылок tier 2.

@ManticoreSearch 8 фев 2021 в 14:21

Manticore Search — форк Sphinx: отчёт за 3 года

12 мин

20K

Поисковые технологии * Open source * Sphinx *

В мае 2017 мы, команда Manticore Software, сделали форк Sphinxsearch, который назвали Manticore Search. Ниже вы найдёте краткий отчёт о проделанной работе за три с половиной года, прошедших с момента форка.

+53

@A_Degteryov 7 фев 2021 в 21:03

Google Books Ngram Viewer как инструмент для ретроспективных исследований

8 мин

12K

Будущее здесьНаучно-популярноеВизуализация данных * Открытые данные * Поисковые технологии *

Для принятия правильных решений в различных жизненных ситуациях очень полезно иметь адекватную модель мира. В частности, бывает полезна возможность сопоставить популярность различных предметов и оценить динамику этой популярности. Например, вы издатель, и вам предлагают перевести и издать книгу по языку программирования Fortran. Его ведь всё ещё используют, издаётся англоязычная литература, а у нас давно ничего не выходило. Или, скажем, по языку Julia. Книжек по актуальной версии языка на русском ещё нет. Можно взять какую-нибудь самую популярную английскую, перевести, издать и сорвать куш. В подобных ситуациях полезно иметь возможность подглядеть, какова популярность этих языков относительно других и какова динамика этой популярности. Пример с языками программирования приведён просто для наглядности, подобные задачи возникают и при анализе популярности различных программ, технологий, научных концепций.

+11

@baubaubau 2 фев 2021 в 11:12

Агрегаторы вакансий для разработчиков: сравниваю 10+ самых популярных

7 мин

9.7K

Поисковые технологии * Управление персоналом * Карьера в IT-индустрииЧитальный залУдалённая работа

Только самый-самый ленивый человек не написал о том, как искать работу на удаленке. Большинство советов про то, как откликнуться, пройти собеседование и так далее. Меня интересует другое — где вообще удобно искать вакансии. Составил свой рейтинг, протестировав 10 самых известных агрегаторов.

К рейтингу

@heappro 14 янв 2021 в 08:04

Как не держать лишнее железо и справляться с ростом нагрузки: внедрение graceful degradation в Яндекс.Маркете

4 мин

7.5K

Блог компании ЯндексВеб-разработка * Поисковые технологии * Серверная оптимизация * Серверное администрирование *

Привет, меня зовут Евгений. Я разрабатываю инфраструктуру поиска Яндекс.Маркета. Хочу рассказать, как graceful degradation помогает нам обрабатывать больше запросов, чем физически могут выдержать наши сервера, и что происходит с поиском в Маркете, если один из дата-центров отключается.

+20

@host_m 11 янв 2021 в 08:01

Какой софт и базы использует Bellingcat в своих расследованиях?

7 мин

128K

Блог компании VDSina.ruЗаконодательство в ITИнформационная безопасность * Обработка изображений * Поисковые технологии *

Весь мир обсуждает последнее расследование детективного агентства Bellingcat. Кажется невероятным, что группа обычных пользователей способна распутать такое дело. При этом они используют стандартные инструменты и базы данных, зачастую доступные в интернете.

Неужели сегодня можно раскрыть преступление вообще не вставая из-за компьютера? Только на основании следов, которые люди оставляют в базах данных, в истории мессенджеров, в логах операторов связи, на камерах наблюдения?

Или это фантастический киберпанк?

Читать дальше →

+214

826

@host_m 29 дек 2020 в 08:00

История AltaVista и сохранение прошлого Интернета

8 мин

14K

Блог компании VDSina.ruIT-компанииИстория ITПоисковые технологии *

Перевод

Четверть века назад как своеобразный эксперимент возник один из первых крупных поисковых движков, задумывавшийся как публичный тест основного продукта производителя серверов. В этом тесте мог принять участие любой пользователь с подключением к вебу. На то время эксперимент оказался настолько удачным, что этого никто и представить не мог. Однако проблема заключалась в том, что по сути своей это был эксперимент, который никогда не позиционировался как бизнес. Поэтому со временем эту инновацию неизбежно превзойдут другие, более подходящие компании, а данная передовая идея со временем станет частью прошлого. Но никто не собирался превращать в музейный экспонат инновации Интернета 1995 и 1996 годов: время не стояло на месте, как и веб-сайты, какими бы важными они ни были. Однако было бы здорово, если бы кто-то смог это сделать. В своей статье я пишу об AltaVista, Digital Equipment Corporation, веб-доменах и о том, как важная история может стать основой глупой маркетинговой схемы какой-то случайной компании.

Читать дальше →

+34

@nerumb 22 дек 2020 в 14:32

Не баян: ищем дубликаты изображений на основе Milvus с индексом FAISS внутри

6 мин

8.1K

Kotlin * Python * Поисковые технологии * Разработка мобильных приложений *

В user-generated проектах часто приходится бороться с дубликатами, а для нас это особенно актуально, так как основной контент мобильного приложения, которое я разрабатываю, — это изображения, которые постятся десятками тысяч ежедневно. Для поиска повторов мы написали отдельную систему, чтобы облегчить процесс и сэкономить море времени.

Под катом рассмотрим используемые инструменты, а потом перейдём к примеру реализации.

Читать дальше →

+50

@ruvds 19 дек 2020 в 09:12

Сито для интернета: интересные вещи с Shodan

5 мин

32K

Блог компании RUVDS.comИнформационная безопасность * Лайфхаки для гиковПоисковые технологии *

Интернет ошибочно отождествляют исключительно с вебом, но всемирная паутина доступная через браузер — это всего лишь вершина айсберга глобальной сети. Ее подводная часть куда разнообразнее, и хоть она скрыта от глаз рядовых пользователей, ничто не мешает изучать ее специализированными средствами. Одним из таких сервисов, сделанных “под ключ” и устроенных по типу швейцарского ножа, можно назвать Shodan.

Если гугл индексирует новостные сайты и энциклопедии, специально выставленные на всеобщее обозрение, то Shodan — это поисковая система, которая целенаправленно индексирует все подключенные к интернету вычислительные устройства (веб-камеры, маршрутизаторы, серверы и новомодные IoT-девайсы) и позволяет находить их с помощью различных поисковых запросов и фильтров.

Читать дальше →

+47

@host_m 15 дек 2020 в 06:10

Как я создал собственный алгоритм YouTube (чтобы не тратить время впустую)

8 мин

24K

Блог компании VDSina.ruАлгоритмы * Поисковые технологии * Работа с видео * Социальные сети

Перевод

Побег от алгоритма YouTube

Я люблю смотреть видео на YouTube, осязаемым образом улучшающие мою жизнь. К сожалению, алгоритм YouTube с этим не согласен. Он любит кормить меня кликбэйтом и прочим мусором.

Всё это неудивительно: алгоритм отдаёт приоритет кликам и времени просмотра.

Поэтому я поставил перед собой задачу: Смогу ли я написать код, который автоматически будет находить ценные видео, избавив меня от привязанности к алгоритму YouTube?

Вот так всё и началось.

Оптимально выстроенные планы

Я начал с визуализации того, что должен делать мой инструмент. Мне нужна была программа, которая будет (i) ранжировать видео на основании вероятной релевантности для меня и (ii) автоматически отправлять мне предлагаемые видео, из которых я смогу выбирать.

Я решил, что смогу серьёзно повысить продуктивность, если буду пакетно выбирать наборы видео для просмотра на каждую неделю и избавлюсь от необходимости бесконечного скроллинга YouTube.

+41

@host_m 1 дек 2020 в 08:10

Социальный мониторинг здорового человека: бесплатные инструменты для отслеживания упоминаний

4 мин

9.5K

Блог компании VDSina.ruИнтернет-маркетинг * Облачные сервисы * Поисковые технологии * Социальные сети

В мире стартапов и небольших проектов традиционно принято считать хороший маркетинг одним из главных условием успешного запуска. Многие не согласны с этим, в недавней статье про минусы работы в стартапах подробно описываются проблемы, связанные с затратами на маркетинг и их печальные следствия. Мы не будем их подробно обсуждать, а сконцентрируемся на одной небольшой задаче, которая поможет понять, насколько зашёл сообществу ваш продукт и как часто на него обращают внимание. Речь идёт о мониторинге упоминаний бренда; так как денег у стартапов/пет-проектов мало и мы трясёмся над каждой копейкой, будем рассматривать только бесплатные варианты.

Читать дальше →

+23

@glebmachine 27 ноя 2020 в 07:11

Полнотекстовый поиск в Couchbase Server

7 мин

2.8K

Блог компании Конференции Олега Бунина (Онтико)Go * КонференцииПоисковые технологии * Программирование *

Дмитрий Калугин-Балашов большую часть своей жизни писал поиск: с 2011 года в компании Mail.ru был поиск по почте, затем был небольшой перерыв из-за работы в США, а сейчас это — работа над поиском в Couchbase. Одна из первых вещей, которую Дмитрий понял, работая в США — не всегда покупают самое эффективное решение. Иногда покупают то, где клиент будет иметь меньше проблем.

Поэтому ещё в 2013 году Дмитрий написал движок поиска для почтовых ящиков Mail.ru и рассказал об этом в том же году на конференции HighLoad и в статье на Хабре. А на HighLoad 2019 показал, как устроен полнотекстовый поиск в Couchbase Server, и сегодня мы предлагаем расшифровку его доклада.

Читать дальше →

@gotmanov 25 ноя 2020 в 09:01

Трансформеры в Поиске: как Яндекс применил тяжёлые нейросети для поиска по смыслу

16 мин

64K

Блог компании ЯндексВеб-разработка * Поисковые технологии * Машинное обучение * Искусственный интеллект

Привет, Хабр. Меня зовут Саша Готманов, я руковожу группой нейросетевых технологий в поиске Яндекса. Сегодня на YaC 2020 мы впервые рассказали о внедрении трансформера — новой нейросетевой архитектуры для ранжирования веб-страниц. Это наиболее значимое событие в нашем поиске за последние 10 лет.

Сегодня я расскажу читателям Хабра, в чём заключается иллюзия «поиска по смыслу», какой путь прошли алгоритмы и нейросети в ранжировании и какие основные сложности стоят перед теми, кто хочет применить для этой задачи трансформеры и даже заставить их работать в рантайме.

+68

@mhorn 14 ноя 2020 в 08:27

Поиск научных публикаций в Интернете. Часть 3. Настройка оповещений

5 мин

7.1K

Поисковые технологии * Профессиональная литература *

Продолжение (начало – здесь (1) и (2))

Уметь искать информацию о научных публикациях по своей тематике – хорошо. Но ещё лучше, если эта информация будет сама вас находить. Поэтому в заключительной части обзора по поиску научных публикаций я рассмотрю особенности настройки оповещений.

Обычный вид моего почтового ящика — существенную часть писем составляют оповещения о новых публикациях

Читать дальше →

1 2 ...

16 17

19 20 ...

58 59

Поисковые технологии *

Устройство поисковых систем: базовый поиск и инвертированный индекс

Ещё один поиск Вк по фото

Однажды Microsoft забанила всю мою страну за читерство

Об игре

Интернационализация поиска по городским адресам. Реализуем русскоязычный Soundex на Sphinx Search

Новый, смелый, анонимный: поисковик Brave Search

Быстро разрабатываться и не падать: инструменты и опыт поиска Маркета. Доклад Яндекса

Tier 2 в SEO и интернет маркетинге

Manticore Search — форк Sphinx: отчёт за 3 года

Google Books Ngram Viewer как инструмент для ретроспективных исследований

Агрегаторы вакансий для разработчиков: сравниваю 10+ самых популярных

Как не держать лишнее железо и справляться с ростом нагрузки: внедрение graceful degradation в Яндекс.Маркете

Какой софт и базы использует Bellingcat в своих расследованиях?

История AltaVista и сохранение прошлого Интернета

Ближайшие события

Не баян: ищем дубликаты изображений на основе Milvus с индексом FAISS внутри

Сито для интернета: интересные вещи с Shodan

Как я создал собственный алгоритм YouTube (чтобы не тратить время впустую)

Побег от алгоритма YouTube

Оптимально выстроенные планы

Социальный мониторинг здорового человека: бесплатные инструменты для отслеживания упоминаний

Полнотекстовый поиск в Couchbase Server

Трансформеры в Поиске: как Яндекс применил тяжёлые нейросети для поиска по смыслу

Поиск научных публикаций в Интернете. Часть 3. Настройка оповещений

Вклад авторов