Все потоки

Поисковые технологии *

От AltaVista до Яндекса

СтатьиПостыНовостиАвторыКомпании

gatoazul 14 фев 2023 в 14:44

Как найти похожие картинки

Простой

9 мин

6K

Поисковые технологии * Обработка изображений *

Веб 2.0 — отличная штука. Сайты на самообслуживании. Пользователи наполняют их сами («постят контент», как сейчас выражаются). Сами напостили, сами посмеялись. А владелец сайта только платит за хостинг и стрижет купоны на рекламе. Удобно же.

Но жизнь наша так странно устроена, что плюсов без минусов не бывает, а нередко недостатки вообще являются продолжением достоинств. Есть проблемы и у самонаполняемых сайтов — баяны. В смысле, дубли.

Дубли многие посетители не любят, особенно старожилы, на зубок помнящие мемасики, появившиеся во времена превед‑медведа и олбанского йазыгга. Каждое их появление они встречают фырканьем и угрозами немедленно отписаться.

Что же делать? Конечно, призвать на помощью железную машину — пусть она сама ищет баяны.

Читать далее

+17

Arnak 13 фев 2023 в 11:31

Войны ИИ: Google против Microsoft. Как Google вчистую проигрывает одному ChatGPT

8 мин

15K

Блог компании getmatchIT-компанииИскусственный интеллектМашинное обучение * Поисковые технологии *

Microsoft, Google, Baidu и другие вовсю работают над тем, чтобы первыми создать бота, который сможет отвечать на все ваши вопросы. Битва идет не на жизнь, а на смерть. И пока что в ней выигрывает Microsoft. Всё потому, что в 2019 году она инвестировала в OpenAI, конкурента тогда гораздо более известной DeepMind. Это уже оказалось одной из их лучших инвестиций. В сумме они потратили всего $10 млрд, а их главный конкурент из-за этого на днях потерял $100 млрд капитализации, пытаясь представить публике что-то хотя бы отдаленно похожее.

Читать дальше →

+35

freehabr 11 фев 2023 в 19:17

Не надо ждать когда bing запустит chatGPT — уже есть ИИ, который отвечает исходя из результатов поиска

Простой

1 мин

7.6K

Искусственный интеллектПоисковые технологии *

Обзор

И кстати, он даже не требует регистрации.

Как можно заметить, сейчас системы а-ля chatGPT начали расти как грибы после дождя. И мне попался такой сайт как perplexity.ai

Этот сайт делает то, что bing только обещает - ищет в интернете за меня и дает ответы, исходя из найденных результатов. Причем для каждого предложения он дает ссылки на источники, откуда он брал информацию.

Сейчас, правда, он отвечает всего парой абзацев и показывает не более пяти источников. Но если он научится анализировать тысячи источников и давать подробное резюме, то он может стать очень удобным инструментом.

Читать далее

+8

zarytskiy 9 фев 2023 в 17:54

Microsoft будет использовать ChatGPT, чтобы улучшить Bing и обойти Google

3 мин

3K

Поисковые технологии * Искусственный интеллект

Репортаж

Перевод

Поисковая система Bing получит новый интерфейс чат-бота, который будет синтезировать информацию из сети.

Читать далее

+7

franky_d_zoro 3 фев 2023 в 10:16

Почему не стоит использовать черное SEO

5 мин

5.4K

Блог компании РСХБ.цифра (Россельхозбанк)Поисковые технологии * Интернет-маркетинг * Контент и копирайтинг * Поисковая оптимизация *

Мнение

Пётр Гришечкин, SEO-специалист в команде проекта “Своё Родное” от Россельхозбанка.

Продолжим серию статей про SEO и поговорим о причинах разделения на SEO-специалистов и на СЕОшников. Я говорю о темной стороне SEO, или, как ее обычно называют, о черном SEO.

В этой статье я собираюсь поделиться с вами некоторыми методами черного SEO, их негативными последствиями, и, самое главное, как их избежать. Итак, сядьте поудобнее, расслабьтесь, и позвольте мне рассказать вам о темной стороне SEO.

Читать далее

+12

franky_d_zoro 30 янв 2023 в 11:17

SEO Выводы из утечки кода поисковика Яндекс

6 мин

106K

Поисковые технологии * Веб-аналитика * Повышение конверсии * Поисковая оптимизация *

Мнение

Я был в восторге, когда узнал об утечке проприетарного исходного кода Яндекса. И после анализа данных я должен сказать, что выводы оказались весьма интересными! Итак, без лишних слов, давайте окунемся в основные выводы, которые я сделал.

Читать далее

+176

NaumenDisk 26 янв 2023 в 15:15

Как мы ищем документы в Naumen Disk или еще один вариант организации FTS

14 мин

3.7K

Блог компании NAUMENПоисковые технологии * Python * PostgreSQL * Хранение данных *

В процессе работы над проектом мы рассмотрели различные способы организации Full Text Search (FTS) по файлам. И… отказались от них в пользу своего решения, которое базируется на стандартных методах. В статье я опишу путь построения полнотекстового поиска по файлам для веб приложения с акцентом на задачи FTS.

Читать далее

+9

myoffice_ru 26 янв 2023 в 12:43

Вот что я нагуглила за неделю в качестве старшего инженера-программиста

6 мин

42K

Блог компании МойОфисПоисковые технологии * Программирование * Мозг

Перевод

Три года назад разработчик Софи Кунин* опубликовала пост под названием «Вот что я нагуглила за неделю в качестве профессионального инженера-программиста», и он явно нашел отклик у читателей, поскольку стал довольно вирусным. За эти три года многое произошло. Софи повысили, теперь она старший инженер-программист и руководитель направления веб-разработок в Monzo. Но одно не изменилось: она по-прежнему много гуглит, каждый божий день. Вот что она нагуглила за неделю, версия 2022 года.

Очевидный дисклеймер: эта статья слегка отредактирована, поскольку автор удалила большую часть того, что не относится к работе.

*Обращаем ваше внимание, что позиция автора может не всегда совпадать с мнением МойОфис.

Читать далее

+27

Jarutof 26 янв 2023 в 09:19

Алгоритм поиска «одинаковых» геометрий

5 мин

3K

Блог компании BimeisterПоисковая оптимизация * Алгоритмы * 3D-графика * Поисковые технологии *

Из песочницы

Привет! Меня зовут Мацкевич Евгений, я бекэнд-разработчик 3D-движка компании «Бимейстер». Хоть это и не очевидно на первый взгляд, но элементы загружаемых пользователями 3D-моделей зачастую повторяются, имея при этом различные положение в пространстве, масштабирование и вращение. Я расскажу о том, как мы научили нашу систему распознавать такие элементы как «одинаковые», выделять из них уникальный, а для остальных – вычислять матрицы трансформации. Это дало возможность однократно загружать уникальный элемент, а вместо прочих одинаковых – их матрицы, что сократило трафик и объем занимаемой оперативной памяти.

Читать далее

+20

franky_d_zoro 26 янв 2023 в 07:58

Цепи Маркова: как использовать силу анализа ссылок в SEO

4 мин

2.2K

Поисковая оптимизация * Поисковые технологии * Контент и копирайтинг * Веб-разработка * Читальный зал

Туториал

Как SEO-эксперт, я знаю, насколько важно определить важные страницы сайта и спрогнозировать потенциальные возможности для размещения ссылок. Именно поэтому в своей работе я использую мощный метод: цепи Маркова. В этой статье я объясню, что это такое, как это работает и как вы можете использовать этот метод для улучшения вашей стратегии построения ссылок в рамках SEO.

Читать далее

-1

anazarta 25 янв 2023 в 07:02

Как Яндекс научился распознавать, что написано в рукописных архивах

11 мин

38K

Блог компании ЯндексПоисковые технологии * Обработка изображений * Машинное обучение * Искусственный интеллект

✏️ Технотекст 2023

Привет, Хабр. Меня зовут Саша, в прошлый раз я рассказывал сообществу про поиск организаций в Яндексе. В этот раз мы вновь поговорим про поиск, но уже совершенно другого рода. Сегодня расскажем про «Поиск по архивам». Этот проект вырос из моего личного интереса к истокам семьи, но в итоге (хочется верить!) поможет тысячам других таких же пользователей чуть больше узнать о своих корнях.

Генеалогическое исследование — очень трудоёмкий процесс. Информация о родственниках разбросана по разным архивам, запросы на получение данных могут обрабатываться долго, а доступ даже в открытые архивы ограничен. Несмотря на то что оцифровка архивных документов ведётся уже более десяти лет, по ним не так-то просто искать — придётся отсматривать вручную множество сканов в надежде найти фамилию предка.

Чтобы упростить этот процесс, мы научились превращать в текст сканы архивных документов. Основная сложность этой задачки заключалась в том, что текст в архивах написан от руки. Машинописный текст всё-таки создан по предсказуемым правилам: автор использует набор уже известных шрифтов. А рукописный текст уникальный, потому что каждый человек пишет по-своему. Кроме того, архивные документы написаны не просто от руки, но и на дореволюционном русском языке, который существенно отличается от современного.

Решению этой задачи мы и посвятим историю. А поможет мне с ней Таня @miryable из команды, которая уже много лет развивает в Яндексе технологию оптического распознавания символов (OCR).

Читать далее

+142

nomilkinmyhome 26 дек 2022 в 23:58

Как мы внедряли полнотекстовый поиск

4 мин

6.5K

Программирование * Python * Поисковые технологии *

Раньше я работала на проекте N, где главной бизнесовой сущностью было событие. Это событие имеет свое название и еще несколько полей.
Когда-то нам пришел запрос от юзеров: событие у нас в системе называется, например, "событие от Ивана Ивановича", а они пытаются вбить в поиск "иван иванович рассказал про X" и не получают никаких результатов.
Данная проблема решается с помощью полнотекстового поиска. Вопрос в том, как его реализовать.

Читать далее

+2

eugeniouglov 25 дек 2022 в 21:20

Как я написал свою поисковую систему для быстрого поиска личной информации

Простой

6 мин

9.2K

Веб-разработка * Поисковые технологии *

Обзор

Из песочницы

Предыстория

Все началось с того, что мне стало трудно находить нужную информацию, файлы. Чем больше файлов и папок у меня образовывалось, тем больше времени уходило на поиски нужного. Я понял, что каждый раз искать в бесконечных списках файлов и папок, особенно с условием вложенности это не вариант для больших объемов данных.

Что касается поиска по названию файла, то количество символов, указанных в названии ограниченно и слова при поиске должны быть в строго определенной последовательности. Тем более, если система индексирует другие, не нужные для поиска файла (системные файлы, файлы проектов), то поиск выдает много "мусора".

Поиск по содержанию файла даёт не самый релевантный результат. Может выдать бесполезные результаты с содержанием содержащие ключевые слова, но не относящиеся к тому, что действительно необходимо найти.

Более того по содержанию можно искать только текстовые файлы.

Структура содержания информации

Структура папок представляется собой в виде дерева. Мне это не нравится, потому что каждая папка может содержать только определенные файлы, если не учитывать копирование и ссылки.

Так же это можно представить с примером из реальной жизни, для того, чтобы найти зелёное свежее яблоко сорт "девственный". Необходимо найти отдел с фруктами, затем отдел с яблоками, затем ищем зеленные, затем сорт, ну там ещё их на свежие, не свежие фасуют в этом воображаемом примере и наконец найти нужное apple.

Усложняется ещё все и тем, что я не помню, есть ли там вообще яблоки, и если есть, то хранятся ли они в отделе фрукты или там продаются.

Читать далее

+4

nomilkinmyhome 19 дек 2022 в 12:59

Как мы затащили MoscowCityHack2022

4 мин

2.1K

Python * Искусственный интеллектПоисковые технологии * Хакатоны

Из песочницы

10-13 июня 2022 года прошел MoscowCityHack2022. Наша команда NorthShine заняла на нем первое место в первом кейсе. Задача была написать "сервис проверки поддельных новостей (fake news) в сфере технологий и инноваций".

Мы провели небольшой ресерч и определились с тем, как в принципе будем писать сервис по определению фейковых новостей. Сначала нам надо было решить какую новость считать правдивой, а какую - нет...

Читать далее

+6

dmitryweb 17 дек 2022 в 16:13

Как добавить свой интернет-магазин в Яндекс.Маркет? Правила размещения для магазинов

5 мин

14K

Поисковые технологии * Яндекс API * Интернет-маркетинг * Контент и копирайтинг * Поисковая оптимизация *

Из песочницы

Яндекс.Маркет – это крупнейший агрегатор товаров разных категорий. Он содержит более 100 млн. предложений от различных магазинов. Посетители площадки имеют возможность просматривать товары в удобном виде, ознакомляться с отзывами и совершать покупки.

Использование Яндекс.Маркета имеет множество плюсов. Во-первых, он имеет достаточно большую аудиторию и даже начинающие интернет-магазины смогут значительно увеличить свои продажи с ЯМ. Также, к положительным сторонам можно отнести:

Читать далее

-3

n_prok 14 дек 2022 в 08:29

Поиск данных в инструментах Data Governance: вызовы и решения

7 мин

2.1K

Блог компании РостелекомПоисковая оптимизация * Хранение данных * Big Data * Поисковые технологии *

Добрый день!

Меня зовут Никита, я работаю ведущим системным аналитиком в Департаменте управления данными компании Ростелеком.

В данной статье я опишу наш опыт использования Реестра отчетов и Бизнес-глоссария, подводные камни, с которыми мы столкнулись, а также планы по оптимизации рабочих процессов в инструментах Data Governance (далее – DG).

Три года назад ИТ-команда Ростелекома разработала Реестр отчетов и Бизнес-глоссарий на базе Open-Source технологий, и данные модули впоследствии получили широкое распространение в периметре компании. Также была создана Единая точка входа, позволяющая сотрудникам получать быстрый доступ ко всем отчетам и бизнес-терминам, существующим в компании. За два года количество постоянных пользователей Единой точки входа увеличилось с 200 до 2300 человек, при этом количество уникальных посетителей Единой точки входа составляет порядка 400 пользователей еженедельно, и данная цифра постоянно растет.

Инструментарий для работы с данными покрывает значительный объем запросов Ростелекома в разрезе таких сегментов как B2B, B2C, БТИ и т.д. Подробнее можно прочитать здесь и здесь.

Департамент по управлению данными заинтересован не только в оптимизации процессов работы с данными во всей компании, но и в улучшении показателей пользовательского опыта в разрезе DG продуктов. Для этого необходимо модернизировать функционал существующих систем путем поиска точек роста и выпуска обновлений по их устранению. Искать точки роста мы решили при помощи интервьюирования пользователей и сбора обратной связи от них. По результатам были отрисованы карты пользовательских путей (cjm – "customer journey map") в разрезе DG инструментов, а также сформирован бэклог, описывающий основные зоны роста в части систем по управлению данными. В связи с этим, в скором времени планируется ряд обновлений с целью внедрения доработок и увеличения эффективности продуктов.

Читать далее

+6

antonoldenberg 21 ноя 2022 в 19:11

Пример использования API поиска Algolia на примере телеграм бота

3 мин

4.3K

Поисковые технологии * Node.JS * Облачные сервисы *

Туториал

Recovery Mode

В данном примере разберем, как пользоваться API поиска в известеом поисковом сервисе Algolia.

Читать далее

-5

PashaPodolsky 26 сен 2022 в 17:53

Децентрализованный поиск для свободного веба

12 мин

11K

Поисковые технологии * JavaScript * Алгоритмы * Rust * Распределённые системы *

Технотекст 2022

Возможно ли создать поисковую систему, которую тяжело подвергнуть цензуре, влиянию и блокировке?

Говоря техническим языком, возможно ли выполнять полнотекстовый поиск не имея удаленного сервера, удобным для пользователя способом, одновременно храня поисковый индекс в peer-to-peer системе и имея возможность быстро обновлять поисковый индекс?

Да, это возможно!

Под катом описание архитектуры поискового движка Summa на Rust и набора приемов, позволивших ответить утвердительно на все вопрос

Читать далее

+61

Keva 21 сен 2022 в 09:31

Способ представления числовых ключей для обратного поискового индекса

5 мин

3.8K

Блог компании МойОфисПоисковые технологии * C++ * Алгоритмы *

Числа — совершенно особенная категория текстовых объектов. Они могут быть представлены разными способами: от зачастую многословного и не всегда согласованного между собой ряда убывающих числительных до записи арабскими или римскими цифрами, с разбивкой запятыми или точками, с пробелами или без них.

Не проще обстоят дела и с программным представлением таких объектов.

Читать далее

+34

SantrY 20 сен 2022 в 09:00

150+ хакерских поисковых систем и инструментов

11 мин

120K

Блог компании БастионИнформационная безопасность * Поисковые технологии *

Все таргетированные хакерские атаки начинаются с разведки. Социальные инженеры, красные команды и отдельные пентестеры также собирают информацию о своих целях перед тем, как перейти к активным действиям. Им помогают десятки инструментов и хаков. Под катом ссылки на некоторые из них.

Пост состоит из 8 объемных разделов:

1. метапоисковики и поисковые комбайны;

2. инструменты для работы с дорками;

3. поиск по электронной почте и логинам;

4. поиск по номерам телефонов;

5. поиск в сети TOR;

6. поиск по интернету вещей, IP, доменам и поддоменам;

7. поиск данных об уязвимостях и индикаторов компрометации;

8. поиск по исходному коду.

В этом списке собраны инструменты, которые члены нашей команды используют в работе. И все же, эта подборка пригодится не только пентестерам, но и разработчикам, журналистам, HR, маркетологам и всем, кто много ищет в интернете. Знания — это сила. Используйте их во благо.

Читать далее

+57

1 2 ...

13

14 15 ...