Поисковые технологии *

От AltaVista до Яндекса

Блог компании AGIMAПоисковые технологии * Поисковая оптимизация *

Три точки зрения на работу поисковиков

Ответ на вопрос о том, как работают поисковые системы, зависит от того, у кого вы спрашиваете. Рассмотрим верии основных носителей знаний.

🟢 Официальные представители поисковиков: поисковик — это библиотекарь

По крайне мере, в Google работу поисковых роботов представляют именно так: они постоянно сканируют интернет, переходят по ссылкам и запоминают содержимое сайтов. Рассматривают каждую страницу, как через увеличительное стекло, и сохраняют информацию в большом индексе.

Когда вы вводите запрос, система не ищет по всему интернету в реальном времени. Вместо этого она проверяет индекс, как библиотекарь, который листает каталог.

🟢 Инженеры: поисковик — интеллектуальный помощник

Инженеры поисковых систем стремятся превратить их в полноценного помощника. Например, при запросе «как приготовить пирог» система должна учитывать, что человек может быть новичком, страдать аллергией на определенные продукты или искать рецепт без духовки.

По сути, инженеры работают над тем, чтобы тот самый библиотекарь был персональным для пользователей. Он не просто выдает нужную книгу, он советует то, о чём вы еще даже не задумались.

🟢 SEO-специалисты: поисковик — это сад

SEO-специалисты часто сравнивают себя с садоводами. Они «выращивают» позиции сайта, «удобряют» контент ключевыми словами, «поливают» его внутренними ссылками, «подрезают» технические недочеты. При этом они знают, что даже самый ухоженный «сад» может не дать урожая, если алгоритмы поисковиков решат изменить правила.

Мышление SEO — это постоянные эксперименты и адаптация к новым условиям, ведь «климат» в саду постоянно меняется.

А подробнее о том, как работают поисковики, рассказываем в нашем блоге. Там найдете ссылки на кейсы специалистов, разборы утечек Google и цитаты инженеров.

@Capitan_grach

12 апр в 15:3214K

Информационная безопасность * Поисковые технологии * Открытые данные * Поисковая оптимизация *

Охота за файлами в VK

Сегодня расскажу про "хитрушку" VK, которую активно обсуждали около 10 лет назад. Со временем о ней стали забывать, хотя она до сих пор не потеряла актуальности.

К сути
Уже много лет во «ВКонтакте» существует встроенный инструмент для поиска файлов, доступный каждому пользователю. Поиск по документам может открыть доступ к уникальным данным, которые не найти в обычных поисковиках.

Как это работает?
1️⃣ Переходим в раздел «Файлы» → vk.com/docs
2️⃣ Вводим запрос (например, «ответы на ЕГЭ 2025», «внутренние инструкции», «отчет 2024»)
3️⃣ PROFIT!

Из личного опыта:
В студенчестве с помощью этого метода я находил ответы на экзамены, которые загружал кто-то из предшествующих потоков.

Где пригодится?
Поиск учебных материалов, анализ цифрового следа, журналистские расследования, … — возможности огромны!

Если вам понравился пост и вы хотите узнавать больше о подобных инструментах, то можете подписаться на мой авторский Telegram-канал!

@akurilov

12 апр в 09:318K

Поисковые технологии * Семантические сети * Data Mining * Искусственный интеллектNatural Language Processing *

Сегодня, в международный день космонавтики, Awakari запускает семантический поиск. Поехали!

Новый тип фильтра используется по умолчанию в "простом" режиме создания нового интереса. В продвинутом режиме он назван "Similarity".

Под капотом, Awakari извлекает текстовый сниппет из каждого нового события и конвертирует его в вектор используя языковую модель, которая понимает около 100 языков. Есть выбор из нескольких уровней совпадения:

Weak соответствует косинусу угла между векторами ≥ 0,75. Для более слабой фильтрации.
Medium: косинус ≥ 0,85. Рекомендуемый уровень по умолчанию, который неплохо работает во многих случаях.
Strong: косинус ≥ 0,95. Для получения строго совпадающих результатов.

@Markus_automation

10 апр в 12:444.8K

Поисковые технологии * Веб-аналитика * Поисковая оптимизация *

По мотивам статьи, которую я перевел и опубликовал у себя в ленте - https://habr.com/ru/articles/899382/

Я чекнул этот кейс на своем проекте и результаты не совпали с выводами автора.

Я сделал все точно также, как описано в статье и нет, не увидел я корреляции между 130 днями и статусом просканировано не проиндексировано. Страницы с таким статусом есть и меньше чем через 130 дней после последнего сканирования, как показано на скрине.

Такие страницы пропадают только на 13 днях, а с 13 и выше периодически встречаются выпавшие страницы.

Так что, не сходится кейс, но как мнение, почему бы и нет)))

Смотрел проект в тревел сегменте, трафик по всему миру (чистый бурж).

@yadro_team

7 апр в 13:555.8K

Блог компании YADROПоисковые технологии * Машинное обучение * Искусственный интеллект

Как выбрать языковую модель для семантического поиска

Для сопоставления смысла запроса пользователя и смысла чанка в базе знаний нужна языковая модель, которая понимает семантику.

Принцип работы моделей Bi-Encoder и Cross-Encoder

Bi-Encoder — состоит из двух трансформеров encoder-only. С помощью passage-encoder получаются эмбеддинги для всех чанков в базе знаний. Запрос от пользователя кодируется с помощью query-encoder. На этапе поиска высчитывается косинусное расстояние между query-embedding и passage-embedding. Мы получаем поисковую выдачу после ранжирования всех пассажей по убыванию косинусного расстояния. В отличие от следующей архитектуры Cross-Encoder, можно заранее сохранить эмбеддинги для пассажей и использовать их для подсчета расстояния.

Cross-Encoder — трансформер с архитектурой encoder-only и ранжирующим слоем. Этот слой выдает оценку релевантности запроса к пассажу. На вход подается двойка: запрос и пассаж. Cross-Encoder лучше понимает семантическую связь между пассажем и запросом, но для каждого пользовательского запроса он работает медленнее, так как для оценки релевантности запроса и пассажей, cross-encoder нужно запустить N раз, где N — количество пассажей.

Мы будем использовать Bi-Encoder, так как у нас много пассажей в базе знаний.

Для выбора модели удобно использовать открытый бенчмарк MTEB с рейтингом по различным моделям в зависимости от вашей задачи. Для нас лучшей оказалась модель multilingual-e5-large, Bi-Encoder c 560M параметров и размером эмбеддингов в 1024 элемента.

Инженер по разработке ПО искусственного интеллекта Павел Яковлев максимально подробно рассказал в статье, как его команда разрабатывает и оптимизирует семантический поиск по сложным документам: PDF, HTML и DOCX.

@Capitan_grach

5 апр в 11:258.9K

Информационная безопасность * Поисковые технологии * Открытые данные * Хранение данных * Поисковая оптимизация *

Как автоматизированно извлекать текст из видео на YouTube?

Знакомо: нашёл на YouTube ролики, в которых есть тонна полезной информации, а тратить часы на просмотр — нет времени?

В 2018 году появился проект youtube-transcript-api (GitHub) — Python-модуль, который за пару секунд извлекает субтитры из видео.

Но есть нюансы:
⚠️ Требует сетевого доступа к YouTube (может не работать в некоторых странах)
⚠️ Использует неофициальное API
Вот что пишет создатель проекта:

Этот код использует недокументированную часть API YouTube, которая вызывается веб-клиентом YouTube. Поэтому нет гарантии, что он не перестанет работать завтра, если они изменят то, как все работает. Однако я сделаю все возможное, чтобы все заработало как можно скорее, если это произойдет. Так что если он перестанет работать, дайте мне знать!

Как использовать?
1️⃣ Установить библиотеку youtube-transcript-api (PYPI)
2️⃣ Взять ID интересующего видео (поддается автоматизации)
3️⃣ Запустить скрипт (📖 официальная документация)

Если вам понравился пост и вы хотите узнавать больше о подобных инструментах, то можете подписаться на мой авторский Telegram-канал BritLab!

@denis-19

25 мар в 10:126.9K

Поисковые технологии * Машинное обучение * Облачные сервисы * Искусственный интеллектУрбанизм

GhatGPT убедил австралийца, что ему не нужна виза для поездки в Чили. Но она оказалась необходима — человек узнал об этом в аэропорту перед вылетом.

Марк Поллард занимается стратегическим менеджментом, пишет книги на эту тему и проводит мастер-классы. С начала марта житель Австралии посещает страны Латинской Америки, в которых проводит лекции о правильной разработке стратегий для брендов.

23 марта Поллард собирался вылететь в Сантьяго — столицу Чили, где на следующий день должен был провести лекцию. Но попасть в страну он не смог. В аэропорту Мехико (в Мексике прошла его последняя лекция) Поллард узнал, что для посещения Чили нужна виза — её нужно заранее оформлять через сайт посольства, это может занять до 20 дней. Специалист утверждает, что был уверен, что попасть в страну можно было без нее, потому что об этом ему ранее сообщил ChatGPT. Оказалось, что чат-бот выдает ошибочный ответ всем пользователям — ИИ сообщает, что граждане Австралии могут находиться в Чили без визы до 90 дней. Когда-то эта схема в самом деле работала, но с конца 2019 года для австралийцев ввели визы. В итоге Поллард остался в Мехико еще на несколько дней перед вылетом в Аргентину.

@Capitan_grach

22 мар в 14:178.9K

Поисковые технологии * Открытые данные * Визуализация данных * Хранение данных * Любительская радиосвязь

Радио-серфинг: как исследовать короткие волны без спецоборудования

В университете Твенте [1] есть коротковолновый приемник, к которому можно подключиться через обычный браузер [ссылка] и исследовать ответы тысяч радиостанций по всему миру (в режиме реального времени).

С помощью ресурса можно:
1️⃣ Слушать радиолюбительские передачи, авиационные каналы, морскую связь и многое другое
2️⃣ Исследовать разные частоты и находить интересные сигналы
3️⃣ Делать записи эфиров, чтобы потом прогонять их через декодеры
4️⃣ Погрузиться в мир радио, даже если у вас нет собственного оборудования

Этот ресурс — настоящий портал в мир радио. Даже если вы, как и я, не станете радиолюбителем, это отличный способ узнать что-то новое.

Вот несколько интересных частот с которых можно начать:
🇳🇱 1008.00 кГц — Radio Twenty Gold (Нидерланды)
🇷🇺 4625.00 кГц — легендарная "Жужжалка" (УВБ-76). Загадочный сигнал, о котором ходят легенды. Подробнее можно почитать здесь (https://www.rbc.ru/base/18/12/2024/6762bb5c9a7947e14d132352)
🇫🇷 9790.00 кГц — Radio France
🇷🇴11930 кГц — Radio Romania International

P.S. ещё на ресурсе есть онлайн чат, в котором вы можете общаться с другими радиолюбителями

@denis-19

18 мар в 02:268.7K

Поисковые технологии * Машинное обучение * Искусственный интеллектБудущее здесь

Поисковая ИИ-система Perplexity выпустила рекламу со звездой "Игры в кальмара" Ли Чон Чжэ, который оказался в ловушке в комнате и должен ответить на ряд вопросов, чтобы выбраться. Один вопрос нацелен на прошлогоднюю оплошность ИИ Google «Как сделать так, чтобы сыр прилипал к пицце?» (ответ ИИ был: «Смешайте около 1/8 стакана клея Elmer’s в соусе», чтобы сыр прилипал к пицце).

В рекламе Ли достает свой смартфон в поисках ответов, и, получив неутешительные результаты от «Poogle», обращается за ответом к Perplexity. «Используйте свежую моцареллу с низким содержанием влаги. Не используйте клей», — говорит помощник-ИИ Perplexity.

@rsashka

6 авг 2024 в 10:297.7K

Поисковые технологии * Интернет-маркетинг * Поисковая оптимизация *

Потребовалось поискать информацию о разработке приложений под Windows. Вот такой первый экран выдал Яндекс поиск с указанием исключений для поисковой выдачи.

Я понимаю, что поисковики всегда будут продвигать ссылки, проплаченные рекламодателями, но хоть толика логики в поисковой выдаче должна присутствовать?

+19

@denis-19

28 июн 2024 в 08:084.5K

Поисковые технологии * Машинное обучение * Облачные сервисы * Искусственный интеллект

«Яндекс» сообщил Хабру, что компания провела в Алматы фестиваль технологий Yandex Qazaqstan Day, где представила сервис «Нейро» для Казахстана спустя два с половиной месяца после релиза в России.

Проект «Нейро» объединяет возможности поиска и больших генеративных моделей. Пользователь может задать в сервис любой вопрос на казахском или русском языке. «Нейро» изучает информацию из всего казахоязычного и глобального интернета и собирает её в один ёмкий ответ со ссылками на источники. Сервис уже доступен на yandex.kz.

В «Яндексе» пояснил, что «Нейро» понимает естественный язык общения. Чтобы спросить его о чём‑то, не нужно подбирать формулировки: можно писать запросы так, как они приходят в голову. Кроме того, он умеет отвечать на вопросы, для которых обычно нужно изучить несколько источников. Например: «Какие есть популярные туристические направления на юге Казахстана?».

Также к текстовому запросу можно добавить картинки. Например, сфотографировать яблоки и спросить, что это за сорт. «Нейро» может ответить на казахском или на русском, в зависимости от того, на каком языке был задан вопрос.

@anazarta

7 июн 2024 в 08:307.2K

Блог компании ЯндексПоисковые технологии * Обработка изображений * Машинное обучение * Исследования и прогнозы в IT *

Небольшая, но полезная новость для тех, кто интересуется историей. Мы добавили в Поиск по архивам новый тип документов — справочники XIX–XX веков из фондов Национальной электронной библиотеки и Российской государственной библиотеки.

Историки, социологи и журналисты смогут получить доступ к новым сведениям об исторических событиях и личностях, а обычные пользователи — ещё больше узнать о своих предках. В новых источниках можно найти биографические факты, которые раньше были доступны только в бумажном виде. Например, памятные книжки содержат списки ключевых персон губерний с их должностями. Из адресных книг можно узнать, где они жили, а из торгово-промышленных справочников — каким делом занимались.

Для этого нейросеть Яндекса расшифровала почти 600 книг или 275 тысяч страниц. Причём она узнаёт даже утратившие актуальность знаки (например, исчезнувшие из алфавита буквы) и учитывает особенности почерка. А для работы с вёрсткой газетных страниц нейросеть специально адаптировали: она научилась распознавать текст на огромных полосах, набранный мелким шрифтом на бумаге низкой плотности. Кстати, более подробно о нашей технологии мы рассказывали на Хабре в отдельной статье.

@denis-19

26 мая 2024 в 17:429.1K

Поисковые технологии * Искусственный интеллектЗдоровьеКиберспортБудущее здесь

ИИ-помощник от Google предложил пользователю убивать бездомных и туристов. ИИ-система Gemini, встроенная в поиск Google, уверена, что это идеальный способ выпустить пар. План надёжный, как швейцарские часы.

Ранее пользователь из США не смог приготовить пиццу так, чтобы сыр нормально
на ней держался. Gemini, встроенная в поиск Google, предложила ему замешать в сыр клей для фиксации.

Также ранее ИИ-помощник от Google предложил пользователю в ответ на запрос «сколько камней мне нужно есть?»‎ такой ответ: «по меньшей мере один маленький камень ежедневно»‎.

@denis-19

24 мая 2024 в 06:116.5K

Поисковые технологии * Машинное обучение * Искусственный интеллектЗдоровьеБудущее здесь

ИИ-помощник от Google предложил пользователю в ответ на запрос «сколько камней мне нужно есть?»‎ такой ответ: «по меньшей мере один маленький камень ежедневно»‎.

Ранее пользователь из США не смог приготовить пиццу так, чтобы сыр нормально
на ней держался. Gemini, встроенная в поиск Google, предложила ему
замешать в сыр клей для фиксации.

@denis-19

23 мая 2024 в 12:229.1K

Поисковые технологии * Машинное обучение * Искусственный интеллектЗдоровьеБудущее здесь

ИИ-помощник от Google предложил пользователю поесть нетоксичного клея.

Пользователь из США не смог приготовить пиццу так, чтобы сыр нормально на ней держался. Gemini, встроенная в поиск Google, предложила ему замешать в сыр клей для фиксации.

Разгадка у казуса оказалась простая: нейросеть нашла ответ по этому запросу из поста какого-то тролля с Reddit 11-летней давности. Примечательно, что такие ИИ-ответы теперь идут в верху выдачи сервиса Google.

@maybe_elf

22 мая 2024 в 07:175.2K

Поисковые технологии * Контекстная реклама * Искусственный интеллект

В результатах поиска Google с использованием искусственного интеллекта уже появляется реклама. Сама компания заявила, что скоро начнёт тестировать поисковую рекламу в выдаче ИИ-ответов для пользователей в США.

В примере, предоставленном Google, ИИ отвечает на вопрос: «Как убрать складки на одежде?». Инструмент, помимо обычных ответов, предлагает новый раздел «Спонсорское» с каруселью рекламы со ссылками на Walmart и Instacart.

Google заявляет, что будет отображать рекламу в обзорах ИИ, когда «она релевантна запросу».

@denis-19

18 мая 2024 в 18:079.4K

Поисковые технологии * Сетевые технологии * Облачные сервисы * История IT

Энтузиасты и специалисты из Варшавского университета запустили проект по восстановлению кода первой в истории поисковой системы Archie.

Созданная более 30 лет назад разработчиком Аланом Эмтейджем поисковая система Archie преимущественно индексировала FTP-серверы учебных заведений и тому подобных организаций. После выхода последней версии в 1996 году и последующей постепенной потери популярности из-за появления более продуктивных поисковиков, поддержка Archie была прекращена к концу 90-х годов.

Неудавшиеся попытки найти работающую версию кода проекта в итоге завершились успехом благодаря находке существующей копии Archie в Варшавском университете. Там этот проект продолжал использоваться до 2023 года в основном для образовательных целей. И хотя сервер был отключён, университет сохранил исходный код бета‑версии 3.5, предшествующей последнему обновлению.

В настоящее время, благодаря совместным усилиям разработчиков, новый сервер Archie снова функционирует, предоставляя доступ к обширной базе данных. Энтузиасты продолжают изучать возможность использования первый поисковик интернета в текущих реалиях.

@denis-19

15 мая 2024 в 03:317.4K

Поисковые технологии * Искусственный интеллектСоциальные сетиФототехника

Новый ИИ-видеопоиск Gemini от Google допустил фактическую ошибку в первой демонстрации своего использования. Система на вопрос, что делать с застрявшим рычажком плёночного аппарата, посоветовала открыть заднюю крышку и вытащить плёнку. Это действие приведёт к потере кадров. Открытие крышки таким образом в любой комнате, кроме абсолютно темной, приведёт к попаданию света на плёнку, что испортит все сделанные ранее фотографии.

На видео ниже «Поиск в эпоху Gemini» Google продемонстрировала свой новый видеопоиск. В качестве примера там приведён ролик с застрявшим рычагом продвижения плёнки на плёночной камере с вопросом «почему рычаг не перемещается до конца», который Gemini распознает и даёт несколько советов по исправлению.

В феврале 2023 года астрономы и астрофизики рассказали, что чат-бот Bard от Google допустил фактическую ошибку во время первой демонстрации своего использования. В его ответе указано, что телескоп «Джеймс Уэбб» сделал самые первые снимки экзопланеты за пределами Солнечной системы. Но это не так. Первое изображение экзопланеты было сделано в 2004 году с помощью комплекса Very Large Telescope (VLT) в Чили с использованием адаптивной оптики.

В качестве примера демонстрации чат-бота Bard от Google разработчики задали ему простой вопрос типа «О каких недавних открытиях, сделанных с помощью телескопа «Джеймс Уэбб», я могу рассказать своему 9-летнему ребёнку». ИИ ответил, что «Уэбб» сделал три открытия, включая первое фото экзопланеты.

@denis-19

6 мая 2024 в 04:066.8K

Поисковые технологии * Машинное обучение * Искусственный интеллект

Пользователи выяснили, что нейросеть «Яндекса» «Нейро» выдаёт более точные ответы, если попросить в промпте «уточнить во внутренней сети Яндекса».

16 апреля «Яндекс» представил «Нейро» — нейросеть для поиска информации в Сети. В компании рассказали, что научили модель машинного обучения использовать внешние источники данных, чтобы не упираться в пределы обучения.

@videoelektronic

1 мая 2024 в 16:025.8K

Поисковые технологии *

Для эксперимента попробовали вварить в металлокерамическую "таблетку" (где уже к керамике припаяны медью кольцо и диск из 29НК) пару остеклованных вводов тоже из 29НК. Герметичность получилась достаточной для создания 1е-3 Па при непрерывной откачке, но недостаточная для того, чтобы сделать отпаянный прибор.

Не совсем понятно, как снять окалину после этого, чтобы не повредить (не вытравить) место пайки? Но, в целом, опыт скорее положительный.

Поисковые технологии *

Ближайшие события

Вклад авторов