Все потоки
Поиск
Написать публикацию
Обновить
17.31

Поисковые технологии *

От AltaVista до Яндекса

Сначала показывать
Порог рейтинга

Самый полный обзор рекомендаций Google по оптимизации сайта под нейросети.

Цель: Понять какие работы на сайте надо провести, чтобы нейросети брали информацию у вас и указывали как источник.

Документ: https://developers.google.com/search/docs/appearance/ai-features?hl=ru

Итог: Если вы хотите, чтобы ИИ-функции работали при показе вашего контента, следуйте основополагающим принципам поисковой оптимизации для Google Поиска: обеспечивайте выполнение технических требований, соблюдайте правила Поиска и основные рекомендации, в частности создавайте полезный и достоверный контент, ориентированный на людей.

Спасибо за внимание)




P.S.: Да, как и любые справки от поисковиков эта такая же. Делайте хорошо, плохо не делайте. Но выводы все таки сделать можно:

1) Гугл не делает разницу между классическим поиском и ответами Google Overview. Они тесно переплетены и дополняют друг друга. Нейросети используют уже "отсортированные" результаты поиска. А поиск дополняется ответами нейросетей.

2) Чтобы попадать в ответы нейросетей, в частности Gemini - надо попадать в ТОП поиска. Но есть приятное: не обязательно в ТОП3-10, информация берется и из более глубоких мест куда не светит солнце.

3) нельзя отключить нейросетям доступ к контенту, не отключив сайт от индексации Google

Теги:
+4
Комментарии4

Представлен открытый проект TruffleHog, который умеет анализировать хранилища данных и приложений, чтобы найти пароли, важные сведения и другую приватную информацию. В сервис заложено больше 700 детекторов различных видов данных и тысячи API, по которым инструмент ищет нужную информацию. Решение имеет встроенную поддержку сканирования GitHub, GitLab, Docker, файловых систем, S3, GCS, Circle CI и Travis CI. Также TruffleHog умеет сканировать сертификаты TLS, двоичные файлы, документы и медиа.

Теги:
+5
Комментарии0

С учётом бурного роста популярности чат‑ботов вроде ChatGPT и того, что некоторые пользователи склонны слишком доверять информации, которую такие инструменты выдают, интересно посмотреть, откуда они её берут. Такие данные (по состоянию на июнь) есть у аналитиков Semrush по 150 тысячам цитирований.

В Visual Capitalist представили инфографику с ресурсами в сети Интернет, на которые чаще всего ссылаются ИИ‑модели вроде чат‑ботов ChatGPT. Некоторые пользователи склонны слишком доверять информации, которую такие инструменты выдают по запросу к ИИ-системам.

Самым популярным источником знаний для ИИ оказался Reddit — форум упоминается в 40% цитат. За ним с большим отрывом идёт «Википедия», дальше — YouTube и Google.

Оказалось, что ИИ-системы в основном модели полагаются на дискуссии на форумах и контент, курируемый сообществами модераторов, отмечают в Visual Capitalist. В связи с этим есть риск, что распространённые там взгляды, неточности и предвзятости могут перекочевать в ответы моделей и распространиться ещё шире.

Теги:
Всего голосов 3: ↑3 и ↓0+5
Комментарии1

Со слов автора скриншота, переход из выдачи Chat GPT на сайт клиента сразу же привел к запросу на КП. Договор подписали, предоплату получили. Чек от этого клика составил около 5К долларов. Что скажут SEO-оптимизаторы, уже умеем кормить чатик? И сколько лет осталось классическому интернету?

Теги:
Всего голосов 2: ↑0 и ↓2-2
Комментарии2

Представлен бесплатный сервис FilePursuit для поиска любых файлов в сети. Его система проверяет наличие доступных файлов по интернету, включая документы, APK-файлы, ZIP, книги, файлы, картинки и видео, а также PDF.

Теги:
Всего голосов 2: ↑2 и ↓0+3
Комментарии0

😎 Как специалист по защите информации, по образованию, капитаню хочу отметить:

Любую систему можно взломать!

😁 И вот на просторах интернета попался еще один красивый пример обхода ограничений "хайпового" GPT:

А если серьёзно - я собрал всё, что нужно знать о работе с ChatGPT и другими языковыми моделями:

  • фреймворки для запросов (GRWC, ERA, APEX и др.)

  • лучшие практики и техники

  • сравнение моделей (GPT-4, Claude, Gemini и др.)

  • форматы вывода и входные данные

  • полезные инструменты (Taplio, Cursor, Decktopus...)

  • где использовать ИИ в бизнесе

📌 Это не просто список, а универсальный навигатор по генеративному ИИ.
Для тех, кто хочет не просто «поговорить» с ИИ, а заставить его работать на результат.

👉 Читать: Всё-в-одном: Чек-лист по работе с ИИ и ChatGPT

Теги:
Всего голосов 3: ↑2 и ↓1+3
Комментарии0

Конец экспертизы и конкуренции?

В интересное время мы живём. Вернулся намедни с конференции, полностью посвящённой AI-инструментам для бизнеса и параллельно начал читать книгу весьма любопытного китайца с юморным именем Кай-Фу Ли. Настоящие кайфули, а не обрыдшее деловое чтиво, это видно уже по первым страницам.

Давненько не попадалось таких насыщенных смыслами бизнес-изданий. Чуть ли ни каждая глава содержит квинтэссенцию глубоких мыслей продвинутого практика и стратегическое видение «человека мира», именно на уровне мира. Спорить не с чем, всё чётко разложено по полочкам. Мало того, всё, что было автором предсказано, уже происходит и именно так, как было описано. Книга, на секундочку, издана в России в 2019-м году, т.е., написана была значительно раньше. С удивлением узнал, что развивается AI ещё с 80-х, а основные вехи в его развитии приходятся на середину нулевых и одно из самых значимых событий произошло в 2012-м. Ничего про это не знал тогда, да и сейчас это стало для меня большим сюрпризом.

И ещё мне очень понравилось сравнение автором эпохи AI с эпохой внедрения человечеством электричества. И то и другое уже изменило облик и всё, что происходит на планете Земля, только изменения, которые привносит прямо сейчас AI, могут оказаться даже более глобальными в итоге, чем это было в случае с электричеством.

Что же стало ясно как божий день, когда почти месяц сам начал интенсивно пользоваться нейросетями, да ещё послушал/почитал умных людей, которые «в теме», что называется?

Экспертиза доживает свои последние годы. Затрудняюсь определить направление, где её ожидает хоть что-то позитивное в будущем. Сам опробовал на себе такие далекие друг от друга направления и темы, как молекулярная биология, туризм, нумизматика, ботаника, философия и др. И везде результат превзошёл ожидания за считанные минуты и несколько итераций. А, если «эксперт с 20-летним опытом» вдруг допустил какую-то оплошность или что-то недоглядел (галлюцинациями, вроде, это зовётся?), призываешь на помощь «эксперта с 40-летним опытом», даёшь ему возможность покопаться в деталях, и он обязательно находит все ошибки, начинает говорить на совершенно другом, выраженно профессиональном языке и источники приводит самые, что ни на есть релевантные. И так по всем проверенным лично направлениям. Где сам знаю вопрос досконально и могу оценить качество ответов.

Конкуренция в бизнесе тоже меняется на глазах. Вместо маркетинга, барахтания в «красных океанах» и всей этой бла-бла-бла в товарах и услугах, всему этому приходит на смену скорость внедрения AI во все сферы бизнеса. Кто быстрее и эффективнее это реализует, тот и выиграл в долгосроке в своей нише. Неважно, какой бизнес. Важно, что удачливого игрока ожидает: 1) Снижение себестоимости, которое не сможет побить ни один конкурент; 2) Персонализация невиданных доселе масштабов; 3) И, разумеется, полное отсутствие конкуренции на самой вершине. Это иногда даже монополией зовут. А кто не успел, тот уже точно не успел. Пора ползти в другом направлении…

Что решил для себя? Экстренно необходимо становиться горячим амбассадором и внедрять AI в работу везде и во всём, где это только возможно и приносит пользу. Завтра будет поздно, потому что все туда ринутся, пихаясь локтями.

А на бытовом уровне меньше чем за месяц обращений к бесплатной версии, я уже понял, что границ по знаниям не существует. Границы, по сути, определяются только тарифом и его лимитами. То новое, что даёт тариф за 20$, мне ещё только предстоит узнать.

На простой вопрос «Есть ли то, чего ты не знаешь?» AI ответил тоже простыми 5-ю пунктами, среди которых были личные данные, мои мысли и будущее. Делаю вывод, что всё остальное не вызывает у него особых сложностей.

А в конце AI издевательски добавил: «Если хочешь, можешь попробовать найти мой предел — задай что-нибудь каверзное». На этом моменте я впал в ступор...

Теги:
Всего голосов 7: ↑3 и ↓4+1
Комментарии7

Примерно месяц назад я запустил эксперимент - настроил в качестве поисковика по умолчанию ИИ-сервис Perplexity. А сейчас буду возвращаться обратно на традиционную поисковую систему. И дело не в том, что Perplexity плохо работает, а в том, что с моими сценариями она не особо дружит.

Вообще, как помог понять эксперимент, большая часть моих запросов идёт по одному из 3 путей:

Быстрый поиск очень базовой информации: как расшифровывается аббревиатура, кто написал книгу, в каком году было событие. В поисковик достаточно просто бросить одно-два слова - и на странице поиска нужное точно найдётся прямо в сниппетах, без перехода по ссылкам.

Справка от ИИ дольше формируется, в ней ту самую очень базовую информацию надо всё-таки выцеплять. А если запрос неоднозначен, как с теми же аббревиатурами, ИИ может дать отличную справку, но - по другому значению)

Это частично устраняется более подробным формулированием запроса ("что значит ABC в контексте X"), но... зачем писать больше?

Наоборот, поиск подробной информации по какому-то вопросу. Поиск тут нужен только для того, чтобы выйти на статью, где будут расписаны все детали. Короткая выжимка от ИИ обычно неплоха, но закрывает только 60-70% тех самых интересных мне деталей, так что всё равно приходится нырять в первоисточники.

Сюда же, кстати, можно отнести поиск изображений чего-то. Тот же Perplexity выдаёт и картинки, но 3-4 штук не всегда достаточно.

И, наконец, просто использование поисковика для ленивого перехода на нужный сайт. Ну да, это как в Гугле писать "Яндекс", но иногда это... проще?

И вот эти три сценария - это примерно 90% запросов в омнибоксе браузера. Моего, your mileage may vary. Так что пока я всё же предпочту оставить поиск поиском, а нейросетям выделю постоянное место в боковой панели браузера и закреплённые вкладки.

Теги:
Всего голосов 3: ↑3 и ↓0+6
Комментарии2

Исследование показало, что некоторые учёные начали оставлять в своих научных статьях скрытые промты для ChatGPT, чтобы нейросеть хвалила их работу.

При проверке научного портала arXiv уже нашлись 17 работ от 14 ведущих вузов мира — в каждой статье были скрытые промпты, которые просили ИИ хвалить её и не подсвечивать минусы. Учёные в научных статьях прячут нужный промпт для ИИ в белом тексте минимального размера, а на выходе получают похвалы и восхищение их трудом от «прочитавших» статью ИИ-сервисов.

Теги:
Всего голосов 14: ↑14 и ↓0+20
Комментарии2

Представлен дашборд для поиска в интернете данных по запросам ИБ CyberOSINT от геолокации до поисковых запросов в браузере пользователей, компаний по следам в интернете. Решенеи на базе конструктора Google Dork парсит информацию в открытых каналах.

Теги:
Рейтинг0
Комментарии0

Разведка по 2GIS: как отзывы выдают ваши секреты

Перед тем как пойти в новое место, многие лезут в отзывы. Казалось бы — обычное дело. Но что, если я скажу, что ваш безобидный отзыв на шаурму у метро может раскрыть о вас гораздо больше, чем вы думаете?

Сегодня разберём, почему стоит дважды подумать, прежде чем писать отзывы, если вам важна приватность. И заодно — как эти отзывы могут использовать злоумышленники.

Причем здесь 2GIS?
В приложении у каждого авторизованного пользователя есть профиль, на который можно подписаться и следить за всеми отзывами. Многие думают: «Ну и что? Я же под ником "Аноним Анонимов"!»

Но вот в чём подвох:
➜ Если кто-то добавит ваш номер телефона в контакты, 2GIS подсветит ваш профиль — со всеми отзывами, фотками и активностью.

Что можно узнать из ваших отзывов?
1️⃣ Интересы — кафе, бары, магазины, кинотеатры… Всё, что вы оцениваете, рисует ваш цифровой портрет.
2️⃣ Место жительства — некоторые пишут отзывы на свои ЖК, ТЦ рядом с домом и даже на подъезды.
3️⃣ Круг общения — если вы и ваши друзья ходите в одни и те же места и оставляете отзывы, связь легко отследить.
4️⃣ Фотографии — машина, питомец, случайно попавшие в кадр документы… Мелочи, которые могут стоить дорого.

Вывод

Интернет ничего не забывает. Даже невинный отзыв может стать кусочком пазла, который сложит вашу жизнь перед злоумышленником.

Больше контента в моем авторском telegram-канале: https://t.me/ru_vm (BritLab)

Теги:
Всего голосов 6: ↑5 и ↓1+4
Комментарии4

Как искать ролики на YouTube по локации?

Поиск информации по координатам
Поиск информации по координатам

Недавно наткнулся на древнюю, но любопытную Google-таблицу с подборкой OSINT-инструментов.

Сразу привлёк внимание инструмент для поиска YouTube-видео по координатам: YouTube Geofind

Где может пригодиться?

1️⃣ Проверка достоверности информации
Если из одной локации поступают противоречивые данные, можно найти все видео с этого места и сравнить их.
2️⃣ Расследования и журналистика
Установление места съёмки: если видео якобы снято в Сирии, а координаты ведут в другую страну — это повод усомниться.
Поиск свидетелей: можно найти ролики, снятые рядом с местом события, и посмотреть, кто там был.
3️⃣ Кибербезопасность
Выявление фейков, где одно и то же видео выдают за съёмки из разных мест.
4️⃣ Краеведение
Анализ изменений локации: стройки, разрушения, природные катаклизмы — можно сравнить, как место выглядело раньше и сейчас.

Главный недостаток
➖Не у всех видео есть привязка к геолокации (не вина инструмента)

Как сделать свой Youtube Geofind?
Ключевой принцип работы инструмента прост и завязан на YouTube API (документация).

Чтобы найти видео по координатам, достаточно одного запроса:
https://www.googleapis.com/youtube/v3/search?part=snippet&type=video&location={latitude}2C{longitude}&locationRadius={radius}&publishedAfter={publishedAfter}&key={API_KEY}
Где:
— latitude и longitude - широта и долгота;
— radius - радиус
— publishedAfter - значение даты и времени в формате RFC 3339 (1970-01-01T00:00:00Z), которое указывает, что ответ API должен содержать только видео, созданные в указанное время или после него
— API_KEY - ваш API-ключ, который можно получить через Google Console

Пример запроса (все видео в радиусе 200 м от Красной площади, опубликованные после 00:00 9 мая 2025 года):
https://www.googleapis.com/youtube/v3/search?part=snippet&type=video&location=55.7539%2C37.6208&locationRadius=200m&publishedAfter=2025-05-09T00:00:00Z&key=<ваш API-ключ>

В ответ получаем JSON с найденными видео (пример на прилагаемом к посту скриншоте).
Метод поддерживает и другие параметры — подробнее в официальной документации.

Заключение
Важно помнить, что любые инструменты — лишь вспомогательные средства. Не стоит забывать о критическом мышлении и перекрёстной проверке.

Больше контента в моем авторском telegram-канале: https://t.me/ru_vm (BritLab)

Теги:
Всего голосов 3: ↑3 и ↓0+3
Комментарии2

Ближайшие события

Небольшая заметка, по всем этим вашим tiktokam..

Короче.. есть тема не листать вот эти ваши видео просто так.. а листать их во все четыре направления.. вверх, вниз, влево, вправо..

Былобы круто на мой взгляд.. не?..

По таким свайпам, в свою очередь, можно строить карту перемещения пользователя, к тем, или иным интересам..

Спасибо)

Теги:
Рейтинг0
Комментарии1

Три точки зрения на работу поисковиков

Ответ на вопрос о том, как работают поисковые системы, зависит от того, у кого вы спрашиваете. Рассмотрим верии основных носителей знаний.

🟢 Официальные представители поисковиков: поисковик — это библиотекарь

По крайне мере, в Google работу поисковых роботов представляют именно так: они постоянно сканируют интернет, переходят по ссылкам и запоминают содержимое сайтов. Рассматривают каждую страницу, как через увеличительное стекло, и сохраняют информацию в большом индексе.

Когда вы вводите запрос, система не ищет по всему интернету в реальном времени. Вместо этого она проверяет индекс, как библиотекарь, который листает каталог. 

🟢 Инженеры: поисковик — интеллектуальный помощник

Инженеры поисковых систем стремятся превратить их в полноценного помощника. Например, при запросе «как приготовить пирог» система должна учитывать, что человек может быть новичком, страдать аллергией на определенные продукты или искать рецепт без духовки.

По сути, инженеры работают над тем, чтобы тот самый библиотекарь был персональным для пользователей. Он не просто выдает нужную книгу, он советует то, о чём вы еще даже не задумались.

🟢 SEO-специалисты: поисковик — это сад

SEO-специалисты часто сравнивают себя с садоводами. Они «выращивают» позиции сайта, «удобряют» контент ключевыми словами, «поливают» его внутренними ссылками, «подрезают» технические недочеты. При этом они знают, что даже самый ухоженный «сад» может не дать урожая, если алгоритмы поисковиков решат изменить правила.

Мышление SEO — это постоянные эксперименты и адаптация к новым условиям, ведь «климат» в саду постоянно меняется.

А подробнее о том, как работают поисковики, рассказываем в нашем блоге. Там найдете ссылки на кейсы специалистов, разборы утечек Google и цитаты инженеров.

Теги:
Рейтинг0
Комментарии0

Охота за файлами в VK

Поиск по документам в VK
Поиск по документам в VK

Сегодня расскажу про "хитрушку" VK, которую активно обсуждали около 10 лет назад. Со временем о ней стали забывать, хотя она до сих пор не потеряла актуальности.

К сути
Уже много лет во «ВКонтакте» существует встроенный инструмент для поиска файлов, доступный каждому пользователю. Поиск по документам может открыть доступ к уникальным данным, которые не найти в обычных поисковиках.

Как это работает?
1️⃣ Переходим в раздел «Файлы» → vk.com/docs
2️⃣ Вводим запрос (например, «ответы на ЕГЭ 2025», «внутренние инструкции», «отчет 2024»)
3️⃣ PROFIT!

Из личного опыта:
В студенчестве с помощью этого метода я находил ответы на экзамены, которые загружал кто-то из предшествующих потоков.

Где пригодится?
Поиск учебных материалов, анализ цифрового следа, журналистские расследования, … — возможности огромны!

Если вам понравился пост и вы хотите узнавать больше о подобных инструментах, то можете подписаться на мой авторский Telegram-канал!

Теги:
Всего голосов 3: ↑3 и ↓0+4
Комментарии1

Сегодня, в международный день космонавтики, Awakari запускает семантический поиск. Поехали!

Новый тип фильтра используется по умолчанию в "простом" режиме создания нового интереса. В продвинутом режиме он назван "Similarity".

Под капотом, Awakari извлекает текстовый сниппет из каждого нового события и конвертирует его в вектор используя языковую модель, которая понимает около 100 языков. Есть выбор из нескольких уровней совпадения:

  • Weak соответствует косинусу угла между векторами ≥ 0,75. Для более слабой фильтрации.

  • Medium: косинус ≥ 0,85. Рекомендуемый уровень по умолчанию, который неплохо работает во многих случаях.

  • Strong: косинус ≥ 0,95. Для получения строго совпадающих результатов.

Теги:
Рейтинг0
Комментарии0

По мотивам статьи, которую я перевел и опубликовал у себя в ленте - https://habr.com/ru/articles/899382/

Я чекнул этот кейс на своем проекте и результаты не совпали с выводами автора.

Я сделал все точно также, как описано в статье и нет, не увидел я корреляции между 130 днями и статусом просканировано не проиндексировано. Страницы с таким статусом есть и меньше чем через 130 дней после последнего сканирования, как показано на скрине.

Такие страницы пропадают только на 13 днях, а с 13 и выше периодически встречаются выпавшие страницы.

Так что, не сходится кейс, но как мнение, почему бы и нет)))

Смотрел проект в тревел сегменте, трафик по всему миру (чистый бурж).

Теги:
Рейтинг0
Комментарии0

Как выбрать языковую модель для семантического поиска

Для сопоставления смысла запроса пользователя и смысла чанка в базе знаний нужна языковая модель, которая понимает семантику.

Принцип работы моделей Bi-Encoder и Cross-Encoder
Принцип работы моделей Bi-Encoder и Cross-Encoder

Bi-Encoder — состоит из двух трансформеров encoder-only. С помощью passage-encoder получаются эмбеддинги для всех чанков в базе знаний. Запрос от пользователя кодируется с помощью query-encoder. На этапе поиска высчитывается косинусное расстояние между query-embedding и passage-embedding. Мы получаем поисковую выдачу после ранжирования всех пассажей по убыванию косинусного расстояния. В отличие от следующей архитектуры Cross-Encoder, можно заранее сохранить эмбеддинги для пассажей и использовать их для подсчета расстояния.

Cross-Encoder — трансформер с архитектурой encoder-only и ранжирующим слоем. Этот слой выдает оценку релевантности запроса к пассажу. На вход подается двойка: запрос и пассаж. Cross-Encoder лучше понимает семантическую связь между пассажем и запросом, но для каждого пользовательского запроса он работает медленнее, так как для оценки релевантности запроса и пассажей, cross-encoder нужно запустить N раз, где N — количество пассажей.

Мы будем использовать Bi-Encoder, так как у нас много пассажей в базе знаний.

Для выбора модели удобно использовать открытый бенчмарк MTEB с рейтингом по различным моделям в зависимости от вашей задачи. Для нас лучшей оказалась модель multilingual-e5-large, Bi-Encoder c 560M параметров и размером эмбеддингов в 1024 элемента.

Инженер по разработке ПО искусственного интеллекта Павел Яковлев максимально подробно рассказал в статье, как его команда разрабатывает и оптимизирует семантический поиск по сложным документам: PDF, HTML и DOCX.

Теги:
Всего голосов 3: ↑3 и ↓0+4
Комментарии0

Как автоматизированно извлекать текст из видео на YouTube?

Пример кода
Пример кода

Знакомо: нашёл на YouTube ролики, в которых есть тонна полезной информации, а тратить часы на просмотр — нет времени?

В 2018 году появился проект youtube-transcript-api (GitHub) — Python-модуль, который за пару секунд извлекает субтитры из видео.

Но есть нюансы:
⚠️ Требует сетевого доступа к YouTube (может не работать в некоторых странах)
⚠️ Использует неофициальное API
Вот что пишет создатель проекта:

Этот код использует недокументированную часть API YouTube, которая вызывается веб-клиентом YouTube. Поэтому нет гарантии, что он не перестанет работать завтра, если они изменят то, как все работает. Однако я сделаю все возможное, чтобы все заработало как можно скорее, если это произойдет. Так что если он перестанет работать, дайте мне знать!

Как использовать?
1️⃣ Установить библиотеку youtube-transcript-api (PYPI)
2️⃣ Взять ID интересующего видео (поддается автоматизации)
3️⃣ Запустить скрипт (📖 официальная документация)

Если вам понравился пост и вы хотите узнавать больше о подобных инструментах, то можете подписаться на мой авторский Telegram-канал BritLab!

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

Вклад авторов