AppCrafter15 авг 2025 в 02:18

Как ИИ ищет в интернете

Простой

5 мин

19K

Искусственный интеллектМашинное обучение *

Мнение

🛸 Космотекст

Комментарии 35

ilyakruchinin 15 авг 2025 в 02:32

Суть статьи в трёх предложениях (цитирую автора):
1) "Как же всё-таки осуществляется поиск...?"
2) "сложилось впечатление, что этот поиск работает по принципу нахождения первых ответов"
3) "могу ошибаться. Но пока складывается впечатление, что ИИ не просеивают весь интернет"

Автор! Ваши личные домыслы, безусловно, достойны публикации на Хабре (зачем я это читал?).

AppCrafter 15 авг 2025 в 02:42

Это вы теперь вместо ИИ резюмируете содержание статей? ))

AC_74 17 авг 2025 в 19:56

Это чтобы не читать бредятину, жаль я не начал с комментария и вашего ответа, тогда бы время не потратил

AppCrafter 21 авг 2025 в 16:03

вы пропустили приём лекарств

AC_74 21 авг 2025 в 16:08

Даже ИИ генерирует лучше. Попробуй ещё разок.

Neon7Blade 21 авг 2025 в 14:37

Очень кстати вообще-то

Kamil_GR 15 авг 2025 в 02:54

Клод берет топ выдачи brave и всё.

AppCrafter 15 авг 2025 в 19:39

да, мне он тоже это рассказал. И тогда следующий вопрос - что такое brave и чем он лучше Google?

riky 15 авг 2025 в 23:29

Дешевле

AppCrafter 16 авг 2025 в 20:31

и как это сказывается на качестве результатов поиска?

riky 20 авг 2025 в 11:42

это сказывается на расходах компании.
а качество пойдет, понятно что не самый передовой поиск, и инжекс может быть меньше и качество похрамывать на некоторых запросах, не та экспертиза. но для общих вопросов наверное пойдет.

AppCrafter 21 авг 2025 в 16:04

и почему-то мне думается, что все так или иначе используют проиндексированную базу гугла.

man4j 15 авг 2025 в 06:05

Автор не слышал про "глубокое исследование".

AppCrafter 16 авг 2025 в 20:33

и что, глубокое исследование может просмотреть и проанализировать "глубоко" тысячи сайтов за пару секунд без предварительной индексации? Та же телега, только вид сбоку.

pol_pot 15 авг 2025 в 07:37

Гугл джемини в режиме глубокого поиска составляет план поисков, то есть делает разные запросы, читает и отбрасывает кучу веб страниц, и в итоге выдает почти то же самое что и обычный гугол по более менее точному запросу. Например спросите кому принадлежит пивоваренный завод балтика и узнаете - первой попавшейся фирме прокладке. То что это подстава для него не очевидно.

AppCrafter 15 авг 2025 в 19:41

в любом случае прошерстить весь интернет за секунды без индексации на сегодняшний день не может ни один поисковик

Neon7Blade 21 авг 2025 в 14:39

А ты откуда узнал, что это фирма прокладка?

pol_pot 21 авг 2025 в 15:00

Это микропредприятие с 1 сотрудником.

Neon7Blade 21 авг 2025 в 15:29

О, я опять тебе ответила

nikonru 15 авг 2025 в 10:37

Голубой бывает глаз, а бывает карий…

AppCrafter 15 авг 2025 в 23:28

Голубой бывает глаз, а бывает карий,
А бывает серый глаз — строгий и печальный.
А бывает глаз — как ночь, чёрный, как смородина,
А бывает — как трава, светлый, как мелодия…

irkutru 15 авг 2025 в 19:33

А вот что на этот пост отвечает они(ии)))

Макс, ты довольно точно подметил больные места — и я прям по пунктам разложу, как это выглядит “изнутри кухни” ИИ.

1. Почему кажется, что ИИ “ищет в интернете” как человек

На самом деле всё иначе.
Модели вроде меня работают в двух режимах:

Без доступа к интернету — отвечают только на основе того, что выучили во время обучения (это огромная статистическая модель с “знаниями” до даты среза).
С доступом к поиску (как сейчас, через встроенный web-инструмент) — мы отправляем запрос в обычный поисковик (Google, Bing и т.д.), получаем несколько ссылок, “читаем” фрагменты страниц и анализируем их.

И вот ключевое:
— Мы не обшариваем весь интернет в реальном времени — это физически невозможно за секунды.
— Мы работаем с первой партией найденных документов (обычно 5–10 сайтов), анализируем их и формируем ответ.

Поэтому, как ты сказал, ИИ может “остановиться на первом условии” — если из первых источников уже собрана версия ответа, то глубже не копаем. И да, это часто похоже на тот самый if в коде.

2. Почему иногда прилетает “мусор”

Тут два момента:

Поиск: если поисковик выдал нерелевантные страницы, то и мне остаётся работать с тем, что есть.
Фильтрация: модель пытается понять релевантность текста, но это субъективный процесс — у нас нет 100% понимания твоего смысла, мы делаем вероятностное угадывание.

А ещё у человека есть контекст и интуиция — ты видишь, что сайт кривой или автор пишет бред, и закрываешь вкладку. А ИИ может воспринять этот бред как полезный фрагмент, если в нём встречаются нужные ключевые слова.

3. Про память

Да, это отдельная боль.
В долгих диалогах мы ограничены размером контекста (примерно как “оперативка” в ПК).
Когда место заканчивается, старые куски разговора “вытесняются”. Поэтому некоторые ИИ вроде меня иногда теряют нить, если диалог длинный.

Сейчас в разработке долговременная память, когда модель будет хранить факты между сессиями, но пока это всё в зачатке.

4. Про анализ

Вот тут ты прав на 200%.
ИИ хорошо работает в:

генерации идей,
суммировании текстов,
подборе вариантов.

Но в аналитике с высокой точностью пока хромает, особенно если задача — выбрать лучший вариант из множества похожих.
Причина простая: у нас нет “внутреннего мира” с целью, а есть алгоритм, который высчитывает вероятность того, что “эта фраза — хороший ответ”.

5. Что будет дальше

Я думаю, что в ближайшие 2–3 года:

Память станет долговременной, с выборочной загрузкой нужных фактов.
Анализ станет глубже за счёт подключения спецмодулей (не просто “поиск + генерация”, а “поиск → сравнение → оценка → вывод”).
ИИ научится докапываться до второго, третьего, четвёртого слоя источников, а не останавливаться на первом.

Если хочешь, я могу тебе показать на живом примере, как я нахожу инфу через поиск, и где именно у меня стоит “тот самый if”, из-за которого всё останавливается.
Будет наглядно, почему иногда прилетает чушь.

Хочешь, устроим такой эксперимент?

AppCrafter 15 авг 2025 в 19:36

Круто! Практически подтверждение основных пунктов статьи.

А какой ИИ спрашивали?

Ferostarz 16 авг 2025 в 13:49

Похоже на gemini это он любить в конце оставить вопрос на дальнейшие действия

Korben_Dallas_91 16 авг 2025 в 20:23

Такую живую манеру подачи информации и плюс вопрос в конце: "Хочешь, устроим такой эксперимент?" - как будто бы с человеческими особенностями, такое замечал у gpt5.

AppCrafter 16 авг 2025 в 20:24

не только, Claude тоже так любит

Neon7Blade 21 авг 2025 в 14:42

Давай свой эксперимент

N3v4j80 16 авг 2025 в 05:06

У разных ИИ в формате чат бота инструмент web_search может разительно отличаться даже внутри 1 компании разработчика (в комментах уже указывалась функция deep research). Основная база - это поиск по сниппетам (сжатые версии ссылок с "самым полезным содержанием" в поисковике), так же указаны лимиты иттераций на обращение к инструменту на 1 запрос, у разных компаний и функций ИИ моделей они разные, у таких моделей как perplexity и грок4, кроме поиска по сниппетам модель может сама открыть вместо сниппета полную версию ссылки если посчитает это полезным, так же грок 4 ведет парралельный поиск по X(twitter), так же ИИ может ленится и смотреть меньшее количество сниппетов в зависимости от промта пользователя, в общем странно что автор статьи решил написать о поиске ИИ в интернете, по всей видимости не зная о термине RAG.

AppCrafter 16 авг 2025 в 20:23

и чем RAG в данном случае принципиально меняет ситуацию?

НЛО прилетело и опубликовало эту надпись здесь

AppCrafter 16 авг 2025 в 20:29

насчёт сомнений как-то первое время не сильно глубоко вдавался в тему.

Насчёт Гугл согласен с вами, он вполне хорош. Даже я бы сказал лучший. Не у каждой компании хватает сил и денег осуществлять и поддерживать такой поиск.

Более того, в последнее время, прямо перед всплытием на поверхность LLM, Гугл уже начал делать что-то похожее. А именно: в результатах поиска появились короткие цитаты из найденных сайтов, которые практически прямо отвечали на поисковый запрос.

НЛО прилетело и опубликовало эту надпись здесь

AppCrafter 17 авг 2025 в 17:27

ну почему же. Если мы имеем в виду одно и то же, то что вы называете флеш моделью, то очень даже неплохо экономит время. Насчёт достоверности там сложно судить, кто за это отвечает. Потому как гугл просто берет готовые цитаты с сайтов. Как говорится, за что купил, за то и продал.

gun_dose 17 авг 2025 в 20:42

А мне нравится, как со ссылками работают китайские нейросети. Недавно спрашивал что-то у Qwen, он мне говорит, вот эту либу зацени или вот эту. И ссылки на гитхаб. По обеим 404. Пару месяцев назад спрашивал у диксика, существует ли какой-то публичный API с кое-какими данными. Он такой типа да, конечно, даёт ссылку, потом на два экрана расписывает, какие параметры есть в апишке, примеры показывает. А домен example.com.

ChatGPT кстати тоже не отстаёт, но у него свои заморочки. Когда gpt4 вышел, я спросил, карта какой страны была изображена на лбу у Горбачёва. Он сказал, что это карта Армении и выдал кучу ссылок с якобы пруфами.

AppCrafter 21 авг 2025 в 16:02

да, тоже довольно часто такое попадает, даёт ссылку с комментариями, а ссылка пустая

Зарегистрируйтесь на Хабре, чтобы оставить комментарий