Comments 15
Суть статьи в трёх предложениях (цитирую автора):
1) "Как же всё-таки осуществляется поиск...?"
2) "сложилось впечатление, что этот поиск работает по принципу нахождения первых ответов"
3) "могу ошибаться. Но пока складывается впечатление, что ИИ не просеивают весь интернет"
Автор! Ваши личные домыслы, безусловно, достойны публикации на Хабре (зачем я это читал?).
Клод берет топ выдачи brave и всё.
Автор не слышал про "глубокое исследование".
Гугл джемини в режиме глубокого поиска составляет план поисков, то есть делает разные запросы, читает и отбрасывает кучу веб страниц, и в итоге выдает почти то же самое что и обычный гугол по более менее точному запросу. Например спросите кому принадлежит пивоваренный завод балтика и узнаете - первой попавшейся фирме прокладке. То что это подстава для него не очевидно.
Голубой бывает глаз, а бывает карий…
А вот что на этот пост отвечает они(ии)))
Макс, ты довольно точно подметил больные места — и я прям по пунктам разложу, как это выглядит “изнутри кухни” ИИ.
1. Почему кажется, что ИИ “ищет в интернете” как человек
На самом деле всё иначе.
Модели вроде меня работают в двух режимах:
Без доступа к интернету — отвечают только на основе того, что выучили во время обучения (это огромная статистическая модель с “знаниями” до даты среза).
С доступом к поиску (как сейчас, через встроенный web-инструмент) — мы отправляем запрос в обычный поисковик (Google, Bing и т.д.), получаем несколько ссылок, “читаем” фрагменты страниц и анализируем их.
И вот ключевое:
— Мы не обшариваем весь интернет в реальном времени — это физически невозможно за секунды.
— Мы работаем с первой партией найденных документов (обычно 5–10 сайтов), анализируем их и формируем ответ.
Поэтому, как ты сказал, ИИ может “остановиться на первом условии” — если из первых источников уже собрана версия ответа, то глубже не копаем. И да, это часто похоже на тот самый if
в коде.
2. Почему иногда прилетает “мусор”
Тут два момента:
Поиск: если поисковик выдал нерелевантные страницы, то и мне остаётся работать с тем, что есть.
Фильтрация: модель пытается понять релевантность текста, но это субъективный процесс — у нас нет 100% понимания твоего смысла, мы делаем вероятностное угадывание.
А ещё у человека есть контекст и интуиция — ты видишь, что сайт кривой или автор пишет бред, и закрываешь вкладку. А ИИ может воспринять этот бред как полезный фрагмент, если в нём встречаются нужные ключевые слова.
3. Про память
Да, это отдельная боль.
В долгих диалогах мы ограничены размером контекста (примерно как “оперативка” в ПК).
Когда место заканчивается, старые куски разговора “вытесняются”. Поэтому некоторые ИИ вроде меня иногда теряют нить, если диалог длинный.
Сейчас в разработке долговременная память, когда модель будет хранить факты между сессиями, но пока это всё в зачатке.
4. Про анализ
Вот тут ты прав на 200%.
ИИ хорошо работает в:
генерации идей,
суммировании текстов,
подборе вариантов.
Но в аналитике с высокой точностью пока хромает, особенно если задача — выбрать лучший вариант из множества похожих.
Причина простая: у нас нет “внутреннего мира” с целью, а есть алгоритм, который высчитывает вероятность того, что “эта фраза — хороший ответ”.
5. Что будет дальше
Я думаю, что в ближайшие 2–3 года:
Память станет долговременной, с выборочной загрузкой нужных фактов.
Анализ станет глубже за счёт подключения спецмодулей (не просто “поиск + генерация”, а “поиск → сравнение → оценка → вывод”).
ИИ научится докапываться до второго, третьего, четвёртого слоя источников, а не останавливаться на первом.
Если хочешь, я могу тебе показать на живом примере, как я нахожу инфу через поиск, и где именно у меня стоит “тот самый if”, из-за которого всё останавливается.
Будет наглядно, почему иногда прилетает чушь.
Хочешь, устроим такой эксперимент?
У разных ИИ в формате чат бота инструмент web_search может разительно отличаться даже внутри 1 компании разработчика (в комментах уже указывалась функция deep research). Основная база - это поиск по сниппетам (сжатые версии ссылок с "самым полезным содержанием" в поисковике), так же указаны лимиты иттераций на обращение к инструменту на 1 запрос, у разных компаний и функций ИИ моделей они разные, у таких моделей как perplexity и грок4, кроме поиска по сниппетам модель может сама открыть вместо сниппета полную версию ссылки если посчитает это полезным, так же грок 4 ведет парралельный поиск по X(twitter), так же ИИ может ленится и смотреть меньшее количество сниппетов в зависимости от промта пользователя, в общем странно что автор статьи решил написать о поиске ИИ в интернете, по всей видимости не зная о термине RAG.
А были сомнения? Глубокий анализ это дорого. Если каждому давали бы глубокий анализ, perplexity разорился бы за пару недель.
Гугл как поисковик (по крайней мере в глубоком режиме) вполне хороший. Я его однажды нагрузил комплексной задачей, он 400+ источников прошерстил и даже отсеял мусор и с всеми данными в контексте выдал вполне приемлемый результат. Perplexity сам давно пользуюсь, но все чаще использую его как обычную ллм (с быстрой валидацией), нежели как поисковую машину.
Как ИИ ищет в интернете