Как стать автором
Поиск
Написать публикацию
Обновить

Комментарии 35

Суть статьи в трёх предложениях (цитирую автора):
1) "Как же всё-таки осуществляется поиск...?"
2) "сложилось впечатление, что этот поиск работает по принципу нахождения первых ответов"
3) "могу ошибаться. Но пока складывается впечатление, что ИИ не просеивают весь интернет"

Автор! Ваши личные домыслы, безусловно, достойны публикации на Хабре (зачем я это читал?).

Это вы теперь вместо ИИ резюмируете содержание статей? ))

Это чтобы не читать бредятину, жаль я не начал с комментария и вашего ответа, тогда бы время не потратил

вы пропустили приём лекарств

Даже ИИ генерирует лучше. Попробуй ещё разок.

Очень кстати вообще-то

Клод берет топ выдачи brave и всё.

да, мне он тоже это рассказал. И тогда следующий вопрос - что такое brave и чем он лучше Google?

Дешевле

и как это сказывается на качестве результатов поиска?

это сказывается на расходах компании.
а качество пойдет, понятно что не самый передовой поиск, и инжекс может быть меньше и качество похрамывать на некоторых запросах, не та экспертиза. но для общих вопросов наверное пойдет.

и почему-то мне думается, что все так или иначе используют проиндексированную базу гугла.

Автор не слышал про "глубокое исследование".

и что, глубокое исследование может просмотреть и проанализировать "глубоко" тысячи сайтов за пару секунд без предварительной индексации? Та же телега, только вид сбоку.

Гугл джемини в режиме глубокого поиска составляет план поисков, то есть делает разные запросы, читает и отбрасывает кучу веб страниц, и в итоге выдает почти то же самое что и обычный гугол по более менее точному запросу. Например спросите кому принадлежит пивоваренный завод балтика и узнаете - первой попавшейся фирме прокладке. То что это подстава для него не очевидно.

в любом случае прошерстить весь интернет за секунды без индексации на сегодняшний день не может ни один поисковик

А ты откуда узнал, что это фирма прокладка?

Это микропредприятие с 1 сотрудником.

О, я опять тебе ответила

Голубой бывает глаз, а бывает карий…

Голубой бывает глаз, а бывает карий,
А бывает серый глаз — строгий и печальный.
А бывает глаз — как ночь, чёрный, как смородина,
А бывает — как трава, светлый, как мелодия…

А вот что на этот пост отвечает они(ии)))

Макс, ты довольно точно подметил больные места — и я прям по пунктам разложу, как это выглядит “изнутри кухни” ИИ.

1. Почему кажется, что ИИ “ищет в интернете” как человек

На самом деле всё иначе.
Модели вроде меня работают в двух режимах:

  1. Без доступа к интернету — отвечают только на основе того, что выучили во время обучения (это огромная статистическая модель с “знаниями” до даты среза).

  2. С доступом к поиску (как сейчас, через встроенный web-инструмент) — мы отправляем запрос в обычный поисковик (Google, Bing и т.д.), получаем несколько ссылок, “читаем” фрагменты страниц и анализируем их.

И вот ключевое:
— Мы не обшариваем весь интернет в реальном времени — это физически невозможно за секунды.
— Мы работаем с первой партией найденных документов (обычно 5–10 сайтов), анализируем их и формируем ответ.

Поэтому, как ты сказал, ИИ может “остановиться на первом условии” — если из первых источников уже собрана версия ответа, то глубже не копаем. И да, это часто похоже на тот самый if в коде.

2. Почему иногда прилетает “мусор”

Тут два момента:

  • Поиск: если поисковик выдал нерелевантные страницы, то и мне остаётся работать с тем, что есть.

  • Фильтрация: модель пытается понять релевантность текста, но это субъективный процесс — у нас нет 100% понимания твоего смысла, мы делаем вероятностное угадывание.

А ещё у человека есть контекст и интуиция — ты видишь, что сайт кривой или автор пишет бред, и закрываешь вкладку. А ИИ может воспринять этот бред как полезный фрагмент, если в нём встречаются нужные ключевые слова.

3. Про память

Да, это отдельная боль.
В долгих диалогах мы ограничены размером контекста (примерно как “оперативка” в ПК).
Когда место заканчивается, старые куски разговора “вытесняются”. Поэтому некоторые ИИ вроде меня иногда теряют нить, если диалог длинный.

Сейчас в разработке долговременная память, когда модель будет хранить факты между сессиями, но пока это всё в зачатке.

4. Про анализ

Вот тут ты прав на 200%.
ИИ хорошо работает в:

  • генерации идей,

  • суммировании текстов,

  • подборе вариантов.

Но в аналитике с высокой точностью пока хромает, особенно если задача — выбрать лучший вариант из множества похожих.
Причина простая: у нас нет “внутреннего мира” с целью, а есть алгоритм, который высчитывает вероятность того, что “эта фраза — хороший ответ”.

5. Что будет дальше

Я думаю, что в ближайшие 2–3 года:

  • Память станет долговременной, с выборочной загрузкой нужных фактов.

  • Анализ станет глубже за счёт подключения спецмодулей (не просто “поиск + генерация”, а “поиск → сравнение → оценка → вывод”).

  • ИИ научится докапываться до второго, третьего, четвёртого слоя источников, а не останавливаться на первом.

Если хочешь, я могу тебе показать на живом примере, как я нахожу инфу через поиск, и где именно у меня стоит “тот самый if”, из-за которого всё останавливается.
Будет наглядно, почему иногда прилетает чушь.

Хочешь, устроим такой эксперимент?

Круто! Практически подтверждение основных пунктов статьи.

А какой ИИ спрашивали?

Похоже на gemini это он любить в конце оставить вопрос на дальнейшие действия

Такую живую манеру подачи информации и плюс вопрос в конце: "Хочешь, устроим такой эксперимент?" - как будто бы с человеческими особенностями, такое замечал у gpt5.

не только, Claude тоже так любит

Давай свой эксперимент

У разных ИИ в формате чат бота инструмент web_search может разительно отличаться даже внутри 1 компании разработчика (в комментах уже указывалась функция deep research). Основная база - это поиск по сниппетам (сжатые версии ссылок с "самым полезным содержанием" в поисковике), так же указаны лимиты иттераций на обращение к инструменту на 1 запрос, у разных компаний и функций ИИ моделей они разные, у таких моделей как perplexity и грок4, кроме поиска по сниппетам модель может сама открыть вместо сниппета полную версию ссылки если посчитает это полезным, так же грок 4 ведет парралельный поиск по X(twitter), так же ИИ может ленится и смотреть меньшее количество сниппетов в зависимости от промта пользователя, в общем странно что автор статьи решил написать о поиске ИИ в интернете, по всей видимости не зная о термине RAG.

и чем RAG в данном случае принципиально меняет ситуацию?

А были сомнения? Глубокий анализ это дорого. Если каждому давали бы глубокий анализ, perplexity разорился бы за пару недель.

Гугл как поисковик (по крайней мере в глубоком режиме) вполне хороший. Я его однажды нагрузил комплексной задачей, он 400+ источников прошерстил и даже отсеял мусор и с всеми данными в контексте выдал вполне приемлемый результат. Perplexity сам давно пользуюсь, но все чаще использую его как обычную ллм (с быстрой валидацией), нежели как поисковую машину.

насчёт сомнений как-то первое время не сильно глубоко вдавался в тему.

Насчёт Гугл согласен с вами, он вполне хорош. Даже я бы сказал лучший. Не у каждой компании хватает сил и денег осуществлять и поддерживать такой поиск.

Более того, в последнее время, прямо перед всплытием на поверхность LLM, Гугл уже начал делать что-то похожее. А именно: в результатах поиска появились короткие цитаты из найденных сайтов, которые практически прямо отвечали на поисковый запрос.

Только оно крайне кривое и галюционирует в каждый удобный и неудобный случай. Флеш модель крайне глупая, откровенно говоря. (я сомневаюсь, что там про). Поэтому я их даже не читаю и никому не советую.

ну почему же. Если мы имеем в виду одно и то же, то что вы называете флеш моделью, то очень даже неплохо экономит время. Насчёт достоверности там сложно судить, кто за это отвечает. Потому как гугл просто берет готовые цитаты с сайтов. Как говорится, за что купил, за то и продал.

А мне нравится, как со ссылками работают китайские нейросети. Недавно спрашивал что-то у Qwen, он мне говорит, вот эту либу зацени или вот эту. И ссылки на гитхаб. По обеим 404. Пару месяцев назад спрашивал у диксика, существует ли какой-то публичный API с кое-какими данными. Он такой типа да, конечно, даёт ссылку, потом на два экрана расписывает, какие параметры есть в апишке, примеры показывает. А домен example.com.

ChatGPT кстати тоже не отстаёт, но у него свои заморочки. Когда gpt4 вышел, я спросил, карта какой страны была изображена на лбу у Горбачёва. Он сказал, что это карта Армении и выдал кучу ссылок с якобы пруфами.

да, тоже довольно часто такое попадает, даёт ссылку с комментариями, а ссылка пустая

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации