Как ИИ ищет в интернете / Habr

Вначале небольшая история

Несколько месяцев назад решил поэкспериментировать с ChatGPT по поводу поиска информации в интернете. Задал вопрос «Что такое длинная воля?».

Это выражение встречается в работах Льва Гумилёва, на мой взгляд, лучшего учёного‑историка нашего времени. Не помню уже в какой именно книге, но в его работах это выражение встречается несколько раз по отношению, в частности, к Чингис‑Хану. Но толком не объясняется.

В общем, задал вопрос и получаю ответ совсем никудышный. ChatGPT выдаёт несколько «ответов» со ссылками на какие‑то совершенно левые работы, даже не упоминая непосредственно работы Гумилёва. И сами ответы были в таком стиле, что это выражение встречается в его работах, но как это понимать — ни слова. И главным источником информации названа статья какого‑то совсем неизвестного автора 20–30-х годов. В общем, облом.

Потом, спустя некоторое время появляется Perplexity — новая поисковая система на базе ИИ. Проверяю её на том же запросе и чудо: она чётко выдаёт Гумилёва и даёт толковое объяснение этого термина. В общем, эйфория, «будущее уже здесь» и все такое.

После этого активно пользуюсь этой самой Perplexity. Google уже практически забыт, да и ChatGPT практически тоже выглядит как бы ненужным. И с удовольствием отмечаю, что не я один это заметил. Потому как в интернете пошли слухи, что Apple обсуждает возможность купить Perplexity за $24 ярда, что для Apple самая крупная покупка.

Но потом эти разговоры утихли и уже появляется информация о том, что Apple решила сама создавать свой ИИ‑поисковик. Удивительным образом эта новость совпала и с моим разочарованием в этой новой поисковой системе.

А именно, часто пользуясь этим поисковиком, начал замечать, что и ответы, и выбор ссылок какие‑то слабые, не внушающие доверия. С одной стороны вроде как бы шерстит интернет вживую, обрабатывает и выдаёт готовый результат, а с другой — такое впечатление, что результаты становятся все хуже и хуже.

Последней каплей стал запрос «Найди результаты исследований по формированию здоровых пищевых привычек». Он выкатил вообще практически мусор. На первой позиции не исследование, а речь на каком‑то экономическом форуме. т. е., он не различает, где исследование, а где другие материалы. И ищет практически также как Google по ключевым словам. Но при этом явно хуже.

Я, конечно, могу ошибаться и понимаю, что это мнение субъективно. Но давайте попробуем проанализируем как же всё‑таки осуществляется поиск сегодня с помощью ИИ?

Неосознаваемое ожидание

Начнём с неосознаваемого и поэтому слабо рефлексируемого ожидания. А именно: как мы себе представляем механизм поиска ИИ в отличие от Google?

Первое, что приходит на ум, что Google выдаёт кучу ссылок, в которых приходится разбираться вручную. А вот ИИ как бы анализирует эти ссылки, сравнивает, выбирает наиболее релевантные и на их основе формирует уже готовый ответ.

Оказывается, что в этом нашем понимании есть психологическа дыра. Вопрос такой: сколько ссылок просматривает и анализирует ИИ? С Google ответ более менее понятен и достаточно наглядный. Об этом можно судить по количеству ссылок, которые он выдаёт. Это могут быть десятки, сотни и даже тысячи. А сколько ссылок находит ИИ, столько же, как и Google, или иначе?

Алгоритм оценки

При просмотре результатов интернет поиска Perplexity и других моделей сложилось впечатление, что этот поиск работает по принципу нахождения первых ответов на вопрос.

т. е., они не прокачивают тысячи ссылок, а идут каким‑то образом то ли по своей базе, то ли в живом интернете, до того момента, когда получают ответ на вопрос пользователя.

Причём, само понимание, что такое есть этот самый «ответ» у ИИ может быть своё, не совпадающее со смыслом пользователя.

В результате, ИИ находит и выдаёт несколько ответов, которые по его мнению, отвечают на запрос пользователя. А дальше он не идёт, потому как в этом нет необходимости. Ведь ответ он уже «нашел». Точно также как конструкция if: если первое условие выполнено, то второе не проверяется. Так и здесь. А как в народе шутят, ИИ — это большая конструкция того самого if:‑)

Технический момент

К этому вопросу можно подойти и с другой стороны.

Насколько легко ИИ могут выполнять поиск в интернете? И не только найти, что само по себе уже очень непросто, но и проанализировать. И все это прямо на ходу, за пару минут!

Честно говоря, как‑то не верится. Ведь даже Google, этот самый большой и самый мощный поисковый гигант, делает это не сразу, а предварительно индексирует сайты. А тут как бы сразу, без предварительной индексации, пролистать сотни сайтов, найти нужные в глубинах интернета, просмотреть их содержимое (иногда десятки страниц, а то и сотни), проанализировать, сделать вывод, что это релевантный контент, обобщить его и сформулировать ответ — и всё это на лету?! Реально не верится!

Ещё раз повторю: могу ошибаться. Но пока складывается впечатление, что ИИ не просеивают весь интернет или хотя бы его значительную часть. А просто находят первые подходящие сайты и работают с ними. Иначе как объяснить, что такие «умные» модели нередко выдают в результатах поиска явно нерелевантный контент.

Память и анализ — болевые точки ИИ

В общем, похоже, что у ИИ сегодня действительно есть эти две болевые точки.

Первая — это память, с которой уже все столкнулись и которая постепенно совершенствуется.

И вторая — это анализ. Здесь ситуация сложнее. В каких‑то творческих заданиях (тексты, сценарии, видео и т. д.) эта проблема мало ощутима, поскольку создаётся что‑то новое, которое не с чем сравнить.

А вот в запросах, где у человека есть уже какие‑то предварительные образцы, явно видно, что ИИ нередко хромает и, как было сказано выше, вместо результатов научного исследования может выдавать материалы какого‑нибудь пленума. Получается, что не умеет толком сравнивать и оценивать, выбирать нужное.

Вангую, что эти два направления будут весьма перспективными для дальнейшего усовершенствования ИИ‑моделей.