Как на самом деле работает веб-поиск в OpenAI: мечты, реальность и неМНОГО разочарования

Все мы любим мечтать. Я, например, долго ждал, когда ChatGPT наконец-то научится не просто умничать на базе своих древних знаний, а реально копать свежак из интернета. Вот прям чтобы можно было взять, подключить этот заветный инструмент веб-поиска — и вперёд, генерировать крутые статьи, писать экспертные посты, ловить хайп на новостях, не отставая ни на минуту. Но, как это часто бывает, мечты разбиваются о суровую реальность. Давайте разбираться, что же там под капотом у OpenAI и почему всё не так радужно, как хотелось бы.
Этот пост является небольшим дополнением к статье которая в полной мере раскрывает процесс создания глубинных исследований интернета при помощи искусственного интеллекта: https://habr.com/ru/articles/923948/
Иллюзия свежести: как работает веб-поиск у OpenAI
Снаружи всё выглядит красиво: жмёшь кнопку — и вот тебе "информация в реальном времени". Но на деле инструмент веб-поиска у OpenAI — это не прямой провод к живому интернету, а скорее такой себе архивчик, который обновляется не то чтобы часто. Да, модель больше не ограничена знаниями двухлетней давности, но и до новостей сегодняшнего утра ей, увы, как до Луны пешком.
В лучшем случае, когда вы просите модель "посмотреть в интернете", она лезет в свой собственный индекс (который, кстати, обновляется с задержкой в несколько месяцев), а иногда — обращается к Bing или проверенным новостным источникам. Но не ждите, что она будет парсить страницу целиком: максимум — снимет сливки со сниппета, а дальше додумывает сама. Итог? На выходе у вас 10% от реального содержания, остальное — фантазии модели.
Почему это не работает для "горящих" новостей
Вот вы решили сделать свой генератор хайповых новостей — и тут начинается разочарование. Модель не видит никаких "горящих" событий, потому что в её архиве их просто нет. Даже если вы дадите ей ссылку на новость, она всё равно прочитает только заголовок и пару строк сниппета. Хотите больше? Придётся копировать руками и скармливать в промпт.
А что делать, если хочется по-настоящему свежий контент?
Здесь на сцену выходят альтернативы. Например, тот же Exa — штука, которая реально парсит сайты, вытаскивает из них всё, что можно, и превращает это в векторный формат. Вот тут уже можно получить не только заголовки, но и весь смысл статьи. Но даже Exa не спасёт, если вы хотите ловить новости быстрее всех — в любом случае, придётся мониторить вручную и быть на шаг впереди.
Почему Perplexity пишет статьи лучше, чем OpenAI с веб-поиском?
Потому что Perplexity не ограничивается сниппетами и умеет собирать больше информации из разных источников. Он реально анализирует, сопоставляет, делает выводы — и на выходе получается не просто пересказ, а что-то похожее на человеческий текст с реальными фактами. OpenAI пока до такого не дорос, увы.
Perplexity — дочка без наследства?
Позвольте влить немного здравого паранойи в стакан хайпа. С большой долей вероятности Perplexity — это не просто модный стартап, а экспериментальная площадка, тесно связанная с OpenAI. Не юридически — стратегически.
Сценарий простой как удар по серверу:
• OpenAI — серьёзный игрок, репутация, партнёрства, Microsoft, всё как надо.
• Perplexity — резкий, дерзкий, свободный. Парсит всё подряд, кеширует сайты, обучает ИИ на Как жить с этим дальше?
Мой совет: не пытайтесь строить на этом автоматические генераторы хайповых новостей. Лучше делайте ставку на экспертный контент: пишите сами, добавляйте результаты поиска из Exa или Perplexity, разбавляйте свои знания свежими фактами — и будет вам счастье. Да, это не даст вам прыгнуть в топ Яндекса по последним новостям, но зато выстроит вашу репутацию как эксперта, а это куда ценнее.
В общем, инструмент веб-поиска от OpenAI — бесполезная фигня, даже если вам нужно всего немного информации из интернета- забудьте!. Не ждите от неё чудес, не стройте воздушных замков.
С вами был Роман Большинов, продолжаю делать AGI в гараже, код здесь, подключаетесь)