С момента запуска ChatGPT в ноябре 2022 года — два с половиной года назад — языковые модели-трансформеры запустили волну технологического хайпа, не имеющего аналогов в современной истории. Артур Кларк однажды сказал: «Любая достаточно развитая технология неотличима от магии», — и действительно, инженеры ИИ смогли довести технологию до такого уровня.

Но этот прогресс имеет цену. Речь не о физических ресурсах вроде электричества или видеокарт — со временем их производство можно масштабировать. Самый ценный ресурс для обучения моделей — это человеческое мышление, дистиллированное в текстах, созданных человеком.

Известно, что ChatGPT-4o был обучен на одном триллионе токенов — это эквивалент 40–50 библиотек имени Джона Ф. Кеннеди. Эти токены были собраны из книг, репозиториев кода, Википедии и бесчисленных веб-страниц. По данным Businesswire, веб-скрейперы ИИ уже составляют 51% всего интернет-трафика, и их доля продолжает расти. Компаниям, работающим с ИИ, очень нужны тексты, написанные людьми — а найти их становится всё труднее.

Последние исследования показывают, что ИИ-контент уже составляет около 30% всего интернета, а в некоторых областях — до 40%. Некоторые учёные предсказывают, что этот показатель достигнет 90% в ближайшие годы. В 2025 году 88% студентов использовали генеративный ИИ в той или иной форме, а 18% напрямую вставляли сгенерированный текст в свои учебные работы. Тем временем Stack Overflow зафиксировал падение ежедневной активности пользователей на 47% по сравнению с прошлым годом.

ИИ поглощает интернет — но вскоре может начать страдать от голода. «Обрушение модели» (model collapse) — это деградация модели из-за загрязнения данных для обучения ранее сгенерированным ИИ-контентом. Совместное исследование Оксфорда и Кембриджа под названием The Curse of Recursion показало, что добавление всего 10–30% ИИ-текста вызывает заметное снижение качества уже через один-два цикла обучения. Через 4–5 поколений производительность модели падает ниже базового уровня.

Погрязнув в терабайтах ИИ мусора, веб-скрейперы будут вынуждены копать глубже, чтобы найти аутентичный человеческий контент. Кто знает — может быть, мы доживём до «контент-ферм» в стиле Матрицы, где писатели будут производить качественные тексты исключительно для потребления ИИ, как люди-батарейки в фильме?

Истощение моделей — это реальность, и его все труднее избежать. Поезд ИИ может на полной скорости врезаться в стену. LLM — это производные от продуктов человеческого мышления; они не могут превзойти эту основу, как бы ни старались специалисты в OpenAI, Google или Anthropic, помешивая свои цифровые зелья в котлах.

В свете этого стоит подумать: что может быть следующим большим шагом человеческого прогресса?

На панельной дискуссии в Майами в мае 2025 года Сергей Брин рассказал, что LLM начинают работать лучше, когда им угрожают насилием. А что, если нейросети указывают нам на роль страха в развитии сознания? Что, если неживые сущности действительно не могут учиться без инстинктивного страха смерти? И что, если ключ к успеху не в имитации биологии, а в открытии общего протокола между биологическими и вычислительными системами?