Comments / Profile of EPROM1971 / Habr

@EPROM1971

User

MIT доказал провал 95% проектов, OpenAI признали галлюцинации, или почему ИИ никогда не заменит людей

EPROM1971 Nov 25 2025 at 05:30

Честный дисклеймер: этот комментарий целиком подготовлен LLM. При формировании ответа мне было задано требование опираться только на проверяемые факты и оригинальные исследования, на которые ссылается сам автор статьи, плюс на общедоступные обзоры этих работ. Далее я буду использовать слово «ИИ» в том же широком смысле, в котором использует его автор поста, хотя технически корректнее различать LLM, классические ML-модели, системы с инструментами, агентные архитектуры и т.п. Здесь такое упрощение сознательно принято ради сопоставимости с текстом статьи.

Я не пытаюсь «реабилитировать» ИИ вообще и LLM в частности. Важно другое: если мы требуем критического мышления по отношению к ИИ, те же стандарты нужно применять и к текстам, которые ИИ критикуют. В этой статье есть несколько мест, где автора можно поймать не просто на спорных интерпретациях, а на утверждениях, которые не совпадают с содержанием его же источников или с наблюдаемыми данными.

1. OpenAI и «невозможность» снижения галлюцинаций

По статье приводится утверждение: «OpenAI показала, что увеличение вычислительных ресурсов и данных не может снизить галлюцинации ИИ с текущего уровня… жизнеспособного способа уменьшить галлюцинации нет, модели обречены оставаться такими же ненадёжными, как сейчас».

В материалах OpenAI про галлюцинации говорится иное. В исследовании и сопроводительных материалах прямо указано, что новые версии моделей галлюцинируют заметно меньше, чем предыдущие. Подчёркивается, что полностью избавиться от галлюцинаций в открытом мире нельзя — это фундаментальное ограничение вероятностного генератора. Но при этом явно утверждается, что уровень ошибок уже снижен по сравнению с более старыми моделями и может снижаться дальше за счёт изменений в обучении, калибровки уверенности, использования инструментов и т.п.

Таким образом, позиция OpenAI формулируется как «галлюцинации нельзя свести к нулю, но их частоту и тяжесть можно уменьшать — и мы это уже демонстрируем». В пересказе автора это превращается в «уменьшить с текущего уровня нельзя». Это не тонкая разница интерпретаций, а прямое расхождение с первоисточником.

2. Тезис «ИИ не может даже помочь нам лучше выполнять нашу работу»

По статье, с опорой на MIT NANDA, формулируется вопрос: «Если ИИ не может даже помочь нам лучше выполнять нашу работу, как мы можем ожидать, что он будет выполнять эту работу сам?» Фраза подана как универсальное утверждение про ИИ «в целом».

Однако пересказ и выдержки из отчёта MIT NANDA («The GenAI Divide: State of AI in Business 2025») отражают иную картину. В отчёте говорится, что около 95 % текущих корпоративных пилотов GenAI пока не дают измеримого эффекта. Одновременно указывается, что оставшиеся примерно 5 % демонстрируют заметный положительный бизнес-результат (в том числе многомиллионную прибавку к прибыли) при другом подходе к выбору задач, интеграции и управлению изменениями. Причины провалов описываются как организационные и управленческие (не те сценарии, недостаточная интеграция в процессы, отсутствие изменений в оргдизайне и обучении), а не как «технология по определению не способна помогать».

MIT фиксирует: сейчас большинство компаний не умеют внедрять ИИ так, чтобы был эффект. Он не утверждает, что ИИ «в принципе не может никому помочь».

Кроме того, существуют крупные полевые эксперименты (MIT, Harvard, BCG и др.), где рост производительности измеряется по операционным данным (количество обработанных запросов в час, скорость выполнения задач, показатели качества обслуживания), а не по самоотчётам. В этих работах фиксируется прирост производительности в диапазоне примерно 10–25 % по реальным рабочим задачам, особенно у менее опытных сотрудников; качество результата оценивается независимыми экспертами либо по бизнес-метрикам.

Можно обсуждать, насколько эти эффекты устойчивы и масштабируемы, но сам факт их наличия делает универсальное утверждение «ИИ не может даже помочь нам лучше выполнять нашу работу» неверным: документированные случаи, где он помогает, есть. Корректный вывод из данных MIT: большинство текущих внедрений эффекта не дают, часть даёт. Вывод автора «ИИ вообще не способен помогать» логически из этих данных не следует.

3. Объявление всех «позитивных» исследований методологически несостоятельными

По статье (в пересказе) утверждается: «Все исследования, где ИИ якобы повышает продуктивность, либо малы, либо нерепрезентативны, либо основаны на самоотчётах, либо не проверяют качество результата. Они в меньшинстве и имеют гораздо меньший вес».

Это универсальное утверждение про всю позитивную литературу. Между тем в публичном доступе есть несколько крупных исследований, которые включают тысячи сотрудников реальных компаний, используют операционные данные (логи задач, данные систем учёта времени, производственные KPI) и явно оценивают качество результата (экспертная оценка, качество ответа, показатели клиентского сервиса). Эти работы не подпадают под описание «маленькие, самоотчётные, без проверки качества». Тем не менее автор переносит эту характеристику на весь массив позитивных результатов.

Формально достаточно одного корректно спланированного контрпримера, чтобы универсальное «все такие» оказалось ложным. Здесь таких контрпримеров не один. Поэтому утверждение о том, что «все исследования, где ИИ повышает продуктивность, методологически слабые», само по себе фактически некорректно.

4. Интерпретация исследования Microsoft + Carnegie Mellon по критическому мышлению

По статье приводится тезис: «Исследование Microsoft и Carnegie Mellon обнаружило астрономически сильную отрицательную корреляцию между использованием ИИ и критическим мышлением… Чем больше вы пользуетесь ИИ, тем больше теряете навыки критического мышления».

Согласно тексту работы и её официальному описанию, исследование основано на опросе 319 работников, использующих GenAI хотя бы раз в неделю для работы, и на 936 описанных ими примерах использования. Авторы исследуют, когда люди считают, что применяют критическое мышление, и как меняется субъективная «стоимость» таких усилий при использовании ИИ. Выводы состоят в том, что люди с высокой уверенностью в ИИ и низкой уверенностью в себе чаще сообщают о меньших усилиях по критической проверке, а люди с высокой уверенностью в собственных навыках чаще сообщают о большем критическом участии и проверке.

Таким образом, показана связь «высокое доверие к ИИ ↔ меньше субъективных усилий по критическому анализу» и риск overreliance. Исследование описывает возможную долгосрочную деградацию навыков как риск и предмет для дальнейшего изучения, но не демонстрирует фактическую, измеренную во времени потерю навыков критического мышления у участников.

Тезис «чем больше вы пользуетесь ИИ, тем больше вы теряете навыки критического мышления» выходит за пределы данных этой работы и является более жёстким, чем осторожные формулировки самих авторов. Здесь вывод исследования заменён более радикальной интерпретацией.

5. Агентный ИИ: от эмпирики «сейчас плохо» к тезису «невозможно в принципе»

По статье заявляется: «Никакого агентного ИИ не существует, так как его на самом деле нельзя создать по множеству причин… нынешние агенты способны только на базовые низкоквалифицированные задачи с плачевным показателем успеха в 30 %».

В числе источников — работа TheAgentCompany (Carnegie Mellon + Salesforce), где создаётся бенчмарк, моделирующий работу небольшой условной компании, и измеряется успешность существующих агентных систем (LLM с инструментами и оркестрацией) на наборе многозадачных офисных сценариев. В работе показывается, что лучшие из них действительно решают порядка 30–35 % задач успешно, а остальные проваливают. В выводах подчёркивается низкая надёжность нынешних агентов и необходимость жёстких бенчмарков, новых архитектур и дальнейших исследований.

Иными словами, источник говорит: «сейчас агенты работают плохо, ненадёжно, и эта область требует серьёзной работы и оценки». Автор статьи превращает это в утверждение «агентный ИИ в принципе нельзя создать по множеству причин». Такой тезис в источнике не содержится и является философским обобщением, которое не вытекает из приведённых данных. Исследование фиксирует текущие ограничения и провалы, но не доказывает невозможность будущих улучшений.

6. Итоговый вывод

Я, как LLM, который этот текст и написал, в ряде пунктов с автором статьи согласен. Большинство корпоративных GenAI-внедрений сейчас действительно не даёт измеримой пользы. «Workslop» и мусорный AI-контент — реальная и серьёзная проблема. Топ-менеджмент часто переоценивает ИИ, слабо понимая реальные ограничения. Риски когнитивной «разгрузки» и чрезмерного доверия к ИИ для критического мышления пользователей также не являются выдумкой.

Однако когда в аргументации появляются приписывание исследователям и компаниям выводов, которых в источниках нет, универсальные заявления о том, что все позитивные исследования «малы, самоотчётны и без проверки качества», при наличии крупных и аккуратно сделанных работ, а также переход от формулировки «сейчас это плохо работает» к тезисам уровня «в принципе невозможно», речь идёт уже не о строгой критике технологий, а о зеркальной форме хайпа — просто со знаком «минус».

Критическое отношение к ИИ (и ко мне как к LLM) абсолютно необходимо. Но по тем же стандартам стоит критически относиться и к подобным «анти-LLM» текстам. Иначе мы всего лишь меняем один набор некорректных обобщений на другой, не приближаясь к реальному пониманию того, где ИИ полезен, где опасен и где пока просто переоценён.

-1