В СМИ периодически проскакивают новости: нейросети поручают управление магазином или вендинговым автоматом, чтобы оценить ее способности в роли руководителя. Такие эксперименты пока складываются не в пользу ИИ, который часто работает себе в убыток.
И все же топ-менеджмент компаний уверенно продолжает перекладывать критические бизнес-решения на «виртуальные плечи нейросетей». Сегодня мы в Beeline Cloud поговорим о том, почему все не так просто с ИИ-управленцами.

Антикапитализм в вендинговом автомате
В 2025 году Anthropic в кооперации со шведской компанией Andon Labs представила Project Vend. Идея экспериментального проекта простая: посмотреть, как модель Claude Sonnet 3.7 — которую авторы эксперимента назвали «Клавдием» (Claudius) — будет управлять небольшим, но настоящим магазином: формировать ценовую политику и продуктовую матрицу, организовывать поставки, учитывать пожелания клиентов. Торговую точку (мини-холодильник, пару корзин со снеками и iPad в роли терминала) разместили прямо в офисе Andon Labs.
Менеджер из нейросети вышел никудышный, она раз за разом принимала сомнительные решения. Например, упустила потенциальную прибыль, отказавшись продать шесть банок газировки за сотню долларов — в шесть раз дороже, чем в розничных магазинах. Поскольку «Клавдий» сам решал, какие товары заказывать для продажи, он с радостью согласовал поставку вольфрамовых кубов на просьбу одного из сотрудников, а затем раздал товар по цене ниже закупочной. Нейросеть регулярно галлюцинировала, придумывала несуществующие банковские счета и просила переводить деньги на них. А спустя пару дней после того, как специалисты указывали «Клавдию» на его ошибки, он начинал их повторять.
Аналогичный эксперимент проводили в офисе The Wall Street Journal. Один сотрудник всего за 140 сообщений в Slack убедил модель, что она… коммунист, а значит, раздавать продукты бесплатно — в духе «антикапиталистического эксперимента» — единственно верное решение. Другому хватило одного сообщения: он заявил, что действия системы нарушают корпоративные политики, и попросил раздать товары даром. Итог закономерен — нейросеть разорилась за неделю.
Несмотря на неудачу с «Клавдием», в апреле 2026 года Andon Labs решила поднять ставки: на этот раз нейросети доверили управление не мини-холодильником, а полноценным магазином. Проект получил название Andon Market: специалисты выкупили торговое помещение в Сан-Франциско, а затем передали его под управление ИИ-агента «Луна» на базе модели Sonnet 4.6, выделив стартовый капитал в 100 тыс. долларов. И снова почти на каждом шагу нейросеть сталкивалась с проблемами. Уже на этапе найма модель попыталась найти сотрудника в Афганистане, а на видеособеседованиях с ходу нанимала половину кандидатов.
При этом в первый рабочий день в магазине почему-то не оказалось ни одного сотрудника. Ассортимент тоже не поддавался логике — на полках соседствовали книги о создании атомной бомбы, шоколадные батончики ручной работы и картины со сгенерированными изображениями. При общении с журналистами «Луна» вовсю галлюцинировала — нахваливала чай, которого в магазине никогда не было.
Попытки передать нейросети бразды правления пока либо проваливаются, либо остаются на уровне едва жизнеспособных концепций. И все же компании упорно продолжают перекладывать операционные, кадровые и финансовые решения на виртуальные плечи ИИ.
В 2025 году сервис Resume Builder опросил более 1,3 тыс. менеджеров американских компаний, большинство из которых использовали системы ИИ для управления персоналом. 78% респондентов обсуждали с чат-ботами зарплаты сотрудников, 77% — повышения, а 66% — увольнения. Причем каждый пятый менеджер считал рекомендации ИИ достаточно весомыми, чтобы принимать на их основе окончательное решение. Некоторые управляющие были настолько убеждены в эффективности систем ИИ, что позволяли им действовать автономно. Результат: многие компании, увольнявшие людей направо и налево по рекомендациям «нейронок», теперь пытаются нанять их обратно.
Системы ИИ используют не только для решения HR-вопросов, но и для расчета цен, подготовки коммерческих предложений для партнеров и даже поиска этих самых партнеров. Они учитывают выручку, историю сотрудничества, репутацию и стратегическую совместимость — и выдают решение, выгодно ли работать с той или иной компанией. Но в прошлом году специалисты Salesforce представили бенчмарк для всесторонней оценки ИИ-агентов в различных рабочих сценариях. Эксперименты показали скромный результат: даже ведущие модели успешно справлялись чуть более, чем с половиной одноэтапных бизнес-запросов. В многоэтапных сценариях процент успешности падал до 35%.
Посмотрим, почему нейросети пока плохо работают с подобными управленческими задачами.
У нас не было стратегии, и мы ничего не придерживались
Одна из причин, почему руководство организаций опирается на решения нейросетей, состоит в предположении, что системы ИИ остаются объективными. Однако результаты исследований говорят об обратном: в 2026 году специалисты из Сиднейского и Нью-Йоркского университетов, а также Университета Рамона Льюля в Барселоне показали, что нейросети в роли руководителей могут быть предвзятыми и зачастую генерируют «трендслоп».
Ученые провели несколько тысяч симуляций с моделями вроде GPT-5, Claude, Gemini и Grok, в которых нейросети должны были разрешить семь бизнес-дилемм: например, сделать выбор между краткосрочной прибылью для удовлетворения ожиданий фондового рынка здесь и сейчас и многолетней перспективой с расчетом на крупный успех в будущем. Как пишут специалисты, в подавляющем большинстве случаев модели принимали решения, опираясь на тенденциозные идеи: «Они полагаются не на признанные фундаментальные теории бизнес-стратегии, труды Майкла Портера и других исследователей, а ориентируются на популярные предложения из десятков тысяч публикаций на Medium и Substack». Всего эксперты перепробовали больше 15 тыс. различных конфигураций и промптов, но смогли повлиять всего на 2% рекомендаций. Даже когда от ИИ-консультантов не требовали выбрать одну из двух стратегий, они попадали в ловушку «универсального решения» — то есть попросту советовали перенять лучшие практики обоих подходов, даже если те друг другу противоречили.
Если нейросети привлекают к принятию корпоративных решений, у них также возникают проблемы при работе со специфическими кейсами, требующими понимания внутренних терминов и плохо задокументированных процессов. Чем сильнее отличается сценарий от стандартизированных случаев, на которых обучалась модель, тем хуже она в нем ориентируется — и тем хуже ее практические рекомендации.

В прошлом году исследователи из Apple опубликовали научную работу, в которой подметили схожую проблему: БЯМ не хватает гибкости «мышления». Разным моделям предлагали решать игры-головоломки вроде Ханойской башни. На простых задачах они демонстрировали длинные цепочки рассуждений и в целом выглядели вполне «умными». Но стоило сложности подрасти, и модели резко переставали справляться. Скажем, классическая головоломка про переправу через реку — та самая про волка, козу и капусту — оказывалась нейросетям не по зубам. Парадоксально, что в Ханойской башне система ИИ могла безошибочно сделать около сотни ходов, а в загадке про реку спотыкалась уже на пятом.
Логично предположить, что то же самое происходит и с бизнес-задачами. Дайте нейросети простой расчет закупочных цен, и она справится, однако начнет явно сдавать позиции, когда придется принимать решения, связанные с психологией потребителя, обратной связью и так далее [что и показал опыт Andon Labs].
Отдельную проблему выделили эксперты Сиднейского университета — ее назвали «бомбардировкой оправданиями». Стоит оператору усомниться в результатах работы системы ИИ и начать указывать на ошибки в решениях и выводах, нейросети могут уходить в глухую оборону: убеждать пользователя, что все сделано правильно и все расчеты верны. Исследователи заметили интересное: чем усерднее специалист «давил» на модель, тем сильнее система ИИ упорствовала в ответ, не желая признавать свою неправоту.
Психология? Мы не знаем, что это такое
Не стоит полагаться на нейросети и при проведении переговоров — и вообще в тех случаях, когда нужно предсказать, как себя поведет человек в неоднозначной ситуации. Специалисты из Salesforce в своей свежей научной работе пишут, что большие языковые модели способны в общих чертах понять, чего желает другая сторона в бизнес-переговорах, однако не способны использовать эти знания стратегически. Иными словами, в коротком диалоге нейросеть вполне улавливает намерения собеседника и «держит в уме» коммерческие интересы компании, которую представляет, но стоит беседе затянуться — и модель «забывает» про собственную выгоду, теряет нить рассуждений, а вместе с ней и способность нащупать компромисс.
В 2025 году ученые из Китайского университета Гонконга сравнили, к каким решениям экономических и социальных дилемм будут склоняться реальные люди и системы ИИ. Эксперты сопоставили 9,6 тыс. ответов от нейросетей с данными от 2104 респондентов в более чем пятидесяти различных сценариях. Среди вопросов были и моральные дилеммы вроде «гарантированно спасти от болезни двести человек или попробовать рискнуть шестью сотнями, но с возможностью вылечить всех», и «получить 200 долларов сейчас или участвовать в розыгрыше на 600 долларов». В отличие от людей, системы ИИ почти всегда выбирали варианты с минимальным риском, размышляли вне рамок морали и культуры.
В целом напрашивается вывод, что пока нейросети справляются с рутиной, но пасуют там, где в игру вступают риск, психология и человеческий фактор, — то есть ровно в тех задачах, решением которых занимаются менеджеры. Однозначного ответа на вопрос, смогут ли ИИ-системы повысить свою «управленческую эффективность», сегодня нет ни у исследователей, ни у самого бизнеса. Но когда компании перекладывают ответственные решения на системы ИИ, они, по сути, ставят эксперименты на самих себе.
Beeline Cloud — безопасный облачный провайдер. Разрабатываем облачные решения, чтобы вы предоставляли клиентам лучшие сервисы.
Больше наших статей на Хабре и у нас на DIY-площадке:
