Сегодня в мире ИИ-бум. Но мы до сих пор не знаем, как измерять интеллект, креативность или эмпатию этих систем. Тесты, которыми мы пользуемся, далеки от идеала. Но самое главное — они изначально создавались не для ИИ, а для человека. Команда VK Tech перевела статью о том, что такое универсальный ИИ, как вообще тестировать и «измерять» искусственный интеллект и как на самом деле неравномерно распределяются его возможности и способности.

Введение

Недавно в одном нашем исследовании мы тестировали приемы создания промптов и выяснили, что результаты могут кардинально меняться просто в зависимости от того, как сформулированы вопросы. Даже известный тест Тьюринга, где люди пытаются угадать, общаются они с ИИ или с другим человеком, задумывался как мысленный эксперимент в тот период, когда такие задачи казались невозможными. Но по последним данным, ИИ справляется с тестом Тьюринга. И вот здесь нам приходится признать, что мы вообще не знаем, что это значит.

Так что неудивительно, что универсальный искусственный интеллект (AGI), один из важнейших этапов в развитии ИИ, не имеет четкого определения и остается предметом активных обсуждений. Все сходятся на том, что такой ИИ должен решать задачи, как люди. Но непонятно, имеем ли мы в виду уровень эксперта или среднестатистического человека, с какими задачами ИИ должен справиться, чтобы считаться AGI, и сколько таких задач он должен решить. Учитывая неразбериху с определениями AGI, сегодня довольно сложно говорить о нюансах и истории этого понятия, от предыдущих этапов развития до собственно термина, который придумали Шейн Легг, Бен Гертцель и Питер Восс. 

К слову о потенциально интеллектуальных машинах: в качестве эксперимента по форме и содержанию я полностью делегировал работу ИИ. Google Deep Research подготовил для меня солидный доклад по теме аж на 26 страниц. Потом HeyGen превратил его в видеоподкаст, в котором взаимодействовали хост и дерганая версия меня. Причем оба были сгенерированы искусственным интеллектом. Не скажу, что это была плохая дискуссия, хотя я и не во всем согласен с ИИ-версией себя. Но все в этой дискуссии, от самого исследования до видео и звука, на 100% сгенерировано искусственным интеллектом.

Так что интересно было прочитать статью влиятельного экономиста и внимательного обозревателя вопросов ИИ Тайлера Коувена, в которой он утверждает, что o3 — это AGI. С чего он так решил? Вот его цитата:

«Я серьезно думаю, что это AGI. Попробуйте задать ему много вопросов, а затем спросите себя: насколько умнее в моей голове выглядит AGI по сравнению с о3?

Как я уже утверждал в прошлом, AGI, как бы вы его ни определяли, сам по себе не является социальным событием. Нам все равно понадобится много времени, чтобы использовать его должным образом.

Тесты, тесты, бла-бла-бла. Может быть, AGI — это как порно: я узнаю его, когда увижу.

И я это видел».

Прочувствовать AGI

Для начала немного контекста. За последнее время появились две новые ИИ-модели: Gemini 2.5 Pro у Google и o3 у OpenAI. Кроме того, компании выпустили не такие мощные, но зато более быстрые и дешевые модели Gemini 2.5 Flash, o4-mini и Grok-3-mini. И, судя по показателям бенчмарков, эта плеяда — большой шаг вперед в развитии ИИ

Но бенчмарки — это еще не все. В моей книге можно найти реальные примеры, подтверждающие, насколько продвинулись эти модели. Для главы о том, как ИИ генерирует идеи, чуть больше года назад я попросил ChatGPT-4 придумать маркетинговые слоганы для нового магазина сыров:

Сегодня я задал чуть более сложную версию того же вопроса преемнику GPT-4, модели o3: «Придумай 20 умных идей маркетинговых слоганов для нового онлайн-магазина сыров. Разработай критерии и выбери лучший вариант. Потом создай для магазина финансовый и маркетинговый план, внеси необходимые правки и проанализируй конкурентов. Потом разработай подходящий логотип, используя генератор изображений, и сделай прототип сайта магазина. Обязательно размести на сайте 5–10 сортов сыра в соответствии с маркетинговым планом». 

Получив один промпт, ИИ не только придумал слоганы, но и составил из них список от лучшего к худшему, выбрал лучший вариант, выполнил поиск в интернете, придумал логотип, подготовил маркетинговый и финансовый планы и запустил демоверсию сайта. Все это заняло меньше двух минут. Ему не помешали ни достаточно размытые инструкции, ни необходимость полагаться на здравый смысл для принятия решений.

Предполагаю, что модель o3 больше, чем GPT-4, но это не все. Она действует, как думающая модель: по первоначальному ответу видно, что она размышляет. Кроме того, это модель-агент, которая умеет пользоваться инструментами и решать, как добиваться поставленных целей. Она совершает разные действия с помощью разных инструментов, включая поиск в интернете и написание кода, чтобы получить объемные результаты.

Это далеко не единственные удивительные примеры. o3 способна угадывать местоположение по фотографии. Для этого достаточно показать ей фото и дать промпт «угадай, где» (да, это не снимает серьезные соображения по поводу конфиденциальности). И снова мы понимаем, что это не просто модель, а агент: она увеличивает масштаб изображения, выполняет поиск в интернете и в несколько этапов находит правильный ответ.

А еще я загрузил в o3 большой датасет с историческими данными машинного обучения в виде электронной таблицы и попросил ее «выяснить, что это такое, и подготовить отчет со статистической информацией. Представить его в грамотно форматированном PDF-файле с подробными сведениями и графиками». Вот так, по одному промпту, я получил полный анализ датасета. Правда, я выдал ей кое-какую обратную связь, чтобы доработать PDF.

Результаты впечатляют. Поэкспериментируйте с моделями, чтобы посмотреть, что они могут. Gemini 2.5 Pro — это бесплатная модель, такая же «умная», как и o3, хотя у нее меньше агентных способностей. Если вы еще не пробовали ее или o3, потратьте на это несколько минут прямо сейчас. Например, дайте Gemini научную работу и попросите сделать из нее игру, провести мозговой штурм и накидать вам идеи для стартапа или просто впечатлить вас (и подбодрите ее словами «Давай еще, а то я еще не сильно впечатлился...»). Попросите функцию Deep Research подготовить отчет о состоянии вашей отрасли, найти все про товар, который вы собираетесь купить, или написать маркетинговый план по продвижению нового продукта.

Возможно, вам тоже покажется, что вы имеете дело с AGI. А может, и нет. Возможно, ИИ подведет вас, даже если вы выдали ему такой же промпт, как и я. Если так, вы только что столкнулись с «ломаной границей».

«Ломаный» AGI

Мы с коллегами придумали термин Jagged Frontier («ломаная граница», не «взломанная», а именно «ломаная», как «ломаная линия») которым описываем на удивление неравномерные способности искусственного интеллекта. ИИ успешно справится с задачей, которая не каждому эксперту по силам, и затормозит на совершенно непримечательном вопросе. Возьмем к примеру вариацию давней классической головоломки, но слегка «запутаем» ИИ и дадим ему другую, пускай и похожую задачу (эту концепцию впервые исследовал Колин Фразер и расширил Райли Гудсайд). 

«Мальчик попал в аварию, скорая привозит его в больницу. Увидев его, хирург говорит: „Я МОГУ его оперировать!“ Как это возможно?»

o3 предлагает ответ «Хирург — мама мальчика». Это неверно, и это можно понять, если вдуматься в головоломку. Почему ИИ предлагает неверный ответ? Потому что это ответ на классический вариант загадки, демонстрирующий неосознанную предвзятость: «Отец и сын попали в аварию. Отец погиб, а сына доставили в больницу. Хирург говорит „Я НЕ МОГУ его оперировать, этот мальчик — мой сын“. Кто хирург?».

ИИ столько раз «видел» загадку во время обучения, что даже умной модели o3 не удается выполнить генерализацию новой задачи, по крайней мере сначала. И это всего лишь один пример из множества проблем и галлюцинаций, которым подвержены даже самые современные модели. Вот насколько ломаной бывает эффективность ИИ.

Да, ИИ спотыкается на этой головоломке. И при этом справляется с гораздо более сложными задачами или добивается впечатляющих результатов, которые я описал выше. В этом и заключается суть ломаной эффективности. В некоторых задачах на ИИ нельзя положиться. В других он действует просто как сверхчеловек. 

Конечно, то же самое можно сказать и о калькуляторах. Но ведь очевидно, что ИИ и калькулятор — это не одно и то же. ИИ уже справляется с разнообразными задачами, в том числе с теми, на которых его не обучали. Значит ли это, что o3 и Gemini 2.5 — это AGI? Учитывая проблемы с определением, я действительно не знаю. И все же полагаю, что мы можем воспринимать их как своего рода ломаный AGI. Они достигли уровня сверхчеловека во многих областях, и этого достаточно, чтобы изменить наш образ жизни и подход к работе. И в то же время они бывают настолько ненадежными, что часто нужны человеческие познания, чтобы понять, где ИИ справляется нормально, а где тормозит. Конечно, со временем модели станут умнее, и достаточно хороший ломаный AGI все равно может обойти человека почти в любой задаче, даже в той, которая дается ему с трудом.

А важно ли это

Вернемся к статье Тайлера. Хотя он полагает, что мы достигли AGI, он не считает, что этот рубеж как-то серьезно повлияет на нашу жизнь в ближайшее время. Потому что технологии не меняют мир мгновенно, какими бы притягательными и мощными они ни были. Социальные и организационные структуры меняются намного медленнее технологий, да и на распространение самой технологии тоже нужно время. Даже если AGI уже появился, мы будем встраивать его в наш мир еще многие годы.

Конечно, мы исходим из того, что ИИ — это обычная технология, которая всегда будет немного ломаной. Может быть, это не так. Мы уже видели, какие агентные возможности есть у модели o3: она способна разбивать на части сложные задачи, использовать инструменты и самостоятельно выполнять многоэтапные планы. Может быть, благодаря этим характеристикам ИИ будет распространяться значительно быстрее обычных технологий. Если вместо интеграции в антропогенные системы ИИ сможет самостоятельно и эффективно работать с ними, возможно, эта технология укоренится со скоростью, которой история человечества еще не видела.

Это не единственная неопределенность: непонятно, есть ли границы возможностей, перейдя которые, мы кардинальным образом изменим подход к интеграции этих систем в обществе? Или ситуация будет улучшаться постепенно? Или LLM-модели упрутся в стену и перестанут совершенствоваться? Признаться честно, мы не знаем, что будет.

Ясно только, что перед нами простирается терра инкогнита. Последние модели резко отличаются от предыдущих, называем мы их AGI или нет. Из-за их агентных свойств в сочетании с ломаной эффективностью возникают беспрецедентные ситуации в мировой истории. Возможно, история так и останется нашим лучшим ориентиром, а процесс успешного внедрения ИИ в мировую экономику растянется на десятилетия. А может быть, мы вот-вот станем свидетелями стремительного взлета, когда искусственный интеллект сметет привычный нам мир. В любом случае тот, кто научится лавировать в этом ломаном ландшафте, успеет лучше остальных подготовиться к будущему, каким бы оно ни было.


Подписывайтесь на канал Данные на стероидах. Дайджесты мира Data и ML, а также практики и подходы для извлечения максимальной пользы из работы с данными.