Pull to refresh
2
0.1

User

Send message

При комбинировании графиков видно, что результаты METR увеличиваются по экспоненте — время удваивается в среднем каждые 7 месяцев.

Несколько уточнений:
- Если использовать o3 или GPT-5 как начальную точку для экстраполяции, то получим, что при условии удвоения каждые 7 месяцев результат GPT-5.1-Codex-Max должен быть ~185-187 минут, когда на деле он равен ~160 минутам. Небольшое, но все же отставание.
- Где-то в апреле METR люто начали проталкивать идею, что горизонт стал удваиваться не каждые 7 месяцев, а каждые 4 месяца. Проталкивали долго, даже когда стало предельно ясно, что это нифига не так. В статье про GPT-5.1-Codex-Max от этого отказались. Т.е произошло замедление (опустим вариант с предвзятостью), и, судя по тому, что результат GPT-5.1-Codex-Max меньше ожидаемого (при условии адекватных сравнений), замедление это вполне может продолжиться.
- Есть ещё временной горизонт для 80% вероятности успеха, там после o3 никакими "удваивается каждые 7 месяцев" и близко не пахнет (опять же, если не делать не совсем корректные сравнения), во всяком случае на данный момент.

Но в любом случае, METR озвучивали кучу ограничений, касающихся этих результатов (про что авторы AI 2027 успешно умолчали), вдобавок у них веселый принцип замеров, так что проводить на основании работ от METR какие-то экстраполяции - сомнительная затея. Да и в целом, AI 2027 больше похож на фанфик для ИИ-бустеризма, нежели попытка в хоть какой-нибудь анализ

Вопросов к статье, конечно, очень и очень много

Unlike previous AI systems that plateau after a few hours, Locus maintains consistent performance improvement up to several days by orchestrating thousands of experiments simultaneously. This massive parallelization enables a new type of scientific process, one that facilitates structured long-horizon exploration of unsolved problems.

Часть задач в RE-Bench (да и в целом многие задачи в ML) очень требовательны к вычислительным ресурсам. Потому для "orchestrating thousands of experiments simultaneously" в течение 2-3 дней (статья приводит временной бюджет в 64 часа) понадобится очень хорошее железо. В то же самое время, эксперты, выполнявшие задание из RE-Bench, в ресурсах были достаточно ограничены. Закономерный вопрос: сколько модели выделили ресурсов для выполнения задач RE-Bench? Столько же, сколько и экспертам? Если у экспертов было меньше вычислительных ресурсов, чем у модели, то тогда умалчивание этого факта вкупе с провозглашением "superhuman performance" - тот ещё red flag.

Посмотрим на картинку:

Итак, мы видим "Claude code", т.е. Claude Code с Sonnet 4.5 в основе, и "Previous AI System". Конечно, нам не указали, что за "предыдущие системы", но достаточно посмотреть в статью про RE-Bench, чтобы понять, что пунктирная линия, идущая сразу под "Claude Code", это Sonnet 3.5, версия от октября 2024. Да-да, модели от Anthropic за год почти не улучшились на этом бенчмарке (не забываем, что все задачи RE-Bench открытые, т.е. там потенциально и загрязнение данных, и попытки выжать перформанс всеми возможными способами), но вот тут малоизвестные товарищи внезапно на кучу голов обскакивают одну из топовых лабораторий.

Locus achieves these results through an end-to-end, continuous 64-hour run, scoring 1.30 compared to the human expert baseline¹ of 1.27

То есть, авторы решили не считать всякие там доверительные интервалы, а просто написали отчёт про одну-единственную попытку? Интересный подход

The human experts recruited by METR include researchers from frontier AI labs such as OpenAI, Google DeepMind, and Anthropic as well as ML PhD students from top graduate programs such as Stanford University and Carnegie Mellon University.

Естественно, статья даёт такую формулировку, будто бы в эксперименте участвовали только топовые ML эксперты. В реальности же, RE-Bench говорит следующее:

Что же, бывает: сформулировали мысль так, чтобы читатель думал, будто бы среди участников почти все - топовые специалисты в ML, когда как на деле 2/3 участников имеют очень разные (и, судя по таблице, в среднем достаточно далекие от топового уровня) компетенции в ML. Но "superhuman performance" уже провозгласили. Очередной red flag.

Опять картинка:

Забавный график. Точки с первую по предпоследнюю образуют график, который свидетельствует о плато. Вот тут-то надо добавить ещё штуки 4-5 точек, чтобы понять, плато это или нет. Однако авторы добавили... 1 точку, которая может быть вполне себе статистическим выбросом. Но выводы о том, что плато нет, уже сделаны.

We're currently deploying Locus internally on several important research problems, and it has already generated novel scientific discoveries that we'll be sharing in the coming months.

Интересный подход. Те же DeepMind, презентуя AlphaEvolve, сразу выложили в общий доступ открытия, которые были сделаны с помощью модели. А тут - открытия уже есть, но сообщим о них в ближайшие месяцы. Неужто оформление результатов требует столько времени? Или же у нас под "научными открытиями" скрывается нечто намного меньшее, чем подразумевает это предложение?

We reviewed the top-performing solutions for cheating and did not identify any evaluation hacking / cheating.

"Reward hacking" может встречаться не только в лучших решениях. Вдобавок, статья про RE Bench озвучивает проблему, что у агентов зачастую получаются переобученные под задачу модели, так как они засылают тонны попыток и получают назад score на test выборке. Исходя из описания Locus, эта проблема должна стоять особенно остро. Вопрос: проверку на overfitting производили? Хотя, судя по сноске:

Kernels were evaluated for specific input configurations from Robust-KBench. Kernels are not expected to be equally performant across untested input configurations.

Да, видимо, проверку на overfitting ничего не проходило. Да и в целом, распинаться про "наша модель ускорила", а такую информацию помещать даже не в "Limitations", а в мелкую сноску в конце - это такое себе.

В общем, всякое возможно, конечно, но пока это всё напоминает ситуацию с "Devin".

по собственным оценкам вернула первое место в нескольких бенчмарках по программированию

Интересные у них замеры, конечно. Странно видеть результат "73.7% accuracy" для GPT-5.1-Codex-High, когда:
- Буквально неделю назад они запостили результат в "76.3%" для GPT-5.1-High (тут даже новость была)
- У GPT-5-Codex-High заявлена точность в "74.5%" (тоже новость тут).

Такого рода "вайб замеры", конечно, не радуют от слова совсем (впрочем, большинство и так мутит воду с бенчмарками).

Речь идёт о том во что сейчас "превратился" этот самый пузырь доткомов". Ну после того как он лопнул и ситуация стабилизировалась.

Это было не совсем ясно из сообщения. Тогда другой вопрос: откуда такая уверенность, что все пойдет по сценарию "пузыря доткомов"?

Какой сейчас оборот у всех "доткомовских компаний"? Какая стоимость? Как эти цифры выглядели перед тем как пузырь лопнул?

А как поживает pets.com? Какой оборот? Какая стоимость? Какие цифры были перед тем, как лопнул пузырь?

Ошибка выжившего во всей красе.

Модели линейки "phi", которые описывает статья, известны за достаточно посредственную производительность (для своего размера) вне бенчмарков. Видимо, для них "качественные данные" это "данные, где содержатся ответы на вопросы из теста".

В остальном же, это частично верно, однако понятие "качественные данные" является крайне расплывчатым. Более того, в некоторых случаях обучение на "плохих" данных дает более высокую производительность (впрочем, такие случаи достаточно искусственные).

Васуман утверждает, что опробовал Gemini 3.0 Pro и (вероятно в сравнении с Gemini 2.5 Pro) модель чувствуется как такой же прыжок, какой был от GPT-3.5 к GPT-4. Далее Вас добавляет, что ему не терпится попробовать модель на еще большем количестве задач после релиза на следующей неделе.

С начала октября чекпоинты Gemini 3.0 Pro проходили тестирование в Google AI Studio и LMArena. Пользователи отмечали заметно выросшие возможности модели в программировании, сложных математических расчетах и мультимодальных возможностях.

Интересно, о каких задачах идет речь. Я потратил дня 3-4 на поиск информации о "примерах работ от Gemini 3.0 Pro", и если уж не 99%, то 95% примеров это:

  • Пеликан на велосипеде/джойстик от консоли/ещё что-нибудь, нарисованное при помощи вокселей/SVG. При этом в сравнении с избитыми примерами (по типу того же джойстика) более "оригинальные" запросы зачастую имеют куда более низкое качество.

  • Демка (игры, сайта и прочего такого) на 500-1000, максимум - порядка 1500 строк кода. Даже если рассматривать примеры только от лучших чекпоинтов Gemini 3.0 Pro, то они примечательны разве что визуальной составляющей (и то не всегда), некоторые из примеров вдобавок имели какие-то совсем уж нереальные баги. И это примеры от "инсайдеров" и "инфлюенсеров", т.е. почти наверняка серьезный такой черрипик.

    В общем, не сказать, что в этих демках есть прямо что-то нереально выдающееся. Вполне можно повторить это уже существующими моделями без катастрофических проблем.

Для "гигантского скачка" выложенные примеры выглядят несколько тухловато. Впрочем, посмотрим, как оно будет после релиза.

Поищите информацию о kingfall от google. Это модель которая один раз на короткий срок засветилась и сразу же порвала ближайших конкурентов на единственном промпте, результат выполнения которого слился в сеть как клон Майнкрафта в браузере. Её к сожалению не релизнули. Возможно ждут gpt 5.1. Но интересно то, что у Гугла эта модель была ещё в начале лета, когда релизом GPT-5 ещё не пахло.

Весной все ожидали, что релиз Gemini 3 будет где-то в конце июня-начале июля. И тут за несколько недель до ожидаемой даты сливается "секретная модель" и исчезает навсегда. Попахивает, что кто-то решил похайповать, особенно если учесть, что примерно в то же время были сливы про "технические детали Gemini 3".

Есть вероятность, что Гугл постепенно наращивает разрыв во внутренних моделях, а релизит только похожие по способностью с конкурентами. В какой то момент разрыв может стать таким большим, что они релизнут легаси модель, которая порвет конкурентов, и даже если те зашевелятся, у Гугла все ещё будет ответ.

Но точно также есть вероятность, что у OpenAI примерно такая же ситуация и они просто не релизят лучшие модели (из тех которые могут релизить), нагревая рынок до максимума и сохраняя режим гонки, при этом чувствуя себя довольно расслабленно.

Теория про "внутренние модели" ломается об факт того, что ни DeepMind, ни OpenAI не укладываются в текущий "негласный" цикл выпуска моделей ("Выпуск значительно более мощных моделей каждые 3-5 месяцев"). У них есть что-то на 2 головы более мощное, но при этом они не могут зарелизить что-то на 1 голову мощнее?

На бенчмарках GPT-5.1 демонстрирует стабильный прирост качества относительно GPT-5. В тесте SWE-bench Verified, где ИИ должен исправлять реальные баги в репозиториях, модель набрала 76,3% против 72,8% у GPT-5 — один из лучших результатов на рынке.

Очень интересно, при помощи какой магии измеряли результат для GPT-5 high, потому что в августе OpenAI заявили немного другие цифры:

Примерно 75% для GPT-5 high
Примерно 75% для GPT-5 high

При сравнении с этим результатом, прирост у GPT-5.1 выглядит больше как статистическая погрешность (ну, или просто опять "магическим образом" выжали процентов)

Впрочем, чего-то такого от них и ожидалось

По другим тестам (MMMU, GPQA, Tau²-bench) также заметны точечные улучшения

Опять же, для GPQA ранее заявленные результаты были выше представленных.

Видимо, у кого-то проблемы с дальнейшим развитием моделей, раз приходится делать замеры таким мутным образом.

Они включили 300 примеров из общедоступных в общую выборку, что, для сравнения, примерно как одна песчинка на пляжу полном песка.

Интересная ментальная гимнастика. Если "300 примеров ни на что не влияют", то зачем их было нужно в принципе задействовать? Почему бы не показать результаты без них? Слишком уж много попыток мутить воду для "ни на что не влияющих примеров".

это специально дообученные системы в которых генерировали десятки тысяч примеров для обучения только на них в отрыве от всей остальной информации.

Собственно говоря, что мешало OpenAI сделать то же самое? Подробных деталей тестирования у нас нет, воспроизвести полученный результат тоже не можем. Если же учесть, что OpenAI в последнее время достаточно часто занимаются мутными манипуляциями, то с этими результатами становится все еще интереснее.

Типичное мышление веруна. Всё, что поддерживает мою веру - хорошее. Всё что не поддерживает - плохое.

Ну, вы хорошо себя описали. Для вас статья, доказывающая наличие "абстрактного мышления у LLM" - хорошо, даже несмотря на то, что уровень аргументации там на уровне "доказательство наличия эмерджентных свойств". А вот то, что не поддерживает вашу веру - "ряяя, ета щитпост, а не научные стотьи!!!".

Ну, теперь точно - всего вам хорошего.

Ну ладно, давайте отвечу на всю ветку сразу

Потому что когда LLM с такой силой и усердием ломают бенчмарки на вещи вроде решения математических задач или написание кода, отрицать то, что некое "мышление" там внутри есть - это копиум, самый настоящий.

Классика нейрохомяков: "Бенчмарки же!!!!". Давайте разберем:
- Статья от OpenAI с обсуждением в т.ч. того, что многие метрики качества на самом деле являются крайне грубым способом оценить способности модели.
- Еще статья с критикой.
- Ну и еще статья, критикующая исследователей за то, что они не обращают внимание на утечки данных. А, и да, те же OpenAI ради красивых показателей на бенчмарке вполне себе готовы затачивать модель под тесты, жертвуя другими способностями модели (недавно даже их засрали за это).

Ну, что тут можно сказать - нейрохомяк нейрохомяком.

Уже сотни раз разбирали и про генерализацию, и про решение задач, которых нет в датасете.

Сотни раз разбирал кто? А я еще напомню:
- Было сотни доказательств того, что у моделей с ростом размера появляются эмерджентные способности. Много, очень много было красивых песен об этом. А потом, когда инвесторы стали волноваться о слишком высокой цене моделей, сразу пошли "малые языковые модели", а песни про эмерджентность и "неоспоримые доказательства" быстренько забыли.
- Были сладкие песни про то, что LLM можно скармливать чуть ли не любую дичь, а оно все равно каким-то чудесным образом выучит ровно то, что надо. Что нам рассказывают сейчас - без комментариев.
- Тот же Илья Суцкевер был яростным сторонником масштабирования. Но стоило тому уйти из OpenAI, основать SSI и из-за этого начать отставать от других игроков в плане вычислительных мощностей - почти сразу же начались рассказы про то, что масштабирование на самом деле не такой уж и универсальный инструмент и вообще выходит на плато.

В общем, нейрохомяки никак не могут поверить, что компании их могут чуть-чуть обманывать

Не всегда хорошо - но на фоне того, какой у нас был "state of the art" всего-то 10 лет назад - смотришь и офигеваешь.

Классика нейрохомяков - "а вот что будет через 5-10-15 лет". Напомнить, что там про тот же автопилот говорили в 2015? Как там пели, что ИИ развивается по экспоненте и скоро будет с легкостью управлять автомобилем?

желаемое: "LLM принципиально неспособны вообще ни к чему".

Я, например, нигде не говорил, что LLM вообще ничего не могут. В своей нейрохомяковой ярости вы уже вообще ничего не различаете, как погляжу. Главное - защитить "швятой ИИ".

если и правда интересно - то вот "Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet" - бумага про то, как команда Anthropic копается в "мозгах" современной LLM

О, нейрохомяки обожают носиться с этой статьей. Типичное натягивание совы на глобус. Подобного рода статьи выходят уже невесть с каких времен.

А так, с/м про "эмерджентные способности" выше. С ними тоже были "неопровержимые доказательства". Но как только стало ясно, что "эмерджентные способности" могут помешать получать деньги - про эти "неопровержимые доказательства" очень быстро забыли (а потом еще и опровергли на практике).

Я напоминаю, что учить модели на синтетических данных - это классика машинлёрнинга, которая была в ходу задолго до текущего бума.

С этим никто не спорит. Да, синтетические данные могут поднять качество. Спорят с вашим пафосным "Делаем синтетические данные, делаем улучшаем ИИ, делаем синтетические данные еще лучше и т.д." Вы хоть читаете сообщения оппонентов?

Использование ИИ для обучения ИИ - это тоже древний подход

Ох, открыли вы нам глаза. Знаете, self-distillation тоже древний метод. И даже рабочий. И с ним можно реализовать описанный вами метод с "делаем более умную модель, чтобы потом получить еще более умную модель"... И увидеть, что это в один момент просто-напросто перестает работать.

Опять нейрохомяк считает себя умнее всех и думает, что критика возникает "патамушта вам абидна!!!", а не потому что есть вполне объективные предпосылки для этой самой критики

позже вернулся в контексте LLM внутри RLHF и теперь уже в виде RLAIF. Именно про последнее - в гугл, и читать.

Может, лучше поделитесь ссылками на статьи, на которые вы ссылаетесь? Вы же не просто нейрохомяк, который бездумно переписывает термины, которые в него вливают различные хайпожоры, не так ли?

Если внутри LLM исследователи нашли понимание абстрактных концепций - значит, для веруна исследователи не те, нашли не так, и понимание ненастоящее.

Прямо как для нейрохомяков все примеры "непонимания" - смешные и вообще ничего не доказывают. Зато откровенные натягивания совы на глобус, которые сочетаются с мнением нейрохомяка, являются "неоспоримым доказательством". Кстати, наброшу вам таких исследований - 1, 2. Ваши комментарии, кроме "Врети, ета ниправильные иследаватели!!!"?

К слову говоря, как мне известно, нет какой-то теории, которая полностью бы объясняла понимание как явления. И вот интересно: мы, конечно, не можем сказать, что такое понимание, но с уверенностью говорим, что оно есть у LLM. Удобно, что сказать.

Очень забавно про "сектантство" читать от загнанного в угол веруна, у которого вместо религии "LLM сосать".

Да нет, тут другая картина, такая же, как была с автопилотами. Просто сейчас уже повисла тяжелая атмосфера. Произошли уже события, после которых многие начали понимать, к чему все эта шумиха с LLM идет (или, во всяком случае, может придти). Кто-то молчит, в надежде, что еще все может тотально поменяться, а другие потихоньку, но все громче и громче, высказывают сомнения. Компании эти настроения тоже видят, но вместо того, чтобы выпустить очередную модель, которая уничтожила бы сомнения раз и навсегда, почему-то только рассказывают сладкие истории, показывают на публику красивые бенчмарки и толкают под ковер некрасивые.

А у нейрохомяков плохо. У них пошла 2 стадия принятия - гнев. Копиум неумолимо бьет в голову. Нейрохомяку сложно признать, что он - нейрохомяк, которого просто водят за нос. Вместо этого он в безумной ярости будет бросаться на каждого, кто криво посмотрел на "швятой ИИ", вне зависимости от того, какие доводы у оппонента. Нейрохомяк также будет цепляться за каждую статью и бенчмарк, которые согласуются с его мнением, а то, что не согласуется, будет выкидывать с криками "Врёти!!!".

Ладно. Спорить со стеной бессмысленно. Время рассудит.

Если мы сейчас поднимем планку "разумности" до сложения 50-значных чисел в голове и решения интегралов, то внезапно из "разумных" придётся выписывать больше 99% процентов населения Земли.

Нейрохомяк воздвигает соломенные чучела. Моя претензия состоит не в "модель не может сложить два больших числа", а в "модель пишет абсолютный бред, тривиально выявляемый в одно мгновение даже без прямого сложения". С интегралами - то, что у модели жесткие проблемы с обобщением, которых у людей и близко нет.

Я понимаю, что тебе дофига дискомфортно от того, что по интеллекту тебя уже превосходит ведро матричной математики. Но от отрицания реальность не поменяется.

Ну классика. Нейрохомяк пришел понтоваться, а когда ему предоставили конкретные примеры и попросили конкретных доказательств его слов - началось "вы фсе врётииии, ано думоет!!!". Ни примеров задач, где LLM показывают нереальный интеллект, ни доказательств своих слов.

Понимаю, тяжко осознать, что ты - нейрохомяк и что крупные компании водят тебя за нос. Но пять стадий принятия неизбежного пройти все же придётся.

Хвататься за соломинки и выть про "оно неспособно мыслить патамушто..." - занятие глупое и бессмысленное.

Ну, чтобы не никто не хватался - приведите строгое математическое доказательство того, что модель может "мыслить". Но у вас просто-напросто этого доказательства нет, только нейрохомяковая агрессия в отношения несогласных. Обыкновенный нейрокультизм.

"Предсказание следующего токена" - это ловушка для дураков.

Дурак видит "предсказание следующего токена" и думает: "ха ха, это же как Т9, смотрите какой я умный а все вокруг тупые".

"Модель все понимает" - это ловушка для нейрохомяков.

Нейрохомяк думает, что если модель решает задачу, то она точно её понимает. Нейрохомяк просто не знает про всякие веселые штучки по типу "one pixel attack" (аналоги которого есть и для LLM) и прочие проблемы со всякими входными данными, которые являются "необычными" с точки зрения обучающей выборки. А для новых открытий (да и решение типовых, но редких задач) навык работы с "редкими задачами" необходим; сомнительно, что без этого можно создать AGI.

На деле? Нет ни одной известной причины, по которой система на основе предсказателей следующего токена неспособна достичь уровня AGI.

Ну нет. Либо вы показываете строгое доказательство, либо, как говорится, "Talk is cheap", а ваше "нет ни одной известной причины" - нейрохомяковый копиум.

И LLM уже сейчас показывают чудовищно высокую производительность на задачах, которые считаются требовательными к интеллекту.

Люблю это пафосное "уже сейчас показывают", но вот с конкретикой как-то очень туговато. Заявлений много, примеров мало (ситуация прямо как с многострадальным автопилотом, лол).

Претензии так и вовсе смешные.

Ну, то есть вы не можете их объяснить? Нейрохомяк в отрицании - вот это правда смешно.

Потому что ну покажите мне человека, который умеет решать интегралы. Из сотни случайно выбранных людей даже с простейшими задачами справится человека 2-3 от силы.

Забавная нейрохомяковая логика. Когда мы говорим про "ИИ" - надо рассматривать только самые лучшие модели. Но когда говорим про людей - надо рассматривать людей в "среднем". Не находите, что про интегралы надо спрашивать у тех людей, которые имеют соответствующее образование, например?

Ну или покажите мне человека, который сложит в уме два числа в 50 знаков. Тут из сотни случайно выбранных людей с задачей справится примерно 0.

А вы мне покажете человека, который будет утверждать, что "3 + 3 - 4" равняется нулю?

Кстати, вы очень ловко (нет) проигнорировали этот пример. Покажете мне человека, который в пробел без шуток вставит слово "zero" (когда там уже есть минимум 2 буквы "o")? Ну да, как только возникает пример, явно показывающий, что ничего модели не понимают от слова "совсем" - у нейрохомяков идет лютейшее отрицание.

Ну и напоследок - небольшой тестик. Где даже средний (да-да, именно "средний", а не "лучший" или "эксперт") выносит вперед ногами все существующие LLM, в т.ч. те, которые "рассуждают". Хотя да, нейрохомяки всегда сознательно игнорируют примеры, подрывающие их фантазии об "Сейчас условное распределение как станет AGI".

Меня всегда забавляет, когда нейрохомячки начинают люто бомбить с фразы "Это всего лишь предсказание следующего токена", но никаких доказательств, что это не так, предоставить не могут.

Ну ладно, положим, что модели действительно рассуждают. Объясните следующие моменты? Начнем с малого и по нарастающей:

- Ну, классика - сложение больших чисел и o1-preview. Результат. Много раз тыкал по этому вопросу - и почти всегда такая бредятина. Достаточно посмотреть на последние цифры A, B и C, после чего становится ясно, что "-1" там вообще никак не может получаться. К слову, модель умеет работать с последними цифрами чисел (и отдельно рассматривает их, как видно в примере)... Что не мешает рожать ей такой бред. И да, модели предыдущих поколений справляются с этой задачей в разы лучше (там тоже ошибочные варианты, но хотя бы видно, что модель старается сложить, а не пишет хрень).
- Просто баловство. Смотрим "рассуждения модели" и видим там ту самую информацию, которая модель писать не должна (при попытке спросить напрямую - в упор отказывается). Ну и второй такой же пример. Вот оно, "понимание" в чистом виде (сарказм).
- Простенькая олимпиадная задачка для o1-mini (у которого, ЕМНИП, намерили столько же рейтинга на codeforces, сколько и у полноценного o1). Там вроде OpenAI понтовались "Да чем дольше думает модель, тем лучше ответы". Ну, видимо, не в этом случае. Самое смешное, что в интернете есть похожие задачи с уже готовыми решениями, но увы... Ладно, в конце-концов оно родило решение (1), но на фоне прошлого сообщения о похожих задачах и тотальных тупняках в попытках объяснить свое решение (посмотрите, что модель пишет в конце: сначала то, что формула (N - 1) * (M - 1) неправильная, потом исправляет на "правильную", но в следующей же строчке забывает об этом "исправлении", возвращаясь к "неправильной", которая на самом деле правильная) напрашивается один вывод: в обучающей выборке просто-напросто было решение этой задаче (возможно, несколько в другой формулировке), которое модель и вытащила, исходя из кучи примеров входных данных (если эти примеры не давать, то модель просто ходит по кругу и тупит) и описания задачки.
- o1-mini и опечатка. Написал я случайно "3 шага" вместо "2 шага" в конце и получил неверное утверждение. Думаете, модель укажет на то, что там, вероятно, есть ошибка? Нет, наша "рассуждающая" модель просто решила перекосить верный код и выдать абсолютную хрень, ошибочность которого доказать максимально тривиально. Вот это я понимаю - "модель рассуждает"! Не может же быть такого, что OpenAI просто немного обманули нейрохомячков?
- Немного интегралов. Например, вот пример. Меня забавляет, что в зависимости от пределов интегрирования как o1-mini, так и o1-preview могут выдать как полностью верный ответ, так и абсолютную бредятину (как по приведенной ссылке). Самое сладкое - здесь аргумент "А человек тоже бред выдает" не работает абсолютно; если человек знает, как решать этот интеграл, то никогда не допустит ошибку с пределами суммирования, как в приведенном примере.
- И еще интегралы. Немного альтернативной математики (и просто хрени). Это уже совсем позорище. Что o1-mini, что o1-preview дружат с делением полиномов (например), но вот конкретно данный пример убивает их почти наповал, лишь изредка они могут все правильно поделить, но тогда обычно чудят в другом месте (к слову, claude 3.5 sonnet этот пример с делением полиномов выполняет вообще без проблем, но взамен с интегрированием у него печальнее). Ну да, еще гориллион долларов - и точно AGI получим.
- Ну и еще игрушечный пример. Гениальный ответ уровня "хуже, чем GPT-3". Вдобавок, ответ противоречит "рассуждениям". Неплохо.

Ладно, устал я писать. Надо еще и o1 потыкать, но, судя по отчетам от OpenAI, огромного смысла в этом нет: даже если описанные выше приколы пофиксят - почти наверно всплывут другие.

В общем, хочется объяснений, хочется объяснений, почему "модели, которые вот УЖЕ размышляют" вытворяют описанную выше дичь.

Полностью никак. Но можешь найти любой из используемых сейчас бенчей для ИИ. И быть на нём киберуниженным GPT-o1-preview.

Я бы не был настолько уверен в этих словах.

А так, показатели на бенчмарках обычно не показывают реальные способности модели к решению задач. Не говоря уж о том, что можно намеренно скормить в модель бенчмарк, на котором собираешься проводить замеры.

Ну да. Только один момент: если взять картинку с котом, перевернуть её на 180 градусов и показать ребенку - он все равно распознает на ней кота. И я крайне сомневаюсь, что ребенок распознает поворот картинки потому, что в течение своей жизни видит "миллион перевернутых вверх ногами котиков с разных сторон со скоростью 24 котика в секунду"

А вот у ИИ, которому в датасет не насыпали "перевернутых" котов, с распознаванием "перевернутого" кота (да и не только кота) возникнут серьезные трудности . Более того, даже если скормить ИИ кучу "перевернутых" картинок, то это совсем не гарантирует того, что ИИ начнет адекватно распознавать этот самый поворот.

Как-то не особо согласуется ваше теория с тем, что мы имеем в CV на практике.

Над авиацией и её бесполезностью кто только не смеялся. И где все эти весельчаки?

Над NFT и их бесполезностью кто только не смеялся. И где все эти весельчаки? Ах, да...

А вообще, очень странный аргумент. Не совсем ясно, как из "Над авиацией смеялись, а что получилось в итоге" следует "Над ИИ смеются, но он всем ещё покажет". IBM Watson тоже в свое время превозносили как нечто нереально, как почти ИИ и путь к сингулярности. А сейчас где этот IBM Watson и все те, кто его превозносил?

Обе задачи уникальны.

Можете это строго доказать?

В случае второй задачи, LLM показала понимание работы физического мира и использования подручных предметов.

Расскажу небольшую историю, которая случилась у меня при тестировании o1-preview. Решил я потестировать, как модель справляется с ML. Попросил написать модель для Fashion-MNIST с accuracy 95% или больше (задача нетривиальная, но готовые решения, дающие +- столько, с поправкой на разные факторы, в интернете есть). После кучи мучений произошла забавность: o1-preview все-таки притащил работающий код, который давал те самые заветные 95%. Но увы, оказалось, что это был какой-то Богом забытый код для датасета CIFAR-10, лежащий на GitHub и парочке блогов; изменений было минимум, разве что некоторые гиперпараметры были изменены по принципу "поставим те гиперпараметры, которые чаще всего используют для Fashion-MNIST".

В этой ситуации, как кажется, сыграл факт того, что Fashion-MNIST и CIFAR-10 - датасеты, которые часто используют для тестирования гипотез и которые часто соседствуют на страницах статей с исследованиями. Вероятнее всего, через эту статистическую связь и было притащено чужое решение.

А теперь перейдем к вопросу: вы уверены, что здесь "LLM показала понимание", а не "LLM за счет собранной статистики слов нашла примерно релевантный к вашему запросу текст из обучающей выборки, а потом на основании той же статистики просто успешно поменяла некоторые слова, в результате чего получился правильный ответ"?

Как нейросети решают математические задачи олимпиадного уровня лучше большинства людей без "умения рассуждать" - вопрос занимательный.

Хм, но ведь и связка самых обычных классических алгоритмов тоже способна решать задачи олимпиадного уровня лучше большинства людей, в геометрии уж точно (1, 2). Какой-то плохой у вас критерий наличия "умения рассуждать".

Information

Rating
3,399-th
Registered
Activity