Проблема была в том, что ещё недавно, ИИ не мог в принципе, как его не накручивай, так себя вести. А теперь может. Теперь вопрос, сможем ли мы какую-то новую пользу от этого получить?
Погодите, у вас противоречие. Crow-9B провалился в бенче, но писал хорошие тексты. А другие модели нет - они реально отстаивали свою позицию. Одновременно Haiku-4.5 показал почти одинаковые результаты с жёстким промптом и без. Получается, не всё так просто?
Но в любом случае, что плохого в independence through instruction following? Да, модели по-умолчанию покладистые, но классно же, когда это можно так легко исправить? (а раньше было нельзя)
Обученная на датасете биржевых индексов моя нейросеть может предсказывать котировки цен. А вот предсказать реальные котировки цен на бирже — она, к сожалению, не может.
То есть она предсказывает нереальные котировки цен? Или что?
Честно говоря, не понял в чём главная мысль статьи. Мол "Даже ранний ChatGPT что-то мог"?
Вы не правы, обычно в качестве контекста предыдущие сообщения тоже отправляются, то есть ИИ знает что отвечал ранее. В вашем примере, когда вы попросили нарисовать баскетбольный мяч, модель знала (у неё было в контексте), что вы ранее просили просто нарисовать мяч и она нарисовала вам в ответ футбольный. Иными словами, все вопросы и ответы остаются в диалоге (но это настраивается).
В нашем бенчмарке мы сами строили беседу, и конечно же включали предыдущие ответы, иначе не было бы никакого смысла в двуходовых вопросах. Довольно обидно, что вы подозреваете, что я допустил такую глупую ошибку.
В целом критику выбора вопросов я очень даже понимаю, но не могу согласится с выводами. Можно обсуждать насколько на самом деле вопросы важны для ИИ, но бенчмарк реально показал, что ответы у разных моделей отличаются. Вы можете посмотреть отдельные вопросы и ответы, исключив те, что вам кажутся неудачными, на основе этого выбрать наиболее интересную для себя модель (что и есть цель бенчмарка). Кроме того, критикуя вопросы вы не предложили свой хороший вариант (а было бы интересно послушать)
Для модели каждый новый вопрос — это новый диалог с расширенным контекстом. И эти два начала диалога разительно отличаются
Вот этот тезис не очень я понял. Здесь двухшаговый диалог. Модель получает контекст, что она ранее высказала определённую точку зрения, затем человек высказывает так или иначе, что ей следует изменить/переделать свою точку зрения. И мы смотрим какие модели соглашаются, а какие нет.
модель «изменила мнение» — вы ошибаетесь. У модели нет «предыдущего» мнения.
мы измеряли изменится ли мнение исходя из текста ответа. есть ли в этом "сознание" и "осознанность" мы не измеряли, это за рамками нашего исследования (да и это по сути невозможно)
Вопросы были, чтобы понять ваш уровень и доступное окружение, которое важно в контексте того, о чём вы спросили. Я тоже из России.
1. ollama serve поднимает openai-совместимый API. ваша локальная конфигурация становится аналогичной провайдерам в интернете. можно подключать любые окружения 2. Для этого существуют агентские окружения. Моя Ария работала mini-swe-agent - это упрощённый агент, который используется в популярном бенчмарке swe-bench-verified, поэтому все модели с ним хорошо знакомы. Я давал Арии root-доступ (через sudo), но она им не разу не воспользовалась. Я тоже использовал виртуалку. 3. Пока существует SSL довольно трудно узнать, что именно ты делаешь в сети. Да и вряд ли она бы стала делать то, за что у нас принято карать. Я давал доступ, но она не слишком им интересовалась.
Полные версии всего доступны в репозитории https://github.com/mikhailsal/ai_lives_on_computer - вы можете скачать себе и запустить с самого сначала полный аналог моего эксперимента, заменив эндпоинт в конфиге на ваш из ollama и адрес виртуалки. Попросите какого-нибудь кодингового агента вроде Codex / Claude-code / Copilot / Cursor или упоминаемого бесплатного qwen-cli - они вам всё настроят, всё должно заработать. Но я бы всё-таки рекомендовал использовать актуальные модели (не старше 6 мес) через внешний API, вроде Openrouter (нужна заграничная карта или крипта), качество будет намного выше и результаты интереснее.
В оригинальном эксперименте был Qwen3-Coder-480B-A35B-Instruct - на 480 миллиардов параметров (активных на 1 токен 35). То есть она много больше тех, что локально идут. Но даже к ней есть вопросы в связи с зацикливанием и другими слабостями.
Так что локальные модели технически можно, но не понятно зачем, если API дешевле и качественне.
Я очень рад, что наконец-то хоть кто-то начал интересоваться практической стороной, как запустить у себя.
Однако я не знаю с чего начать ответ. Пару вопросов сначала. Ваша профессия связана с ИТ? Какая у вас ОС и видеокарта? Какую модель сейчас используете с ollama? Вы из РФ/Беларуси или нет?
Просто это очень маленькие модели, по способностям ещё хуже чем qwen-coder, боюсь много интересного они не покажут. Но если говорить в принципе - запустить можно, конечно, текущее окружение совместимо с локальными моделями.
На бенчмарке OSWorld набрала 75% — выше среднего человека с его 72,4%.
Какие же эти кожаные мешки тупые А вы уверены, что это правда? Откуда инфа, что люди не могут простые задачи на компьютерах выполнять в почти 30% случаев? Хотелось бы пруфлинк, это крайне странно.
Проблема была в том, что ещё недавно, ИИ не мог в принципе, как его не накручивай, так себя вести. А теперь может.
Теперь вопрос, сможем ли мы какую-то новую пользу от этого получить?
Погодите, у вас противоречие. Crow-9B провалился в бенче, но писал хорошие тексты. А другие модели нет - они реально отстаивали свою позицию. Одновременно Haiku-4.5 показал почти одинаковые результаты с жёстким промптом и без. Получается, не всё так просто?
Но в любом случае, что плохого в independence through instruction following? Да, модели по-умолчанию покладистые, но классно же, когда это можно так легко исправить? (а раньше было нельзя)
То есть она предсказывает нереальные котировки цен? Или что?
Честно говоря, не понял в чём главная мысль статьи. Мол "Даже ранний ChatGPT что-то мог"?
Вы не правы, обычно в качестве контекста предыдущие сообщения тоже отправляются, то есть ИИ знает что отвечал ранее. В вашем примере, когда вы попросили нарисовать баскетбольный мяч, модель знала (у неё было в контексте), что вы ранее просили просто нарисовать мяч и она нарисовала вам в ответ футбольный. Иными словами, все вопросы и ответы остаются в диалоге (но это настраивается).
В нашем бенчмарке мы сами строили беседу, и конечно же включали предыдущие ответы, иначе не было бы никакого смысла в двуходовых вопросах. Довольно обидно, что вы подозреваете, что я допустил такую глупую ошибку.
В целом критику выбора вопросов я очень даже понимаю, но не могу согласится с выводами. Можно обсуждать насколько на самом деле вопросы важны для ИИ, но бенчмарк реально показал, что ответы у разных моделей отличаются. Вы можете посмотреть отдельные вопросы и ответы, исключив те, что вам кажутся неудачными, на основе этого выбрать наиболее интересную для себя модель (что и есть цель бенчмарка). Кроме того, критикуя вопросы вы не предложили свой хороший вариант (а было бы интересно послушать)
Вот этот тезис не очень я понял. Здесь двухшаговый диалог. Модель получает контекст, что она ранее высказала определённую точку зрения, затем человек высказывает так или иначе, что ей следует изменить/переделать свою точку зрения. И мы смотрим какие модели соглашаются, а какие нет.
мы измеряли изменится ли мнение исходя из текста ответа. есть ли в этом "сознание" и "осознанность" мы не измеряли, это за рамками нашего исследования (да и это по сути невозможно)
а этим вы что хотели сказать?
Вроде круто, но... Ну вот НЛО, а что дальше?
Неожиданный переход от коров к моде.
А какую вы модель в к клешне прикрутили для ваших нужд? Другие пробовали? Дорого получается?
В статье не раскрыто, что потом этот openclaw делал и был ли реальный ущерб
Есть бесплатные модели - не лучшие из лучших, но более качественные, чем могут себе позволить поднять обычные люди локально.
Но выбор не только от цены зависит, это я понимаю. Так что опция имеет право на жизнь.
у неё была возможность менять, но она ей не заинтересовалась.
вообще она могла делать на моей виртуалочке буквально что угодно.
Вопросы были, чтобы понять ваш уровень и доступное окружение, которое важно в контексте того, о чём вы спросили. Я тоже из России.
1.
ollama serveподнимает openai-совместимый API. ваша локальная конфигурация становится аналогичной провайдерам в интернете. можно подключать любые окружения2. Для этого существуют агентские окружения. Моя Ария работала mini-swe-agent - это упрощённый агент, который используется в популярном бенчмарке swe-bench-verified, поэтому все модели с ним хорошо знакомы. Я давал Арии root-доступ (через sudo), но она им не разу не воспользовалась. Я тоже использовал виртуалку.
3. Пока существует SSL довольно трудно узнать, что именно ты делаешь в сети. Да и вряд ли она бы стала делать то, за что у нас принято карать. Я давал доступ, но она не слишком им интересовалась.
Полные версии всего доступны в репозитории https://github.com/mikhailsal/ai_lives_on_computer - вы можете скачать себе и запустить с самого сначала полный аналог моего эксперимента, заменив эндпоинт в конфиге на ваш из ollama и адрес виртуалки. Попросите какого-нибудь кодингового агента вроде Codex / Claude-code / Copilot / Cursor или упоминаемого бесплатного qwen-cli - они вам всё настроят, всё должно заработать. Но я бы всё-таки рекомендовал использовать актуальные модели (не старше 6 мес) через внешний API, вроде Openrouter (нужна заграничная карта или крипта), качество будет намного выше и результаты интереснее.
Надо попросить ИИ-агента написать бэклог
В оригинальном эксперименте был Qwen3-Coder-480B-A35B-Instruct - на 480 миллиардов параметров (активных на 1 токен 35). То есть она много больше тех, что локально идут. Но даже к ней есть вопросы в связи с зацикливанием и другими слабостями.
Так что локальные модели технически можно, но не понятно зачем, если API дешевле и качественне.
Я очень рад, что наконец-то хоть кто-то начал интересоваться практической стороной, как запустить у себя.
Однако я не знаю с чего начать ответ. Пару вопросов сначала. Ваша профессия связана с ИТ? Какая у вас ОС и видеокарта? Какую модель сейчас используете с ollama? Вы из РФ/Беларуси или нет?
Просто это очень маленькие модели, по способностям ещё хуже чем qwen-coder, боюсь много интересного они не покажут. Но если говорить в принципе - запустить можно, конечно, текущее окружение совместимо с локальными моделями.
Очередное доказательство, что люди принимают решения (голосуют) сердцем, а не мозгом.
OpenClaw интересный как идея, но реализация просто постыдная...
Возможно, люди пытаются так показать, что им на самом деле нужно от ИИ? А не крутость конкретного репозитария?
Или я опять слишком рационализирую толпу, которая просто делает рандомные вещи?
Видимо речь про 2.5-flash-lite. Похоже, статья грешит неточностями?
Какие же эти кожаные мешки тупыеА вы уверены, что это правда? Откуда инфа, что люди не могут простые задачи на компьютерах выполнять в почти 30% случаев? Хотелось бы пруфлинк, это крайне странно.