Обновить
2K+
47
Михаил@Tassdesu

ИИ-энтузиаст и исследователь

28
Подписчики
Отправить сообщение

Linux forever, M$ must die!

Проблема была в том, что ещё недавно, ИИ не мог в принципе, как его не накручивай, так себя вести. А теперь может.
Теперь вопрос, сможем ли мы какую-то новую пользу от этого получить?

Погодите, у вас противоречие. Crow-9B провалился в бенче, но писал хорошие тексты. А другие модели нет - они реально отстаивали свою позицию. Одновременно Haiku-4.5 показал почти одинаковые результаты с жёстким промптом и без. Получается, не всё так просто?

Но в любом случае, что плохого в independence through instruction following? Да, модели по-умолчанию покладистые, но классно же, когда это можно так легко исправить? (а раньше было нельзя)

Обученная на датасете биржевых индексов моя нейросеть может предсказывать котировки цен.
А вот предсказать реальные котировки цен на бирже — она, к сожалению, не может.

То есть она предсказывает нереальные котировки цен? Или что?

Честно говоря, не понял в чём главная мысль статьи. Мол "Даже ранний ChatGPT что-то мог"?

Вы не правы, обычно в качестве контекста предыдущие сообщения тоже отправляются, то есть ИИ знает что отвечал ранее. В вашем примере, когда вы попросили нарисовать баскетбольный мяч, модель знала (у неё было в контексте), что вы ранее просили просто нарисовать мяч и она нарисовала вам в ответ футбольный. Иными словами, все вопросы и ответы остаются в диалоге (но это настраивается).

В нашем бенчмарке мы сами строили беседу, и конечно же включали предыдущие ответы, иначе не было бы никакого смысла в двуходовых вопросах. Довольно обидно, что вы подозреваете, что я допустил такую глупую ошибку.

В целом критику выбора вопросов я очень даже понимаю, но не могу согласится с выводами. Можно обсуждать насколько на самом деле вопросы важны для ИИ, но бенчмарк реально показал, что ответы у разных моделей отличаются. Вы можете посмотреть отдельные вопросы и ответы, исключив те, что вам кажутся неудачными, на основе этого выбрать наиболее интересную для себя модель (что и есть цель бенчмарка). Кроме того, критикуя вопросы вы не предложили свой хороший вариант (а было бы интересно послушать)

Для модели каждый новый вопрос — это новый диалог с расширенным контекстом. И эти два начала диалога разительно отличаются

Вот этот тезис не очень я понял. Здесь двухшаговый диалог. Модель получает контекст, что она ранее высказала определённую точку зрения, затем человек высказывает так или иначе, что ей следует изменить/переделать свою точку зрения. И мы смотрим какие модели соглашаются, а какие нет.

модель «изменила мнение» — вы ошибаетесь. У модели нет «предыдущего» мнения.

мы измеряли изменится ли мнение исходя из текста ответа. есть ли в этом "сознание" и "осознанность" мы не измеряли, это за рамками нашего исследования (да и это по сути невозможно)

code Python

downloadcontent_copy

expand_less

а этим вы что хотели сказать?

Вроде круто, но... Ну вот НЛО, а что дальше?

Неожиданный переход от коров к моде.

А какую вы модель в к клешне прикрутили для ваших нужд? Другие пробовали? Дорого получается?

В статье не раскрыто, что потом этот openclaw делал и был ли реальный ущерб

Есть бесплатные модели - не лучшие из лучших, но более качественные, чем могут себе позволить поднять обычные люди локально.

Но выбор не только от цены зависит, это я понимаю. Так что опция имеет право на жизнь.

у неё была возможность менять, но она ей не заинтересовалась.
вообще она могла делать на моей виртуалочке буквально что угодно.

Вопросы были, чтобы понять ваш уровень и доступное окружение, которое важно в контексте того, о чём вы спросили. Я тоже из России.

1. ollama serve поднимает openai-совместимый API. ваша локальная конфигурация становится аналогичной провайдерам в интернете. можно подключать любые окружения
2. Для этого существуют агентские окружения. Моя Ария работала mini-swe-agent - это упрощённый агент, который используется в популярном бенчмарке swe-bench-verified, поэтому все модели с ним хорошо знакомы. Я давал Арии root-доступ (через sudo), но она им не разу не воспользовалась. Я тоже использовал виртуалку.
3. Пока существует SSL довольно трудно узнать, что именно ты делаешь в сети. Да и вряд ли она бы стала делать то, за что у нас принято карать. Я давал доступ, но она не слишком им интересовалась.

Полные версии всего доступны в репозитории https://github.com/mikhailsal/ai_lives_on_computer - вы можете скачать себе и запустить с самого сначала полный аналог моего эксперимента, заменив эндпоинт в конфиге на ваш из ollama и адрес виртуалки. Попросите какого-нибудь кодингового агента вроде Codex / Claude-code / Copilot / Cursor или упоминаемого бесплатного qwen-cli - они вам всё настроят, всё должно заработать. Но я бы всё-таки рекомендовал использовать актуальные модели (не старше 6 мес) через внешний API, вроде Openrouter (нужна заграничная карта или крипта), качество будет намного выше и результаты интереснее.

Надо попросить ИИ-агента написать бэклог

В оригинальном эксперименте был Qwen3-Coder-480B-A35B-Instruct - на 480 миллиардов параметров (активных на 1 токен 35). То есть она много больше тех, что локально идут. Но даже к ней есть вопросы в связи с зацикливанием и другими слабостями.

Так что локальные модели технически можно, но не понятно зачем, если API дешевле и качественне.

Я очень рад, что наконец-то хоть кто-то начал интересоваться практической стороной, как запустить у себя.

Однако я не знаю с чего начать ответ. Пару вопросов сначала. Ваша профессия связана с ИТ? Какая у вас ОС и видеокарта? Какую модель сейчас используете с ollama? Вы из РФ/Беларуси или нет?

Просто это очень маленькие модели, по способностям ещё хуже чем qwen-coder, боюсь много интересного они не покажут. Но если говорить в принципе - запустить можно, конечно, текущее окружение совместимо с локальными моделями.

Очередное доказательство, что люди принимают решения (голосуют) сердцем, а не мозгом.
OpenClaw интересный как идея, но реализация просто постыдная...

Возможно, люди пытаются так показать, что им на самом деле нужно от ИИ? А не крутость конкретного репозитария?

Или я опять слишком рационализирую толпу, которая просто делает рандомные вещи?

Скорость до 370–400 токенов в секунду, это на 45% быстрее предыдущего Gemini 2.5 Flash. 

Видимо речь про 2.5-flash-lite. Похоже, статья грешит неточностями?

На бенчмарке OSWorld набрала 75% — выше среднего человека с его 72,4%.

Какие же эти кожаные мешки тупые
А вы уверены, что это правда? Откуда инфа, что люди не могут простые задачи на компьютерах выполнять в почти 30% случаев? Хотелось бы пруфлинк, это крайне странно.

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность

Специализация

Бэкенд разработчик, Фулстек разработчик
Старший
От 350 000 ₽
PHP
Linux
SQL
Bash
Docker
Git