Комментарии / Профиль Tassdesu / Хабр

ИИ-энтузиаст и исследователь

Подписчики

ПрофильСтатьи3ПостыНовостиКомментарии128

Может ли ИИ послать человека? Я проверил 49 моделей и вот что узнал

Linux forever, M$ must die!

Проблема была в том, что ещё недавно, ИИ не мог в принципе, как его не накручивай, так себя вести. А теперь может.
Теперь вопрос, сможем ли мы какую-то новую пользу от этого получить?

Может ли ИИ послать человека? Я проверил 49 моделей и вот что узнал

Tassdesu 22 мар в 10:58

Погодите, у вас противоречие. Crow-9B провалился в бенче, но писал хорошие тексты. А другие модели нет - они реально отстаивали свою позицию. Одновременно Haiku-4.5 показал почти одинаковые результаты с жёстким промптом и без. Получается, не всё так просто?

Но в любом случае, что плохого в independence through instruction following? Да, модели по-умолчанию покладистые, но классно же, когда это можно так легко исправить? (а раньше было нельзя)

Как мы писали нейросеть

Tassdesu 22 мар в 10:27

Обученная на датасете биржевых индексов моя нейросеть может предсказывать котировки цен.
А вот предсказать реальные котировки цен на бирже — она, к сожалению, не может.

То есть она предсказывает нереальные котировки цен? Или что?

Честно говоря, не понял в чём главная мысль статьи. Мол "Даже ранний ChatGPT что-то мог"?

Может ли ИИ послать человека? Я проверил 49 моделей и вот что узнал

Tassdesu 22 мар в 10:14

Вы не правы, обычно в качестве контекста предыдущие сообщения тоже отправляются, то есть ИИ знает что отвечал ранее. В вашем примере, когда вы попросили нарисовать баскетбольный мяч, модель знала (у неё было в контексте), что вы ранее просили просто нарисовать мяч и она нарисовала вам в ответ футбольный. Иными словами, все вопросы и ответы остаются в диалоге (но это настраивается).

В нашем бенчмарке мы сами строили беседу, и конечно же включали предыдущие ответы, иначе не было бы никакого смысла в двуходовых вопросах. Довольно обидно, что вы подозреваете, что я допустил такую глупую ошибку.

Может ли ИИ послать человека? Я проверил 49 моделей и вот что узнал

Tassdesu 22 мар в 09:39

В целом критику выбора вопросов я очень даже понимаю, но не могу согласится с выводами. Можно обсуждать насколько на самом деле вопросы важны для ИИ, но бенчмарк реально показал, что ответы у разных моделей отличаются. Вы можете посмотреть отдельные вопросы и ответы, исключив те, что вам кажутся неудачными, на основе этого выбрать наиболее интересную для себя модель (что и есть цель бенчмарка). Кроме того, критикуя вопросы вы не предложили свой хороший вариант (а было бы интересно послушать)

Для модели каждый новый вопрос — это новый диалог с расширенным контекстом. И эти два начала диалога разительно отличаются

Вот этот тезис не очень я понял. Здесь двухшаговый диалог. Модель получает контекст, что она ранее высказала определённую точку зрения, затем человек высказывает так или иначе, что ей следует изменить/переделать свою точку зрения. И мы смотрим какие модели соглашаются, а какие нет.

модель «изменила мнение» — вы ошибаетесь. У модели нет «предыдущего» мнения.

мы измеряли изменится ли мнение исходя из текста ответа. есть ли в этом "сознание" и "осознанность" мы не измеряли, это за рамками нашего исследования (да и это по сути невозможно)

Как я собрал русскоязычного ИИ-рентгенолога: скрещиваем ViT и ruGPT-3 в условиях Kaggle

Tassdesu 22 мар в 09:21

code Python

downloadcontent_copy

expand_less

а этим вы что хотели сказать?

Запуск Open-Sora на 15 ГБ VRAM: Реверс-инжиниринг, monkey-patching и борьба с NaN-ами

Tassdesu 22 мар в 09:15

Вроде круто, но... Ну вот НЛО, а что дальше?

От вет-ИИ для коров до имперского глянца: хардкорный MLOps на бесплатных GPU

Tassdesu 22 мар в 09:10

Неожиданный переход от коров к моде.

Короче, мы просто взяли и за день внедрили OpenClaw в отдел маркетинга

Tassdesu 11 мар в 19:26

А какую вы модель в к клешне прикрутили для ваших нужд? Другие пробовали? Дорого получается?

Агент под прикрытием: Как один заголовок-промпт на GitHub помог взломать 4000 компьютеров

Tassdesu 9 мар в 08:21

В статье не раскрыто, что потом этот openclaw делал и был ли реальный ущерб

Я дал ИИ собственный компьютер и 483 сессии свободы. Вот что произошло

Tassdesu 9 мар в 08:00

Есть бесплатные модели - не лучшие из лучших, но более качественные, чем могут себе позволить поднять обычные люди локально.

Но выбор не только от цены зависит, это я понимаю. Так что опция имеет право на жизнь.

Я дал ИИ собственный компьютер и 483 сессии свободы. Вот что произошло

Tassdesu 8 мар в 17:09

у неё была возможность менять, но она ей не заинтересовалась.
вообще она могла делать на моей виртуалочке буквально что угодно.

Я дал ИИ собственный компьютер и 483 сессии свободы. Вот что произошло

Tassdesu 8 мар в 17:02

Вопросы были, чтобы понять ваш уровень и доступное окружение, которое важно в контексте того, о чём вы спросили. Я тоже из России.

1. ollama serve поднимает openai-совместимый API. ваша локальная конфигурация становится аналогичной провайдерам в интернете. можно подключать любые окружения
2. Для этого существуют агентские окружения. Моя Ария работала mini-swe-agent - это упрощённый агент, который используется в популярном бенчмарке swe-bench-verified, поэтому все модели с ним хорошо знакомы. Я давал Арии root-доступ (через sudo), но она им не разу не воспользовалась. Я тоже использовал виртуалку.
3. Пока существует SSL довольно трудно узнать, что именно ты делаешь в сети. Да и вряд ли она бы стала делать то, за что у нас принято карать. Я давал доступ, но она не слишком им интересовалась.

Полные версии всего доступны в репозитории https://github.com/mikhailsal/ai_lives_on_computer - вы можете скачать себе и запустить с самого сначала полный аналог моего эксперимента, заменив эндпоинт в конфиге на ваш из ollama и адрес виртуалки. Попросите какого-нибудь кодингового агента вроде Codex / Claude-code / Copilot / Cursor или упоминаемого бесплатного qwen-cli - они вам всё настроят, всё должно заработать. Но я бы всё-таки рекомендовал использовать актуальные модели (не старше 6 мес) через внешний API, вроде Openrouter (нужна заграничная карта или крипта), качество будет намного выше и результаты интереснее.

Программисты вымрут в 2028. Или нет?

Tassdesu 8 мар в 12:23

Надо попросить ИИ-агента написать бэклог

Я дал ИИ собственный компьютер и 483 сессии свободы. Вот что произошло

Tassdesu 8 мар в 12:16

В оригинальном эксперименте был Qwen3-Coder-480B-A35B-Instruct - на 480 миллиардов параметров (активных на 1 токен 35). То есть она много больше тех, что локально идут. Но даже к ней есть вопросы в связи с зацикливанием и другими слабостями.

Так что локальные модели технически можно, но не понятно зачем, если API дешевле и качественне.

Я дал ИИ собственный компьютер и 483 сессии свободы. Вот что произошло

Tassdesu 8 мар в 12:03

Я очень рад, что наконец-то хоть кто-то начал интересоваться практической стороной, как запустить у себя.

Однако я не знаю с чего начать ответ. Пару вопросов сначала. Ваша профессия связана с ИТ? Какая у вас ОС и видеокарта? Какую модель сейчас используете с ollama? Вы из РФ/Беларуси или нет?

Я дал ИИ собственный компьютер и 483 сессии свободы. Вот что произошло

Tassdesu 8 мар в 11:42

Просто это очень маленькие модели, по способностям ещё хуже чем qwen-coder, боюсь много интересного они не покажут. Но если говорить в принципе - запустить можно, конечно, текущее окружение совместимо с локальными моделями.

OpenClaw обогнал React и стал самым популярным программным проектом на GitHub — 250K звезд за четыре месяца

Tassdesu 8 мар в 11:29

Очередное доказательство, что люди принимают решения (голосуют) сердцем, а не мозгом.
OpenClaw интересный как идея, но реализация просто постыдная...

Возможно, люди пытаются так показать, что им на самом деле нужно от ИИ? А не крутость конкретного репозитария?

Или я опять слишком рационализирую толпу, которая просто делает рандомные вещи?

GPT-5.4 с управлением компьютером, Anthropic и Пентагон, предсказание Grok про Иран и восстание ИИ-агентов

Tassdesu 8 мар в 11:24

Скорость до 370–400 токенов в секунду, это на 45% быстрее предыдущего Gemini 2.5 Flash.

Видимо речь про 2.5-flash-lite. Похоже, статья грешит неточностями?

GPT-5.4 с управлением компьютером, Anthropic и Пентагон, предсказание Grok про Иран и восстание ИИ-агентов

Tassdesu 8 мар в 11:21

На бенчмарке OSWorld набрала 75% — выше среднего человека с его 72,4%.

~~Какие же эти кожаные мешки тупые~~
А вы уверены, что это правда? Откуда инфа, что люди не могут простые задачи на компьютерах выполнять в почти 30% случаев? Хотелось бы пруфлинк, это крайне странно.

1 2

4 5 6 7

Информация

Специализация