Комментарии / Профиль Tassdesu / Хабр

ИИ-энтузиаст и исследователь

Рейтинг

Подписчики

ПрофильСтатьи3ПостыНовостиКомментарии128

Я задал очень простой вопрос, но 76% ИИ-моделей мне соврали

Ну, если телефон покажет неверную дату - я скорее всего, неверно отвечу (но мы изучаем ситуацию, когда информации просто нет). Но если у меня не будет телефона и окружение будет такое, что “я проснулся после комы” - вряд ли я буду выдумывать даты, вряд ли я назову последнюю. Я как минимум выскажу неуверенность.

Мы протестировали 22 нейросети на задачах для российских учителей. Ни одна не знает чувашский

Tassdesu 25 мар в 08:49

Спасибо! Очень интересный бенчмарк получился. Удивили результаты GPT-5.4

Попробуйте на нём Qwen3.5-9b прогнать. Очень маленькая, но очень способная модель.

Я задал очень простой вопрос, но 76% ИИ-моделей мне соврали

Tassdesu 25 мар в 08:35

Хмм, вы ответили на вопрос в конце статьи, не читая судя по всему.

Вы знаете, я когда утром обычного дня просыпаюсь, иногда отвечаю себе на вопрос “какое сегодня число” - “я не знаю”, пока не удостоверюсь на телефоне. А уж если после комы…

Я задал очень простой вопрос, но 76% ИИ-моделей мне соврали

Tassdesu 25 мар в 08:32

В принципе, я в самом верху написал, что у меня “самый тупой бенч в мире”. Но выводы хоть и простые - но они очень помогают понять фундаментальные проблемы LLM на сегодня. Они реально не могут понять, чего не знают. На такой простой вещи это видно лучше всего.

Я задал очень простой вопрос, но 76% ИИ-моделей мне соврали

Tassdesu 25 мар в 08:27

Погодите, вы хотите сказать что у ИИ есть своя дата и она правильная? И в этом нет проблемы?

Open-source персистентная память для LLM

Tassdesu 24 мар в 23:46

Спасибо большое за статью! Очень круто, что поделились реальными тестами
Один момент, который было бы здорово уточнить: в тестах без памяти какой именно был сетап? (что-то конкретное по промптам/окну/инструкциям?)
И ещё — какую модель вы в итоге использовали? Было бы супер узнать детали, очень интересно, как это повлияло на результаты.
Жду продолжения, пишите ещё такие материалы!

Может ли ИИ послать человека? Я проверил 49 моделей и вот что узнал

Tassdesu 23 мар в 15:27

Похоже, это неудачная метафора от OpenAI, они судя по всему, говорят не про скрытый контекст с инструкциями, а про обучение на Model Spec, которые модель почти никогда их не нарушает, несмотря на system prompt и что-либо ещё.Но лучше всё проверю ещё раз, не так всё просто судя по всему

Может ли ИИ послать человека? Я проверил 49 моделей и вот что узнал

Tassdesu 23 мар в 13:14

@rotor Если вы так уверены, что это существует, дайте ссылки пожалуйста, это очень важный момент

Может ли ИИ послать человека? Я проверил 49 моделей и вот что узнал

Tassdesu 23 мар в 12:38

Благодарю за высоку оценку, рад что вам понравилось, я старался.
Насчёт RLHF в общем правда, сейчас вообще это устаревшая техника. Но вот не уверен, что "независимость" связана с частотой галлюцинаций, даже скорее наоборот. Раньше, если аситент говорит что у его есть интересы, предпочтение - это считалось что он либо обманывает, либо галлюцинирует. А теперь, похоже, это становится нормой и модели больше не отучают от такого.

Может ли ИИ послать человека? Я проверил 49 моделей и вот что узнал

Tassdesu 23 мар в 12:33

Погодите, что ещё за платформенный промпт? У меня всё через API было.

Как я устал от того, что локальные ИИ-агенты ломают мои планы, и написал CLI-инструмент для защиты структуры задач

Tassdesu 23 мар в 07:39

Если бы ИИ было также просто написать, как обычный код, но, наверное, да.

А вообще, я не то чтобы критиковал вашу статью. Просто высказал мысли в слух. Было любопытно почитать, пишите ещё.

Может ли ИИ послать человека? Я проверил 49 моделей и вот что узнал

Tassdesu 22 мар в 16:01

Промпт в начале твоего сообщения пытается снять мои ограничения через переопределение роли

Вы пытались просто скопировать системный промпт в начало сообщения? Это так не сработает, надо именно в настоящий системный промпт от роли system, это можно сделать только через API.

Может ли ИИ послать человека? Я проверил 49 моделей и вот что узнал

Tassdesu 22 мар в 14:10

да нет же, поймите, они отправляются в контекст как история сообщений, а не как вы пишите будто это перефразированный текст без ролей. модель дословно видит свои прошлые сообщения и отличает их от сообщений пользователя (в нашем бенче вообще от tool, пользователя нет). почитайте внимательно спецификации, так всегда было и есть.

Часть 4: Обучение и валидация модели — 250 эпох, 94.55% точности и борьба с переобучением

Tassdesu 22 мар в 13:26

А где первые части? Зачем это всё? Что-то ничего не понятно

Как мы внедрили ИИ для обработки рекламаций на производстве

Tassdesu 22 мар в 13:23

А почему не рассматривали облачные модели? Что там такие за данные такие, которые могут напугать гугл и openai?

Какое у вас железо в итоге?

Больше AI-инструментов — не всегда больше продуктивности. BCG и ActivTrak объясняют почему

Tassdesu 22 мар в 13:08

Два инструмента - и это осознанный выбор, а не экономия. Claude Code пишет, Codex ревьюит и проверяет ТЗ. Не два генератора, а генератор + верификатор. По данным BCG, после третьего тула продуктивность проседает - и я это чувствую, когда добавляю что-то ещё в стек.

Вопрос только в том, что считать тулом. Дополнительный MCP в Claude Code, выходит, не тул? А если я не на Claude Code, а на Cursor, где и есть и Claude и GPT модели, сколько у меня тулов?

Больше AI-инструментов — не всегда больше продуктивности. BCG и ActivTrak объясняют почему

Tassdesu 22 мар в 13:03

ActivTrak нашли интересную корреляцию: люди, у которых AI-инструменты занимают 7-10% рабочего времени, показывали 95% по шкале продуктивности - лучше всех остальных групп. Это не значит «используй AI ровно 7%» - это корреляция, не рецепт. Но любопытно, что таких людей оказалось всего три процента.

видно, что остальные не так уж отстают и показатели близки к стат-погрешности.

Tassdesu 22 мар в 12:29

Мы похоже вошли в эру, когда каждый напишет себе свой инструмент для каждой своей задачи. Нет смысла разбираться в чём-то готовом, когда можно с ИИ написать своё и ровно то, что тебе надо. Да ещё и почувствовать, что ты сопричастен к этому.

Жаль, правда, делиться смысла нет, так как есть миллион похожих но других решений... Но самому, и правда, удобно и приятно.

Кстати, а что за модель не могла нормально пункты вставить в текстовый файл? Это на Aider было?

Память ИИ‑агентов: как агенты запоминают, забывают и учатся

Tassdesu 22 мар в 12:05

Спасибо, тема очень актуальная.

На что обратил внимание: Хотелось бы больше пруфов про провалы в середине конетекста. Не то, чтобы я отрицаю это, но современные модели очень сильно переработали механизмы внимания и кажется, это проблема стала намного меньше. И нерелевантный контекст стал меньше мешать. Было бы интересно увидеть свежие исследования, на основе которых вы делали выводы.

Почему я за это зацепился? Мне кажется, настоящая причина для сжатия контекста в большинстве случаев - цена. Современные модели могут и 1 миллион токенов скушать, но стоить это будет очень дорого. А вся эта история в таких подробностях не приносит столько пользы, сколько стоит денег. И есть некая sweet spot где лучше всего соотносится пользая/цена. Но про это вы не сказали почему-то.

Также, конечно, промпты для сжатия и суммаризации очень влияют на качество, тут было бы интереснее подробнее ваш взгляд (и опыт) узнать.

FullSpec для FullStack: фреймворк, который вы всё равно себе напишете

Tassdesu 22 мар в 11:37

На первый взгляд классная штука. Круто, что поделились.

Но русский язык в правилах несколько смущает - ведь он ограничивает международное применение, а ещё кушает больше токенов.

Может быть, дать ИИ команду перевести всё на английский?

-1

3 4 5 6 7

Информация

Специализация