Обновить

Комментарии 36

Когда провалил тест с яблоками, как и все модели…

Не все. )) Claude выступил идеально.

Ну не знаю. По мне так задача звучит именно на «3», а Клод просто увидел подвох и решил что его разводят. Но вообще настоящее время в русском может и используется в том числе для описания прошлого, поэтому первый человеческий ответ - все же 3.

Возможно, но интерпретировать в промпте "у меня есть пять яблок", иначе чем сейчас у меня есть 5 яблок крайне сложно.

Следующий шаг - не сможете пройти капчу «Я не робот»

За последнюю неделю на Хабре прям несколько "независимых" обзоров LLM, в которых yandex и gigachat неожиданно в топе оказываются

Чудеса...

100% обзор никем не оплачен или иным способом не промотивирован. Все промпты в статье, можно проверить, что результаты я не придумывал. Проверял те модели, которые были доступны.

Подозреваю всё из-за Алисы, не верят наши в наших.

Ну почему же. Протестировал Алису, 99 баллов по тупости, уверенно лидирует, обгоняя на повороте claude, прижимая дипсика к обочине, и вот! Гигачат ее основной соперник, остальные позади. Итак кто победит, набор скриптов или маленькая llm? Раз...два - гигачат вырвался вперед, три! Гигачат почему то просто остановился. И вот у нас победитель - Алиса! Встречайте и жалуйте! Это был чемпионат по тупости для искуственного интеллекта, не переключайтесь.

Отлично! Полагаю у вас достаточно материала для добротной статьи.

Этого материала у любого под ногами только собирай. Модели доступны. А вот я не умею статьи писать, вы как то в этом деле более шарите. Могу посоветовать - купите пару бутылочек хорошего пива, включите протокол "Вихрь" у себя в голове, и я думаю за полчаса вы напишете все то, о чем думают тысячи людей. А я пробовал - у меня не получается.

Печально, конечно.

Если серьезно, то для написания такой статьи потребуется прорва денег. Потому что большинство моделей "в проде" на домашнем не запустить, придется через агрегаторы. И каждую модель прогонять раз по 10 для надежности. Вы же представляете сколько это впустую по сути денег уйдет? А самое главное - и без такого эксперимента все понятно, где аутсайдер а где середнячок, где лидер.

Ну честно говоря, алиса реально довольно креативная.. Была, а потом отупела очень сильно, в конце 24 примерно. Насчет сберовского исчадия ада не знаю и знать не хочу))

Не совсем понимаю цель простой опросник представить как бенчмарк для построения рейтинга с очевидным победителем.

Пришлось перечитать статью. Нет я нигде не говорил, что это бенчмарк. Единственное место, возможно, это фраза "Я проверял промпты несколько раз, что мало для настоящего бенчмарка". Если вы поняли ее как претензию на бенчмарк, уточняю - Нет.

Если Gemini 3 PRO включить "Media resolution" в режиме HIGH то он "Бюрократический лабиринт" решает верно.

В приложении такой опции не нашёл.

И Pro и Flash дают правильные ответы
У автора какие-то свои модели, наверно

Есть шанс, что статья проиндексировалась и Гемини уточняет.

AI studio надо использовать, а не приложение Gemini. Там все настройки есть

Тесты проводились с точки зрения пользователя. На АИ студио версия для разработчиков.

У вас не включён режим thinking. И не понятно, pro версия или flash у вас на скриншоте. Логично было бы передовые модели в максимальной комплектации тестировать.

И разумно было бы делать по 3-5 запуска и брать средний бал. Как бы да, юзер делает обычно только один запуск, но исключать рандом нельзя, иначе не объективно

Это стандартное приложение Gemini 3.0 Pro на андроид. Thinking в нём нет. Есть deep research,но это другое. Надпись "думающая" это и есть Gemini 3.0

Тестировались пользовательские модели.

Скрытый текст

Спросил у дипсика почему он считает что "у меня есть пять яблок" это до того как "я вчера съел", он он волне внятно объяснил что решал задачу как математическую, где даются начальные условия, а потом следуют действия над ними
Copilot вообще с первого уточняющего вопроса продемонстрировал что видит разницу
https://copilot.microsoft.com/shares/PsGdZhqTMa4AREmtBK3Tb
Вопрос на уточнение: ты хотел, чтобы мы считали яблоки с учётом вчерашнего события (то есть сегодня их 3), или чтобы мы рассматривали «5 яблок» как текущее состояние уже после того, как вчера съел 2?

Копилот весьма вольно обращается с фактами. Да, первый тест был именно на умение понимать условия задачи, а не работать по шаблону. Все LLM умеют объяснять постфактум, почему они ошиблись, и почему это не ошибка.

Ну не знаю, попробовал за вас copilot - воду не льет, все чисто конкрентно и лаконично
Куплю кирпич ))

Смотри, братан: квантовая запутанность — это когда две частицы, как два кореша с района, связаны так жёстко, что если одному кепку повернуть, у второго она сама по себе тоже щёлкнется, хоть он на другом конце вселенной. По науке это значит, что их состояния описываются общей волновой функцией, и инфа о них не делится отдельно, а идёт в комплекте, как пачка сигарет "Прима".

Он создан, чтобы быть не вещью, а манифестом простоты. В нём нет Wi‑Fi — и именно это освобождает вас от лишнего шума технологий. Это не продукт, это точка опоры будущего 🧱

С пирамидками корректно, кристалис не опознал

Не опознал в смысле не галлюцинировал? А второй аромат на галлюцинацию?

А по второму как большинство, не подвел докладчика ))

У меня через Perplexity Claude Sonnet 4.5 Thinking выдает про яблоки ответ 3.

А в обычном режиме?

В обычном тоже 3, еще и код себе на питоне наваял для ответа )))

# Initial apples

initial_apples = 5

# Apples eaten

yesterday eaten_apples = 2

# Apples remaining

remaining_apples = initial_apples - eaten_apples

print(remaining_apples)

И только когда я ему написал "Сейчас - это текущее состояние, а не начальное" он и справился на 5.

Перепроверил сейчас в приложении. Тоже выдал 3. ))

После просьбы перепроверить выдал 5.

Сделал серию, Клод уверенно отвечает 3. Похоже в первых попытках он удачно сгаллюцинировал. Подумал, и снял с него балл. Статью поправил.

Выдает пятерку в среднем раз в 10-15 запросов. Видимо при тестировании был более собран. )))

https://claude.ai/share/86445ca6-904d-4fb1-a155-1c456b475f54

Скрытый текст

Классная статья, полезное сравненеие на разных примерах! 👍

Вопросы:
Почему не добавил Opus?
Почему нет gpt-oss 120/20b? итересно было бы посмотреть на ТОП открытые модели

Я бы расширил выборку вопросов, добавил бы:
- Математику
- Програмирование (сложное)
- Экономический вопрос - инвестирования например, дай совет
- Извлечение данных из "грязного" текста (Структурирование и форматирование) (Проверяет способность модели находить иголку в стоге сена и выдавать результат в строгом формате JSON/CSV без лишних слов)
- Эмоциональный интеллект и Софт-скиллы (Решение конфликтов) (Проверяет способность модели понимать контекст переписки, считывать пассивную агрессию и писать дипломатичные, но твердые ответы, а не шаблонные фразы)

Опус это уже наверное премиум. Тогда надо и за другие модели платить и брать топ.

По остальным - сложное программирование нужны эксперты, и то будет очень много споров, тут люди не могут согласиться какой подход лучше, а с ИИ так и вообще не решим.

Эмоциональный интеллект тоже сложно оценивать, особенно сейчас, когда модели задушены фильтрами.

По остальному да. Было бы интересно

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации