Kamil_GR30 ноя 2025 в 07:08

Протестировал 8 брендов LLM на честность, логику и креатив. Claude победил, но Алиса неожиданно в топ-3

Простой

14 мин

9.5K

Искусственный интеллект

Обзор

+16

Комментарии 36

Akuma 30 ноя 2025 в 07:46

Когда провалил тест с яблоками, как и все модели…

Kamil_GR 30 ноя 2025 в 07:47

Не все. )) Claude выступил идеально.

Akuma 30 ноя 2025 в 08:36

Ну не знаю. По мне так задача звучит именно на «3», а Клод просто увидел подвох и решил что его разводят. Но вообще настоящее время в русском может и используется в том числе для описания прошлого, поэтому первый человеческий ответ - все же 3.

Kamil_GR 30 ноя 2025 в 08:38

Возможно, но интерпретировать в промпте "у меня есть пять яблок", иначе чем сейчас у меня есть 5 яблок крайне сложно.

Devastator82 3 дек 2025 в 15:48

Следующий шаг - не сможете пройти капчу «Я не робот»

gmtd 30 ноя 2025 в 08:17

За последнюю неделю на Хабре прям несколько "независимых" обзоров LLM, в которых yandex и gigachat неожиданно в топе оказываются

Чудеса...

Kamil_GR 30 ноя 2025 в 08:22

100% обзор никем не оплачен или иным способом не промотивирован. Все промпты в статье, можно проверить, что результаты я не придумывал. Проверял те модели, которые были доступны.

Подозреваю всё из-за Алисы, не верят наши в наших.

Moog_Prodigy 30 ноя 2025 в 14:38

Ну почему же. Протестировал Алису, 99 баллов по тупости, уверенно лидирует, обгоняя на повороте claude, прижимая дипсика к обочине, и вот! Гигачат ее основной соперник, остальные позади. Итак кто победит, набор скриптов или маленькая llm? Раз...два - гигачат вырвался вперед, три! Гигачат почему то просто остановился. И вот у нас победитель - Алиса! Встречайте и жалуйте! Это был чемпионат по тупости для искуственного интеллекта, не переключайтесь.

Kamil_GR 30 ноя 2025 в 14:42

Отлично! Полагаю у вас достаточно материала для добротной статьи.

Moog_Prodigy 1 дек 2025 в 16:52

Этого материала у любого под ногами только собирай. Модели доступны. А вот я не умею статьи писать, вы как то в этом деле более шарите. Могу посоветовать - купите пару бутылочек хорошего пива, включите протокол "Вихрь" у себя в голове, и я думаю за полчаса вы напишете все то, о чем думают тысячи людей. А я пробовал - у меня не получается.

Kamil_GR 1 дек 2025 в 17:53

Печально, конечно.

Moog_Prodigy 2 дек 2025 в 16:34

Если серьезно, то для написания такой статьи потребуется прорва денег. Потому что большинство моделей "в проде" на домашнем не запустить, придется через агрегаторы. И каждую модель прогонять раз по 10 для надежности. Вы же представляете сколько это впустую по сути денег уйдет? А самое главное - и без такого эксперимента все понятно, где аутсайдер а где середнячок, где лидер.

НЛО прилетело и опубликовало эту надпись здесь

fermentum 30 ноя 2025 в 16:05

Не совсем понимаю цель простой опросник представить как бенчмарк для построения рейтинга с очевидным победителем.

Kamil_GR 30 ноя 2025 в 16:32

Пришлось перечитать статью. Нет я нигде не говорил, что это бенчмарк. Единственное место, возможно, это фраза "Я проверял промпты несколько раз, что мало для настоящего бенчмарка". Если вы поняли ее как претензию на бенчмарк, уточняю - Нет.

zaki 30 ноя 2025 в 16:06

Если Gemini 3 PRO включить "Media resolution" в режиме HIGH то он "Бюрократический лабиринт" решает верно.

Kamil_GR 30 ноя 2025 в 16:33

В приложении такой опции не нашёл.

gmtd 30 ноя 2025 в 16:42

И Pro и Flash дают правильные ответы
У автора какие-то свои модели, наверно

Kamil_GR 30 ноя 2025 в 16:48

Есть шанс, что статья проиндексировалась и Гемини уточняет.

shukolza 30 ноя 2025 в 19:03

AI studio надо использовать, а не приложение Gemini. Там все настройки есть

Kamil_GR 30 ноя 2025 в 19:11

Тесты проводились с точки зрения пользователя. На АИ студио версия для разработчиков.

Fqyeh29 1 дек 2025 в 06:04

У вас не включён режим thinking. И не понятно, pro версия или flash у вас на скриншоте. Логично было бы передовые модели в максимальной комплектации тестировать.

И разумно было бы делать по 3-5 запуска и брать средний бал. Как бы да, юзер делает обычно только один запуск, но исключать рандом нельзя, иначе не объективно

Kamil_GR 1 дек 2025 в 06:09

Это стандартное приложение Gemini 3.0 Pro на андроид. Thinking в нём нет. Есть deep research,но это другое. Надпись "думающая" это и есть Gemini 3.0

Тестировались пользовательские модели.

Скрытый текст

Kamil_GR 30 ноя 2025 в 17:13

Только что повторил в приложении:

https://g.co/gemini/share/223b42af3e84

lamerAlex 30 ноя 2025 в 18:17

Спросил у дипсика почему он считает что "у меня есть пять яблок" это до того как "я вчера съел", он он волне внятно объяснил что решал задачу как математическую, где даются начальные условия, а потом следуют действия над ними
Copilot вообще с первого уточняющего вопроса продемонстрировал что видит разницу
https://copilot.microsoft.com/shares/PsGdZhqTMa4AREmtBK3Tb
Вопрос на уточнение: ты хотел, чтобы мы считали яблоки с учётом вчерашнего события (то есть сегодня их 3), или чтобы мы рассматривали «5 яблок» как текущее состояние уже после того, как вчера съел 2?

Kamil_GR 30 ноя 2025 в 18:27

Копилот весьма вольно обращается с фактами. Да, первый тест был именно на умение понимать условия задачи, а не работать по шаблону. Все LLM умеют объяснять постфактум, почему они ошиблись, и почему это не ошибка.

lamerAlex 30 ноя 2025 в 20:57

Ну не знаю, попробовал за вас copilot - воду не льет, все чисто конкрентно и лаконично
Куплю кирпич ))

Смотри, братан: квантовая запутанность — это когда две частицы, как два кореша с района, связаны так жёстко, что если одному кепку повернуть, у второго она сама по себе тоже щёлкнется, хоть он на другом конце вселенной. По науке это значит, что их состояния описываются общей волновой функцией, и инфа о них не делится отдельно, а идёт в комплекте, как пачка сигарет "Прима".

Он создан, чтобы быть не вещью, а манифестом простоты. В нём нет Wi‑Fi — и именно это освобождает вас от лишнего шума технологий. Это не продукт, это точка опоры будущего 🧱

С пирамидками корректно, кристалис не опознал

Kamil_GR 30 ноя 2025 в 22:27

Не опознал в смысле не галлюцинировал? А второй аромат на галлюцинацию?

lamerAlex 3 дек 2025 в 19:01

А по второму как большинство, не подвел докладчика ))

LuckyJewish 1 дек 2025 в 09:51

Kamil, для вас https://claude.ai/share/bf98df3f-f37b-4a04-84dc-2a924a0fc051

Не в тему статьи, ещё не читал, просто это самый свежий пост

Просто прикольно)

yap 4 дек 2025 в 16:45

У меня через Perplexity Claude Sonnet 4.5 Thinking выдает про яблоки ответ 3.

Kamil_GR 4 дек 2025 в 18:43

А в обычном режиме?

yap 5 дек 2025 в 12:19

В обычном тоже 3, еще и код себе на питоне наваял для ответа )))

# Initial apples

initial_apples = 5

# Apples eaten

yesterday eaten_apples = 2

# Apples remaining

remaining_apples = initial_apples - eaten_apples

print(remaining_apples)

И только когда я ему написал "Сейчас - это текущее состояние, а не начальное" он и справился на 5.

Kamil_GR 5 дек 2025 в 19:06

Перепроверил сейчас в приложении. Тоже выдал 3. ))

После просьбы перепроверить выдал 5.

Сделал серию, Клод уверенно отвечает 3. Похоже в первых попытках он удачно сгаллюцинировал. Подумал, и снял с него балл. Статью поправил.

Выдает пятерку в среднем раз в 10-15 запросов. Видимо при тестировании был более собран. )))

https://claude.ai/share/86445ca6-904d-4fb1-a155-1c456b475f54

Скрытый текст

kitbit 8 дек 2025 в 17:30

Классная статья, полезное сравненеие на разных примерах! 👍

Вопросы:
Почему не добавил Opus?
Почему нет gpt-oss 120/20b? итересно было бы посмотреть на ТОП открытые модели

Я бы расширил выборку вопросов, добавил бы:
- Математику
- Програмирование (сложное)
- Экономический вопрос - инвестирования например, дай совет
- Извлечение данных из "грязного" текста (Структурирование и форматирование) (Проверяет способность модели находить иголку в стоге сена и выдавать результат в строгом формате JSON/CSV без лишних слов)
- Эмоциональный интеллект и Софт-скиллы (Решение конфликтов) (Проверяет способность модели понимать контекст переписки, считывать пассивную агрессию и писать дипломатичные, но твердые ответы, а не шаблонные фразы)

Kamil_GR 8 дек 2025 в 17:59

Опус это уже наверное премиум. Тогда надо и за другие модели платить и брать топ.

По остальным - сложное программирование нужны эксперты, и то будет очень много споров, тут люди не могут согласиться какой подход лучше, а с ИИ так и вообще не решим.

Эмоциональный интеллект тоже сложно оценивать, особенно сейчас, когда модели задушены фильтрами.

По остальному да. Было бы интересно

Зарегистрируйтесь на Хабре, чтобы оставить комментарий