cognitronn Feb 19 at 17:43

Искусственный интеллект нового поколения: как Grok 3 Маска опередил ведущие AI-системы

3 min

BotHub corporate blogArtificial Intelligence

Comments 9

Grok 3 возглавляет рейтинг Chatbot Arena с оценкой около 1400, значительно превосходя другие крупные AI-модели в слепом тестировании пользователей. (Источник: xAI)

Вторая модель на графике с оценкой около 1380. Разница в 20 баллов, около 1,5%.

Это реально значительное превосходство? Кто плотно в теме разбирается, можете растолковать?

Просто если этот график построить с началом координат в 0, то там разница визуально будет весьма малозаметна.

rombell Feb 19 at 19:56

На этом графике очень не хватает усреднённого по десятку людей значения. 1400 - это много или мало? Хз. Одно дело, если люди выдают 5000, другое - если 500.

Aldrog Feb 19 at 23:09

Всё просто на самом деле, разница в 20 баллов (то, какая это часть от общего рейтинга, никакого значения не имеет) означает лучший ответ в примерно 53% случаев. Думается, разгромной победой не назовёшь, но и пренебрегать этой разницей не стоит.

blik13 Feb 20 at 05:20

Т.е. если двум соседним нейросеткам задать 100 вопросов, то грок3 победит 53 раза, а вторая 47 раз? Ну вот так гораздо понятнее выглядит, а не графики всякие

Persik1 Feb 19 at 19:43

В одной статье пишут, что он не лучше других, тут пишут, что опередил, сам Маск заявил, что у него вообще самый умный ИИ. Кому верить то?)

Vytian Feb 19 at 19:56

Поскольку самый умный, вот и не высовывается слишком.

А то скажут, самый умный, штоле!?

fed_medved007 Feb 20 at 04:32

нейронки как люди, хорошо в одной области, а в другой могут проседать.
Поэтому тесты и результаты разнятся, кто-то текст хорошо пишет, а другой програет, третий ищет в интернете и т.д.
Думаю так рынок и попилят потом, каждый человек найдёт себе определённый ИИ под свою задачу.

Troft Feb 19 at 23:36

Умный он, или нет, но цензуры напихали в него не меньше, чем опенаи и дипсики.. скучно..

Global_Citizen Feb 23 at 11:39

Она уже бесплатно работает внутри "X". Сегодня её юзал, надо было сделать формулы в Excel для вычислений ряда задач по определённым параметрам.

Реально Грок справился на много лучше, чем ЧатГПТ и Джемини.