runaway_llm 6 июл в 21:55

В полтора раза лучше ChatGPT o3? В сети обсуждают возможные бенчмарки Grok 4

2 мин

5.3K

Искусственный интеллектМашинное обучение *

Комментарии 13

BReal 7 июл в 02:49

Чтобы поюзать этот Грок, нужно платную подписку на X? А по API можно как-то по-дешевле?

Politura 7 июл в 03:03

Да, можно по API, хоть напрямую, хоть через OpenRouter. Только 4-й версии еще не существует, поэтому доступна 3-я.

zzVex 7 июл в 03:29

Статья поднимает интересный вопрос, но хотелось бы больше конкретики:

Какие именно тесты проводились? Бенчмарки — вещь субъективная. Если Groq лучше генерирует твиты, а ChatGPT сильнее в математике — какой из этого вывод?
Почему сравнивают с ChatGPT 3.5, а не GPT-4? Это как Mercedes прошлого года сравнивать с новой Tesla — технически корректно, но нечестно.
Grok 4 пока остаётся тёмной лошадкой. Если он и правда сможет конкурировать с GPT-4 Turbo — это изменит правила игры. Но пока это лишь обещания.

Личное мнение:
— Grok займёт свою нишу (соцсети, хайп, быстрые ответы), но вряд ли переиграет ChatGPT/Gemini в универсальности.
— "В 1.5 раза" — маркетинг. На деле всё зависит от задачи: для мемов — возможно, для кода — сомнительно.
— Главный тест — ваш личный опыт. Дайте обоим ИИ одинаковое задание (например, "разбери вот этот код" или "напиши аналитику по трендам") — и сразу станет ясно, кто чего стоит.

P.S. Автору — респект за тему, но хотелось бы больше технических деталей. А то пока похоже на "наш ИИ самый лучший, потому что мы так сказали".

achekalin 7 июл в 05:01

Когда к посту про llm, написанному, чтобы привлечь людей в свой ТГ, появляется ответ, где все так красиво структурировано и перечислено "один-два-три", то прямо срабатывает стереотип: кажется, что ответ писала llm, причем задачей в промпте "быть по-человечнее в высказываниях".

Интересно, а на деле сколько % текстов и комментов всё ещё пишутся живыми людьми от и до?

zzVex 7 июл в 05:28

В темах про ИИ я думаю ноль.)))

SensDj 7 июл в 10:36

Со временем часть людей приучится так же структурированно отвечать, наобщавшись с ИИ

Politura 7 июл в 07:06

Какие именно тесты проводились?

В статье перечислены тестовые бенчмарки с кратким описанием, по названию можно найти их описание и список тестов.

Почему сравнивают с ChatGPT 3.5, а не GPT-4?

В статье нигде не упоминается ни ChatGPT 3.5, ни GPT-4.

Если он и правда сможет конкурировать с GPT-4 Turbo

GPT-4 Turbo устарела еще в прошлом году, с ней никто уже давно не соревнуется.

AKater 7 июл в 07:27

Никто не сравнивает ни с GPT-3.5, ни с GPT-4. Сравнивают с о3. Выглядит правда, как ответ LLM (скорее всего 4о, т.к. более новые модели бы не приводили GPT-4, как эталон для сравнения)

Onyix67 7 июл в 09:17

Там нет GPT 3.5, есть о3, который один из лучших у Open ai сейчас.

Дай пенделя тому ИИ, которому ты скормил эту картинку со статой)

Hopenolis 7 июл в 11:21

Последний тест в котором все современные чемпионы набирают по 10-20 процентов.

В обычной математике у них 99% давно.

einhorn 7 июл в 03:49

Бенчмаркам от Big Tech верить нельзя, они меряют на контаминированных данных ради красивых циферок

Для каждого юзкейса надо собирать свои собственные данные и по-честному бенчмаркать нейронки самому

Вообще, очень сомнительно, что Grok сожрет всех: их прежние модели были не очень (опенсорсная модель вообще неплоха сама по себе, но она была непропорциально гиганских размеров)

У Маска просто меньше талантливых ребят, большинство талантов в OpenAI, Гугле или в Мете

Dhwtj 7 июл в 04:33

Маск мастер распускать слухи

nyxandro 7 июл в 07:30

Зачем тащить сюда непроверенную информацию?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий