Комментарии 13
Чтобы поюзать этот Грок, нужно платную подписку на X? А по API можно как-то по-дешевле?
Статья поднимает интересный вопрос, но хотелось бы больше конкретики:
Какие именно тесты проводились? Бенчмарки — вещь субъективная. Если Groq лучше генерирует твиты, а ChatGPT сильнее в математике — какой из этого вывод?
Почему сравнивают с ChatGPT 3.5, а не GPT-4? Это как Mercedes прошлого года сравнивать с новой Tesla — технически корректно, но нечестно.
Grok 4 пока остаётся тёмной лошадкой. Если он и правда сможет конкурировать с GPT-4 Turbo — это изменит правила игры. Но пока это лишь обещания.
Личное мнение:
— Grok займёт свою нишу (соцсети, хайп, быстрые ответы), но вряд ли переиграет ChatGPT/Gemini в универсальности.
— "В 1.5 раза" — маркетинг. На деле всё зависит от задачи: для мемов — возможно, для кода — сомнительно.
— Главный тест — ваш личный опыт. Дайте обоим ИИ одинаковое задание (например, "разбери вот этот код" или "напиши аналитику по трендам") — и сразу станет ясно, кто чего стоит.
P.S. Автору — респект за тему, но хотелось бы больше технических деталей. А то пока похоже на "наш ИИ самый лучший, потому что мы так сказали".
Когда к посту про llm, написанному, чтобы привлечь людей в свой ТГ, появляется ответ, где все так красиво структурировано и перечислено "один-два-три", то прямо срабатывает стереотип: кажется, что ответ писала llm, причем задачей в промпте "быть по-человечнее в высказываниях".
Интересно, а на деле сколько % текстов и комментов всё ещё пишутся живыми людьми от и до?
Какие именно тесты проводились?
В статье перечислены тестовые бенчмарки с кратким описанием, по названию можно найти их описание и список тестов.
Почему сравнивают с ChatGPT 3.5, а не GPT-4?
В статье нигде не упоминается ни ChatGPT 3.5, ни GPT-4.
Если он и правда сможет конкурировать с GPT-4 Turbo
GPT-4 Turbo устарела еще в прошлом году, с ней никто уже давно не соревнуется.
Никто не сравнивает ни с GPT-3.5, ни с GPT-4. Сравнивают с о3. Выглядит правда, как ответ LLM (скорее всего 4о, т.к. более новые модели бы не приводили GPT-4, как эталон для сравнения)
Там нет GPT 3.5, есть о3, который один из лучших у Open ai сейчас.
Дай пенделя тому ИИ, которому ты скормил эту картинку со статой)
Последний тест в котором все современные чемпионы набирают по 10-20 процентов.
В обычной математике у них 99% давно.
Бенчмаркам от Big Tech верить нельзя, они меряют на контаминированных данных ради красивых циферок
Для каждого юзкейса надо собирать свои собственные данные и по-честному бенчмаркать нейронки самому
Вообще, очень сомнительно, что Grok сожрет всех: их прежние модели были не очень (опенсорсная модель вообще неплоха сама по себе, но она была непропорциально гиганских размеров)
У Маска просто меньше талантливых ребят, большинство талантов в OpenAI, Гугле или в Мете
Маск мастер распускать слухи
Зачем тащить сюда непроверенную информацию?
В полтора раза лучше ChatGPT o3? В сети обсуждают возможные бенчмарки Grok 4