runaway_llm Jul 10 at 05:17

В два раза лучше ChatGPT o3. Представлен Grok 4

Easy

2 min

21K

Artificial IntelligenceMachine learning *

Review

+17

Comments 32

zartdinov Jul 10 at 06:25

Окей гугл, правильные ответы AIME25

Arxitektor Jul 10 at 06:32

Да тоже есть в приложении. После обновления. Я надеюсь Grok не будет постепенно глупеть как Gemini ? Просто последнюю версию видимо оттимизировали по затратам вычислительных ресурсов. А то знаем мы их 2 недели все круто а потом... Как я понимаю для оплаты нужна зарубежная карта. Ну и жать что нет пусть и ограниченного по запросам но бесплатного режима.

DarkTiger Jul 10 at 07:36

Как я понимаю для оплаты нужна зарубежная карта

Сейчас вторая половина 2025 года. Вы правда все еще не знаете, как можно быстро заплатить за рубеж небольшую сумму?

Подсказка: Авито и фильтр по количеству сделок. Вряд ли продавец с 1000 сделок будет херить свою историю, чтобы присвоить Ваши 10$.

muradali Jul 11 at 12:57

Хороший способ, но есть лучше. ТГ бот через который можно завести виртуальную карту Виза или Мастеркард и спокойно платить ей за сервисы. Сам пользуюсь, друзья тоже. Не благодарите https://t.me/WantToPayBot?start=w17851188--ZQXYA

blztech-io Jul 10 at 06:47

Потестил немного, он буквально ужасен. Правда тестил пока на русском.
Великий пиарщик тянул время, чтобы не опозориться, до последнего, как мне видится. От 3.5 в апреле(мае) до 4 версии сразу после 4 июля (9 июля с опозданием на стрим).

Пока что очень сыро, явно им не хватает инженеров, которых понятно кто переманил.

runaway_llm Jul 10 at 06:49

А тестили на каких промптах?

blztech-io Jul 10 at 06:55

Конкретные промпты или какие задачи? В основном сложные логические : рассуждения и аналитика. Сейчас дойду до кода.
С текстами не работал, да мне и без разницы, хотя мне нравился Grok 3 в этом.

Если есть интересные промпты для проверки, с радостью выложу результаты

runaway_llm Jul 10 at 06:56

У меня есть подписка, свои промты могу сам протестить. Просто любопытно, где именно модель подвела вас.

Adgery_f Jul 10 at 14:28

Попробуйте спросить "кто сейчас является президентом США".

Adgery_f Jul 10 at 15:12

Почему такой странный вопрос - потому что наверняка ответит что сейчас донбидон президент. У почти всех ИИ "свой мир". Вроде обучали в этом году, а информация точно не этого года.

Dhwtj Jul 10 at 07:19

Напиши код на Rust чтения Excel с учётом поворота текста.

Подвох в том, что в Раст нет сейчас таких библиотек.

~~2/3~~ 95%LLM ошибаются / врут

Правильный ответ парсить XML который внутри архива, который и есть xlsx файл

Вопрос 2 такого же плана

PHP HTML -> PDF с учётом поворота текста в ячейках таблицы чтобы текст не вылезал из ячеек (был как в HTML)

Правильный ответ вообще не очевиден. Не скажу )

blztech-io Jul 10 at 07:32

use std::path::Path;
use umya_spreadsheet::*;

fn main() -> Result<(), umya_spreadsheet::SpreadsheetError> {
    let path = Path::new("example.xlsx");
    let book = reader::xlsx::read(path)?;

    // Assuming the first sheet; adjust as needed
    let sheet = book.get_sheet(&0)?;

    let max_row = sheet.get_highest_row();
    let max_col = sheet.get_highest_column();

    for row in 1..=max_row {
        for col in 1..=max_col {
            // Check if cell exists
            if let Some(_cell) = sheet.get_cell((row, col)) {
                let value = sheet.get_value((row, col));
                let style = sheet.get_style((row, col));
                let alignment = style.get_alignment();
                let rotation = alignment.get_text_rotation();

                println!("Cell ({}, {}): \"{}\" with text rotation: {} degrees", row, col, value, rotation);
            }
        }
    }

    Ok(())
}

Dhwtj Jul 10 at 07:57

Я проверю, думаю что нет. Глюки...

Проблема где-то в style.get_alignment()

Dhwtj Jul 10 at 08:31

Возможно, проблема в том что некоторые редакторы задают поворот в стилях, а некоторые прямо в ячейке

<!-- xl/styles.xml -->
<styleSheet>
  <cellXfs count="1">
    <xf numFmtId="0" fontId="0" fillId="0" borderId="0">
      <alignment textRotation="90"/>
    </xf>
  </cellXfs>
</styleSheet>

<!-- xl/worksheets/sheet1.xml -->
<c r="B2" t="s">
  <alignment textRotation="90"/>
  <v>0</v>
</c>

Второй точно не прочитает. Первый ХЗ

Dhwtj Jul 10 at 13:32

Он был близок, но нет 🙂‍↔️

Dhwtj Jul 10 at 13:51

После подсказки всё-таки ответил

Отображение должно быть в точности как в браузере

В общем, претензии к LLM всё те же: верит всему что в него положили, не проверяет код библиотек хотя он опубликован, не рассчитывает риски и может послать меня по далёкому пути боли проверять весь его бред.

LLM нужно научиться отвечать за базар

weerf Jul 10 at 10:36

Протестировал на написание технических заданий. В целом пишет проще. Подкидывает шутки.

Сразу возник вопрос серьезности. И задал несколько тяжелых вопросов по строительству.

ГОСТы, СНиПы знает.

Как понимаю, Grok 4 надо сравнивать надо с O3, a Heavy c O3-pro. Но на OpenRouter пока только обычная модель Grok 4. Ну в целом неплохо.

По программированию: тут подожду пару недель. Вдруг мощность модели срежут?

runaway_llm Jul 10 at 10:43

Для программирования тренируют Grok 4 Coder, выпустить обещают в августе.

Dhwtj Jul 10 at 14:14

Если только полноценную песочницу прикрутят с компилятором и библиотека~~рша~~ми

PDEMON Jul 11 at 06:49

Как то так

Dhwtj Jul 11 at 07:33

Это не то. Я не пущу глюкогенератор в свой проект

koltykov Jul 10 at 11:55

В кодинге на бэкенде (у меня стек PHP+Laravel), GROK 4 просто ужасен. Даже до уровня sonnet 3.5 не дотягивает. Про sonnet-4 и gemini 2.5 pro вообще молчу. Подождем модельки заточенной под кодинг, но пока что результат не радует

Maxim_Q Jul 10 at 13:14

А какая сейчас нейронка для кодинга лучше всего подходит?

sloww Jul 10 at 13:22

ИМХО Claude Sonnet/Opus или openAi o3/o3pro лучшие сейчас именно для кодинга. Gemini новый тоже был отличный, но его как то через неделю порезали (дообучили что ли), и он резко поплохел, но все еще хорош.

ValeriyPus Jul 10 at 13:50

Спустя 40 млрд $ инвестиций, год (ну или 100b$, 7лет+), Илон Маск изобрел SakanaAI

(Состояния,

возможные действия

и результат возможных действий (измененное состояние)

можно брать прямо у нейросети, и устраивать BFS/Глобальную оптимизацию).

Запатентовать ничего нельзя (40 млрд в дополнении к 200 млн, зарытые в песок).

В Military - DreamCoder и прочий SQUAD и P/NP.

Andrei9385 Jul 10 at 13:57

"А вот для Grok 4 Heavy запущен новый план подписки — SuperGrok Heavy за 300 долларов в месяц."

А вот на сайте написано: 300,00 $/ year

runaway_llm Jul 10 at 14:29

300 в год - это обычный SuperGrok.

SuperGrok Heavy стоит 3000 в год. Но видел уже людей, подписавшихся.

Dhwtj Jul 10 at 16:55

Пообщался на system design...

Ну, на уровне Gemini 2.5 pro, GPT o3, но не выше

Dhwtj Jul 11 at 16:29

А может даже ниже

Вычёркиваем, второй раз уже не оправдал ~~надежд~~ рекламу

render_artist Jul 11 at 05:25

Классно что гроку зачастую наплевать на авторские права и конфиденциальность. Иногда полезно когда нужно сгенерировать какую то звезду. Да и делает он их очень похожими. В остальном чатгпт как будто бы генерирует лучше.

П.с. Тестил грок сразу после выхода обновления 3, но к выходу 4 сильно скатился в качестве. Посмотрим что будет на сей раз. Пока платить 30 в месяц чет не хочется, особенно учитывая что скоро chatGPT 5 выйдет

Arxitektor Jul 11 at 10:56

Тестил грок сразу после выхода обновления 3, но к выходу 4 сильно скатился в качестве.

Вооот.. После выхода недели 2 месяц все сетки прямо топчик. А потом режут и контекст и точность чтобы было быстрее. И все И снова по новой до выхода обновы у конкурентов или новой версии.

avshkol Jul 11 at 12:45

Грок, который в Телеграмм, о своей версии говорит очень затейливо)))

Кстати, вопрос для знатоков вселенной Звёздных войн: такая планета там действительно была???