Провел небольшой тест. Взял 4 случайные задачи с coderun по теме алгоритмы. Задачи максимального уровня сложности. Выбирал задачи так, чтобы в условии было поменьше математических выражений, т.к. для них необходимо дополнительное ручное формаитрование, при копировании текста из браузера. Тестировал на сайте https://lmarena.ai/ (бывший чатбот арена) в режиме DirectChat. Просил написать код на Python. Результаты такие:
early-grok-3:
2 задачи - код рабочий - провал на первом тесте.
2 задачи - "ошибка компиляции"
o3-mini:
2 задачи - код рабочий, "решение зачтено", т.е. все тесты приняты.
1 задача - споткнулся на 24 тесте из 69. Т.е. решение "в целом верное", скорее всего не учтены какие-то крайние случаи.
1 задача - код рабочий - провал на первом тесте.
В чем Маску не занимать, так это в пиаре своих продуктов.
Провел небольшой тест. Взял 4 случайные задачи с coderun по теме алгоритмы. Задачи максимального уровня сложности. Выбирал задачи так, чтобы в условии было поменьше математических выражений, т.к. для них необходимо дополнительное ручное формаитрование, при копировании текста из браузера. Тестировал на сайте https://lmarena.ai/ (бывший чатбот арена) в режиме DirectChat. Просил написать код на Python. Результаты такие:
early-grok-3:
2 задачи - код рабочий - провал на первом тесте.
2 задачи - "ошибка компиляции"
o3-mini:
2 задачи - код рабочий, "решение зачтено", т.е. все тесты приняты.
1 задача - споткнулся на 24 тесте из 69. Т.е. решение "в целом верное", скорее всего не учтены какие-то крайние случаи.
1 задача - код рабочий - провал на первом тесте.
В чем Маску не занимать, так это в пиаре своих продуктов.
Здесь же три верных цифры?