Комментарии 12
осталось сравнить все модели сразу и ещё джуна, мидла, сеньора и nocode решение
Да, в принципе, сравнения никогда не закончатся. Пока буду сравнивать одно- уже новые версии выйдут)
Но вообще хочу теперь только DeepSeek R1 и ChatGPT-o3-mini-high сравнить. Но только не на анимации, а надо придумать какую-то задачу. Просто с анимацией нагляднее вроде выходит.
Почему бы не сравнить это с Claude 3.5 Sonnet? В последние недели появилось множество сравнительных обзоров ИИ-моделей, но решения от Anthropic часто остаются вне фокуса. На мой взгляд, Claude 3.5 Sonnet - одна из лучших нейросетей для работы с кодом на данный момент. Но ее продолжают активно игнорировать в подобных сравнениях, не понимаю почему так происходит.
Можно еще сравнить Qwen
Такой вопрос, а Вы перелогинивались другим пользователем перед вторым тестом? Есть подозрение, что второй испотзовал знания первого. Можно еще в обратном порядке попробовать спросить.
Нет, я не перелогинивалась, но почти уверена, что он не использовал контекст предыдущего чата. Рассказываю: я, решив опять скоротать вечерок, заварила кофе, укуталась в пледик, предварительно нашла классную анимацию. Предвкушала отлично проведенные пару часов с chatGPT и XCode. Вставляю туда запрос и… первым же ответом он мне выдаёт готовый вариант анимации. Я ж даже кофе не успела глотнуть. И тут решила проверить, может анимация типа лёгкая, повторила запрос с костром - и он тоже как и описала в статье, повторил его быстро. Так и решила написать статью.
Вижу, что многие пишут что нафиг надо такое сравнение, а мне было весело, раз уж вечер пошёл не по плану)

Когда в одной сессии DeepSeek застопорился и «по кругу» стал предлагать одни и те же не работающие идеи для исправления ошибки в коде скрипта, я начал новую сессию. Отправил код и описал проблему. На скриншоте начало его ответа.
upd.: кажется при ответе я не учел, что речь, видимо, идет о запросе к разным моделям. А в моем примере оба обсуждения одной проблемы относятся к одному и тому же DeepSeek'у.
Серьезно? Давайте ещё больше контента, и сравним с ChatGPT 3.5. Можно ещё поставит дикпик (так веселее звучит) на компьютер с 4 Гб памяти и сравнить.
А если серьезно, то давно придумали бенчмарки для моделей, и там легко можно увидеть прирост в кодинге у 3o. Сейчас значение, не достижимое для других моделей. Но дорогая пока, пол года ждём и будет бесплатная.
А что мешает сравнить модели не в бенчмарках а на пользовательских задачах? К тому же на доступных моделях. Не вижу в этом проблемы.
В том что это не пользовательская задача, а задача высосаная из пальца. Окей, на реальных задачах будет возможно интересно, но тут одним промптом написать игру. И сравнивают не сравниваемое. Давайте сравним БелАЗ и запорожец, куда больше груза поместится.
А какой критерий определения что "высосано из пальца" а что нет?) Таблиц не видел.
Написать игру одним промпот очень даже хорошее сравнение, если нейронке дали только задачу без полотна разьяснений, посмотреть как она справится. Поймет правильно контекст и т.д. и т.п.
Я и сам использую ее в похожих задачах. Задачи у всех разные.
Пысы: Запорожец и белаз тоже можно сравнить, если задача сравнить ту же вместимость, вопрос только в типе груза)
Сравниваю ChatGPT-4o и ChatGPT-o3-mini-high