kosyakus 8 фев в 14:43

Сравниваю ChatGPT-4o и ChatGPT-o3-mini-high

Простой

2 мин

14K

Swift*Разработка мобильных приложений*Искусственный интеллектПрограммирование*iOS*

Обзор

Комментарии 12

griha_shershen 8 фев в 15:05

осталось сравнить все модели сразу и ещё джуна, мидла, сеньора и nocode решение

kosyakus 8 фев в 15:13

Да, в принципе, сравнения никогда не закончатся. Пока буду сравнивать одно- уже новые версии выйдут)

Но вообще хочу теперь только DeepSeek R1 и ChatGPT-o3-mini-high сравнить. Но только не на анимации, а надо придумать какую-то задачу. Просто с анимацией нагляднее вроде выходит.

mxr 8 фев в 15:36

Почему бы не сравнить это с Claude 3.5 Sonnet? В последние недели появилось множество сравнительных обзоров ИИ-моделей, но решения от Anthropic часто остаются вне фокуса. На мой взгляд, Claude 3.5 Sonnet - одна из лучших нейросетей для работы с кодом на данный момент. Но ее продолжают активно игнорировать в подобных сравнениях, не понимаю почему так происходит.

anydasa 10 фев в 07:58

Плюсую. Пробовал в cline разные модели. Хотел сэкономить, т.к. sonnet не дешёвый получается. Но честно... все остальное совсем не то. Заметил, что я трачу на него уже четверть того что сам зарабатываю )) но работать быстрее стал. Не все идеально, но я готов платить за то что получаю

kipzshady 9 фев в 01:45

Можно еще сравнить Qwen

savostin 8 фев в 20:38

Такой вопрос, а Вы перелогинивались другим пользователем перед вторым тестом? Есть подозрение, что второй испотзовал знания первого. Можно еще в обратном порядке попробовать спросить.

kosyakus 9 фев в 07:27

Нет, я не перелогинивалась, но почти уверена, что он не использовал контекст предыдущего чата. Рассказываю: я, решив опять скоротать вечерок, заварила кофе, укуталась в пледик, предварительно нашла классную анимацию. Предвкушала отлично проведенные пару часов с chatGPT и XCode. Вставляю туда запрос и… первым же ответом он мне выдаёт готовый вариант анимации. Я ж даже кофе не успела глотнуть. И тут решила проверить, может анимация типа лёгкая, повторила запрос с костром - и он тоже как и описала в статье, повторил его быстро. Так и решила написать статью.

Вижу, что многие пишут что нафиг надо такое сравнение, а мне было весело, раз уж вечер пошёл не по плану)

Advisory 9 фев в 14:11

Когда в одной сессии DeepSeek застопорился и «по кругу» стал предлагать одни и те же не работающие идеи для исправления ошибки в коде скрипта, я начал новую сессию. Отправил код и описал проблему. На скриншоте начало его ответа.

upd.: кажется при ответе я не учел, что речь, видимо, идет о запросе к разным моделям. А в моем примере оба обсуждения одной проблемы относятся к одному и тому же DeepSeek'у.

PetkaKH 9 фев в 00:05

Серьезно? Давайте ещё больше контента, и сравним с ChatGPT 3.5. Можно ещё поставит дикпик (так веселее звучит) на компьютер с 4 Гб памяти и сравнить.

А если серьезно, то давно придумали бенчмарки для моделей, и там легко можно увидеть прирост в кодинге у 3o. Сейчас значение, не достижимое для других моделей. Но дорогая пока, пол года ждём и будет бесплатная.

Zeus42 9 фев в 09:21

А что мешает сравнить модели не в бенчмарках а на пользовательских задачах? К тому же на доступных моделях. Не вижу в этом проблемы.

PetkaKH 10 фев в 09:42

В том что это не пользовательская задача, а задача высосаная из пальца. Окей, на реальных задачах будет возможно интересно, но тут одним промптом написать игру. И сравнивают не сравниваемое. Давайте сравним БелАЗ и запорожец, куда больше груза поместится.

Zeus42 12 фев в 07:39

А какой критерий определения что "высосано из пальца" а что нет?) Таблиц не видел.

Написать игру одним промпот очень даже хорошее сравнение, если нейронке дали только задачу без полотна разьяснений, посмотреть как она справится. Поймет правильно контекст и т.д. и т.п.

Я и сам использую ее в похожих задачах. Задачи у всех разные.

Пысы: Запорожец и белаз тоже можно сравнить, если задача сравнить ту же вместимость, вопрос только в типе груза)

Зарегистрируйтесь на Хабре, чтобы оставить комментарий