Comments 22
Для русскоязычной аудитории, если речь про абстрактный уровень знаний, а не конкретного человека с конкретной учёной степенью, PhD лучше переводить как "кандидат наук", а не как "доктор философии". Впрочем, в любом случае такое сравнение, IMHO, любой LLM пока что необоснованно льстит :)
Более чистый, более удобный для поддержки код
А можно хоть один пример увидеть?
Если речь здесь про написать приложение уровня hello world - это одно дело. Если исправление существуещего кода - другое дело. Кто определял удобность получившегося кода? Есть примеры сравнения ответов разных моделей?
Превосходно справляется с задачами уровня доктора философии
Это какие задачи? Что на входе, что требовалось получить?
В общем нулевая информативность.
Я так понял, что определял автор, и написал пост по своим ощущениям. Это всего лишь мнение, это вроде не обзор. Я пробовал и то, и то, но под мои задачи Клода вполне хватает.
Я ради эксперимента писал телеграм-бота в Claude потом пробовал аналогично делать GPT, даже по качеству кода и объяснению - Claude лучше. Единственный минус - не может в слишком многострочный код, обрывает надо отдельно прописывать что бы продолжил с определенного места
Он статью написал только чтобы бота прорекламировать. Зачем ты задаёшь вопросы шитпостеру?
Хорошо бы для наглядности добавить примеры промта и ответа каждой из ИИ в решении реальных задач.
Т.к. когда дело касается именно прикладной задачи, например такого плана "напиши конечный автомат по формализации фраз ... тут идёт несколько примеров входа и выхода", то там нередко возникают сложности, например последний GPT так и не смог, хотя заготовку выдаёт быстро, но не работоспособной .. Сам GPT "объяснил" это как то, что он находится в дефиците времени и делает всё на "скорую" руку и ему не хватает времени оценить все состояния автомата.
Не хватает сравнения с обычными o1 и 4o, ну и конечно, промптов и ответов и итоговой таблицы с баллами. Вряд ли это бы потребовало более 8 исходных часов, а информативности прибавило бы в разы.
Зачем вы притащили сюда этот нейровысер от мошенника? У автора оригинального поста в linkedin как места работы указаны непонятные компании, которые он типа основал, но сайты у них не работают или состоят из Lorem ipsum dolor. В сертификаты добавлены бесплатные курсы на курсере вроде "гит для начинающих", на github 100 одинаковых проектов, каждый из которых - обертка для gpt. Указано множество опенсорс-проектов, к которым он якобы контрибьютил, только вот на github у него ничего подобного найти не удалось.
Конечно же его в комментариях попросили предоставить методологию и результаты, у него к сожалению не получилось, мол reddit удаляет его ссылки :).
TL;DR Автор ничего не тестировал 8 часов, он потратил час и создал с помощью LLM это нейрохрючево.
А для теста нейронок нужны созданные компании, дипломы, медали и регалии? Человек описал свой опыт и выразил свое мнение. Я опубликовал пост как мнение, а не как истину во всех инстанциях.
И я согласен с автором, что функционал o1 pro не стоит таких денег. Но если нужна модель под серьёзные проекты и задачи, то деньги окупятся с лихвой. Если же задачи как разработать план питания или написать код для небольшого приложения, то функционала Claude вполне хватит.
Я бы сказал что при активном использовании стоит. Если бесконечный о1 и для экстренных случаев о1про могут за месяц сэкономить мне 6 часов, и как Побочный эффект экономия нервов и счастливые коллеги то уже это того стоит. Домохозяйкам конечно это не нужно. Но тут можно сравнить с тем, что строители выбирают шуруповёрт Makita, а домохозяйка может купить в супермаркете, и будет счастлива
Вы забыли про контекстное окно. 32к у o1 против 128к у Sonnet 3.5
По части программирования я скорее соглашусь. С оговоркой, что возможно используются разные версии, но всё же. Я сейчас попробовал Copilot в VSCode и тестировал Claude 3.5 Preview, ChatGPT 4o и o1 Preview. Задача помочь сделать WordPress сайт с несколькими десятками блоков на React.
Claude выдаёт более подходящий и достаточный код, согласно документации WordPress и ТЗ. В то время, как o1 выдаёт какой-то over engineering с усложнением логики, которой его не просили, подключает какие-то дополнительные библиотеки и использует то, чего в проекте нет и не нужно. С o1 я чаще просил удалять лишний код, чем в Claude. При этом с запросом "сделай мне фичу и проапгрейд её как-нибудь дополнительно" Claude создаёт более "готовые" решения. Это достаточно сложно объяснить без тонны примеров, но общее впечатление именно такое: чаще переключаюсь на Claude, чем на ChatGPT.
Именно за claude не скажу, я покупал подписку, пробовал с ней программировать, но мне понравилось меньше чем gpt 4о. Ну я допускаю что я с 4о привык работать, а с клавдией не очень.
Но когда перешёл на 1o, это стал совсем другой уровень. Понимает всё с первого раза, можно доверять тому чего он написал, редко когда приходится перепроверять или переделывать,.
Сейчас дал относительно сложную задачу о1про, он тоже сделал всё с первого раза, задача заключалась в том, что я делаю Бота для криптобиржи, файл на 770 строчек. И иногда стоп лосс и тейк Профит не может поставиться из-за того что выбирается неверное количество копеек. Типа мы хотели купить 1.0, купилось 0.99999. А продать мы всё равно хотим 1.
Предложил ему всё перепроверить все цифры перед тем как ставить ордера, он сам проверил связанный ордер покупки, посмотрел что там получилось, посмотрел сколько мы хотим продать, если продать хотим больше чем у нас есть то поправляет эту цифру, потом обрезает значение до пяти после запятой, всё логирует по логам всё читаемо, и всё Zero Shot.
Задача моя явно не Докторская.
А 4o просто предложил умножить на 0.99 :)
Замёл проблему под ковёр.
Автор забыл упомянуть маленький бонус в виде Безлимитной Sora , с генерацией видео в разрешении в 1020 без водяного знака
Лимиты о1 про сильно больше чем сонета, так нельзя в лоб сравнивать (
Типа бесплатного chatgpt 4o не хватает?
Я 8 часов тестировал модель o1 Pro за 200$ и сравнил ее с Claude Sonnet 3.5 за 20$