NeyroEntuziast Dec 12 2024 at 17:10

Я 8 часов тестировал модель o1 Pro за 200$ и сравнил ее с Claude Sonnet 3.5 за 20$

Easy

2 min

22K

Artificial IntelligenceThe future is here

Opinion

Translation

Comments 22

aborouhin Dec 12 2024 at 17:21

Для русскоязычной аудитории, если речь про абстрактный уровень знаний, а не конкретного человека с конкретной учёной степенью, PhD лучше переводить как "кандидат наук", а не как "доктор философии". Впрочем, в любом случае такое сравнение, IMHO, любой LLM пока что необоснованно льстит :)

NeyroEntuziast Dec 12 2024 at 17:32

Спасибо за разъяснение, поправил

sokolov_aa Dec 12 2024 at 19:01

До уровня кандидата наук многим нейронкам нужно развиваться такими темпами пару лет.

k-morozov Dec 12 2024 at 18:31

Более чистый, более удобный для поддержки код

А можно хоть один пример увидеть?

Если речь здесь про написать приложение уровня hello world - это одно дело. Если исправление существуещего кода - другое дело. Кто определял удобность получившегося кода? Есть примеры сравнения ответов разных моделей?

Превосходно справляется с задачами уровня доктора философии

Это какие задачи? Что на входе, что требовалось получить?

В общем нулевая информативность.

sokolov_aa Dec 12 2024 at 19:00

Я так понял, что определял автор, и написал пост по своим ощущениям. Это всего лишь мнение, это вроде не обзор. Я пробовал и то, и то, но под мои задачи Клода вполне хватает.

Mexcn Dec 13 2024 at 15:55

Я ради эксперимента писал телеграм-бота в Claude потом пробовал аналогично делать GPT, даже по качеству кода и объяснению - Claude лучше. Единственный минус - не может в слишком многострочный код, обрывает надо отдельно прописывать что бы продолжил с определенного места

Wwyn Dec 13 2024 at 21:59

Он статью написал только чтобы бота прорекламировать. Зачем ты задаёшь вопросы шитпостеру?

iqmaker Dec 12 2024 at 19:13

Хорошо бы для наглядности добавить примеры промта и ответа каждой из ИИ в решении реальных задач.
Т.к. когда дело касается именно прикладной задачи, например такого плана "напиши конечный автомат по формализации фраз ... тут идёт несколько примеров входа и выхода", то там нередко возникают сложности, например последний GPT так и не смог, хотя заготовку выдаёт быстро, но не работоспособной .. Сам GPT "объяснил" это как то, что он находится в дефиците времени и делает всё на "скорую" руку и ему не хватает времени оценить все состояния автомата.

Osaka Dec 12 2024 at 19:37

Не хватает сравнения с обычными o1 и 4o, ну и конечно, промптов и ответов и итоговой таблицы с баллами. Вряд ли это бы потребовало более 8 исходных часов, а информативности прибавило бы в разы.

teilarerJs Dec 12 2024 at 20:10

Зачем вы притащили сюда этот нейровысер от мошенника? У автора оригинального поста в linkedin как места работы указаны непонятные компании, которые он типа основал, но сайты у них не работают или состоят из Lorem ipsum dolor. В сертификаты добавлены бесплатные курсы на курсере вроде "гит для начинающих", на github 100 одинаковых проектов, каждый из которых - обертка для gpt. Указано множество опенсорс-проектов, к которым он якобы контрибьютил, только вот на github у него ничего подобного найти не удалось.
Конечно же его в комментариях попросили предоставить методологию и результаты, у него к сожалению не получилось, мол reddit удаляет его ссылки :).

TL;DR Автор ничего не тестировал 8 часов, он потратил час и создал с помощью LLM это нейрохрючево.

NeyroEntuziast Dec 12 2024 at 21:40

А для теста нейронок нужны созданные компании, дипломы, медали и регалии? Человек описал свой опыт и выразил свое мнение. Я опубликовал пост как мнение, а не как истину во всех инстанциях.

И я согласен с автором, что функционал o1 pro не стоит таких денег. Но если нужна модель под серьёзные проекты и задачи, то деньги окупятся с лихвой. Если же задачи как разработать план питания или написать код для небольшого приложения, то функционала Claude вполне хватит.

ArtursBirzgals Dec 13 2024 at 10:07

Я бы сказал что при активном использовании стоит. Если бесконечный о1 и для экстренных случаев о1про могут за месяц сэкономить мне 6 часов, и как Побочный эффект экономия нервов и счастливые коллеги то уже это того стоит. Домохозяйкам конечно это не нужно. Но тут можно сравнить с тем, что строители выбирают шуруповёрт Makita, а домохозяйка может купить в супермаркете, и будет счастлива

PDEMON Dec 13 2024 at 05:13

Вы забыли про контекстное окно. 32к у o1 против 128к у Sonnet 3.5

NeyroEntuziast Dec 13 2024 at 06:59

Согласен, тоже весомый аргумент

PDEMON Dec 13 2024 at 07:40

А так же для o1 не умения читать прикрепленный файлы. Вернее функция есть, но толком не работает. А вот sonnet с легкостью переваривает прикрепленные документы от первого до последнего символа.

denisemenov Dec 13 2024 at 08:22

По части программирования я скорее соглашусь. С оговоркой, что возможно используются разные версии, но всё же. Я сейчас попробовал Copilot в VSCode и тестировал Claude 3.5 Preview, ChatGPT 4o и o1 Preview. Задача помочь сделать WordPress сайт с несколькими десятками блоков на React.

Claude выдаёт более подходящий и достаточный код, согласно документации WordPress и ТЗ. В то время, как o1 выдаёт какой-то over engineering с усложнением логики, которой его не просили, подключает какие-то дополнительные библиотеки и использует то, чего в проекте нет и не нужно. С o1 я чаще просил удалять лишний код, чем в Claude. При этом с запросом "сделай мне фичу и проапгрейд её как-нибудь дополнительно" Claude создаёт более "готовые" решения. Это достаточно сложно объяснить без тонны примеров, но общее впечатление именно такое: чаще переключаюсь на Claude, чем на ChatGPT.

ArtursBirzgals Dec 13 2024 at 09:42

Именно за claude не скажу, я покупал подписку, пробовал с ней программировать, но мне понравилось меньше чем gpt 4о. Ну я допускаю что я с 4о привык работать, а с клавдией не очень.

Но когда перешёл на 1o, это стал совсем другой уровень. Понимает всё с первого раза, можно доверять тому чего он написал, редко когда приходится перепроверять или переделывать,.

Сейчас дал относительно сложную задачу о1про, он тоже сделал всё с первого раза, задача заключалась в том, что я делаю Бота для криптобиржи, файл на 770 строчек. И иногда стоп лосс и тейк Профит не может поставиться из-за того что выбирается неверное количество копеек. Типа мы хотели купить 1.0, купилось 0.99999. А продать мы всё равно хотим 1.

Предложил ему всё перепроверить все цифры перед тем как ставить ордера, он сам проверил связанный ордер покупки, посмотрел что там получилось, посмотрел сколько мы хотим продать, если продать хотим больше чем у нас есть то поправляет эту цифру, потом обрезает значение до пяти после запятой, всё логирует по логам всё читаемо, и всё Zero Shot.

Задача моя явно не Докторская.

А 4o просто предложил умножить на 0.99 :)

Замёл проблему под ковёр.