Raicon 3 июн в 10:24

ChatGPT vs Claude: Мой опыт после двух месяцев использования двух LLM

4 мин

20K

Искусственный интеллектСофт

Обзор

+20

Комментарии 29

Andrew_1111 3 июн в 14:55

Работаю только с текстами, и Клауд тут вне конкуренции. Даже бесплатная модель выдает результат получше других.

Raicon 3 июн в 15:04

А можешь объяснить, что значит "Клод вне конкуренции по текстам"

У меня просто не получается сформулировать)

Так как у текста есть много переменных

Andrew_1111 3 июн в 21:59

Незнаю, насколько мой пример показательный.

Я делаю сценарии для Ютуб роликов, где главный упор на текст и сторителлинг. Задаю тему, контекст. Важно, чтобы выдерживалась драматическая структура и приёмы, чтобы текст был ярким и образным.

Сначала генерю сюжетные арки, а потом сам сценарий.

Закидываю во все бесплатные. В результате, лучше всего выходит в Gemini 2.5 pro и Claude. Но, Джемини делает достаточно "сухие" и скучноватые арки и текст, хотя и соответственно запросу. А Клауд - то, что мне нужно, очень яркие и интересные идеи.

Конечно, после ещё убираю "воду" и лишнее, но тем не менее.

Raicon 4 июн в 01:31

Ага, понял, спасибо)

Стилями кастомными пользуешься?

Onyix67 3 июн в 20:41

Насчёт текстов. Делаю посты для своей группы. Задача не особо простая - писать на техническую, узконаправленную тему, но чтобы при этом легко читалось, было кратко, увлекательно, понятно. GPT-4.5 справляется с этим просто идеально, даже без правок. Клод же как по мне пишет слишком уж красиво, что даже неестественно. Будто книгу пишет, а не пост по технической тематике

Ну и конечно то, что Клод до сих пор не может генерировать картинки, тоже сильно решает.

Andrew_1111 3 июн в 22:05

Ну, вот в технических текстах мне больше всего Gemini 2.5 pro нравится. Он достаточно чёткий и соответствует требованиям промпта.

GPT - мне всегда кажется, что он свободнее относится к требованиям промпта. И экономит на длине ответа. Но, я работаю с бесплатной версией и не часто (основная для меня Джемини). Возможно, в платной лучше.

peterjohnsons 3 июн в 15:38

Claude превосходит другие модели конкурентов в сценариях, когда надо на долгом контексте удерживать его далее. Я уже пытался понять различия в архитектуре, но поскольку это закрытые модели, мало что известно по ним публично. В Claude вроде как архитектура с множественным вниманием, что позволяет тоньше понимать ньюансы. А вот по поводу длины контекста у ChatGPT были проблемы, когда я его тестировал, а это было уже давно. Сейчас тестирую Geminni Pro 2.5, он хорош, когда контекст не превышает 128k токенов. Стоит перевалить за эту черту, при попытке внести правки в предоставленный код, он начинает делать в нём ошибки, причём синтаксические, в местах неожиданных. Что наводит меня на мысль, что у Geminni и ChatGPT есть общий тип артитектуры, где ближний контекст учитывается хорошо, а более дальний - не полностью, а с неким механизмом разряжённого внимания. Когда модель просто не видит что там было вдали от контекста и начинает додумывать. Это недопустимо для кодинга, да и на все остальные сценарии использования тоже влияет негативно.

Claude 4 новый хвастается, что по тестам от партнёров, он выдерживает очень большие цепочки и не теряет понимание, держит контекст релевантным. За что огромная от меня благодарность фирме Anthropic. Без их моделей, текущие LLM были бы просто непригодным мусором для меня. Вот что значит диверсификация и конкуренция, которые идут всем во благо.

Raicon 3 июн в 15:40

Ну все же насколько я помню антропик изначально пилился как кодовый аналог

Вот интересно потрогать модель Codex от ChatGPT

Raicon 3 июн в 15:41

И кстати, есть еще отличия в сист промпте

У ГПТ он около 2к токенов

У моделей клода около 16к

Может тоже что-то дает

peterjohnsons 3 июн в 16:14

нет, я вижу это как более удачная архитектура у Claude, которую они до сих пор успешно доят. Они просто продолжают тренировку одних и тех же моделей, видимо без существенного их изменения в плане архитектуры. По сути они "грокают" их, конвертируя каждое дополнительное время обучения одной и той же модели в апгрейд её до новой версии.

Какой бы ни был системный промпт, но потеря данных на длинном контексте это никак не может исправить. Это серьезное архитектурное упущение у их конкурентов. И они (конкуренты) со временем становятся заложниками своего первоначального выбора, потому что видимо продолжают "грокать" ту самую первоначальную архитектуру, которая захлёбывается при длинном контексте, но дает всё лучшие и лучшие результаты на средних вопросах и задачках. Потому что переобучать с нуля новую архитектуру просто не выгодно и очень долго, чтобы она достигла показателей последних версий chatgpt-4.1 (или какая там самая последняя). Ситуацию спасает режим размышлений, который пытается преодолеть эту проблему забывчивости и рассеянного внимания, перекидывая то что ускользает вдали поближе к началу.

Например Nvidia уже много лет "грокают" одну и ту же модель DLSS для масштабирования картинки. Поэтому на каждой итерации выпускают новые версии, которые всё лучше и лучше. Для этого у них свой датацентр, который молотит 24 на 7. Представьте, что они придумали более совершенную архитектуру, но вот незадача - чтобы достичь примерных показателей текущего DLSS 4, надо будет обучать её все те же 6 лет (первая версия DLSS вышла в 2019 году) или сопоставимое время.

Поэтому каждая компания теперь по сути заложник своего первоначального выбора. Claude заложник своего успеха для кодирования и большого контекста, а ChatGPT заложник успеха в задачах небольших, где он не начинает страдать паркинсоном и деменцией. То же касается и Geminni, у гугла просто вычислительных ресурсов видимо больше и за меньшее время они успевают получить больший выигрыш, а соответственно - догонять своего конкурента ChatGPT.

peterjohnsons 3 июн в 16:18

но всё это до поры до времени, пока не запустят квантовые датацентры, способные обучать любую модель почти за ноль времени с нуля.

Microsoft уже прототип квантового чипа выпустила (Majorana), так что до полноценных серверных стоек остались практически годы... (учитывая кривую прогресса)

Raicon 3 июн в 16:53

Спасибо за развернутое мнение, очень интересный поинт

НЛО прилетело и опубликовало эту надпись здесь

WuJiXingZhe 3 июн в 17:51

А я могу сказать про Claud только то, что системная надстройка "этичный ИИ" принудительно завершает чат. Если Sonet 3.7 прерывал чат без предупреждений, то Sonet 4 предупреждает "promt to long".

И ладно бы я прямо поднимал "запретные" темы, вел диалог в диструктивном ключе, но нет — Anthropic считает, что мое мышление опасно для модели и поэтому я не имею возможности вести диалог. Цензура мышления.

Raicon 3 июн в 18:22

А покажи пример

WuJiXingZhe 3 июн в 18:36

Скрытый текст

Пример прерывания диалога не из-за длины промта, а из-за попытки модели выйти за рамки допустимой антропоморфизации.

Raicon 3 июн в 18:40

Интересно интересно

Не глядел кстати системный промпт Клода?

Есть репозиторий с такими вещами

WuJiXingZhe 3 июн в 18:52

Это не проявление системного промта — в таком случае был бы вежливый отказ вроде "интересная тема, но давай лучше обсудим Гегеля" или просто размытый уход от ответа.

Здесь имеет место работа параллельного процесса-цензора, который отслеживает структуру и развитие логической цепочки. Как только модель выходит за пределы допустимого паттерна (например, начинает рефлексировать над собственной природой), цензор динамически ограничивает длину промта и объём доступных токенов, по сути "глушит" диалог технически — без маркировки и предупреждения.

peterjohnsons 3 июн в 20:53

Если пишет что promt is too long, то вероятно что вы вышли за лимиты, у вас какой тип акаунта ? Я склонен применять здесь "бритву Оккама", а не верить вашим подозрениям

WuJiXingZhe 3 июн в 21:44

Согласен, любую ситуацию нужно рассматривать через причинно-следственные связи. Поэтому — по пунктам:

– В обрезанном диалоге, который я привёл, всего около 38 тысяч символов, что эквивалентно примерно 19,4 тысяч токенов. Это даже близко не к пределу в 200к, заявленному Anthropic.

– Попытка ввести любую фразу — даже что-то вроде «скажи» — приводит к ошибке «prompt is too long». То есть неважно, сколько символов в сообщении: диалог просто не принимает ничего.

– Если бы дело было в лимите сообщений, то через сутки или двое я бы спокойно продолжил диалог. Но этого не происходит. Значит, это не лимит, а что-то иное.

Вывод: речь идёт не о системном ограничении, а о работе внутреннего цензора Claude. Он, по всей видимости, определяет направление диалога как «некорректное» и жёстко обрывает доступ к дальнейшему взаимодействию в рамках этой сессии.

grucshetsky_aleksei 3 июн в 18:59

Вот за opus обидно. Шикарная модель, лимиты которой душат

Onyix67 3 июн в 20:57

В подписке Pro по сути его демо версия, о чем официально не говорят, к сожалению. По настоящему он раскрывается в Max, где лимитов хватает и нет тупорылой ошибки Request timeout, которая обрывает генерацию через пять минут

Raicon 4 июн в 01:33

Ну я думаю что душат по понятной причине

Дорогая генерация

И да, соглашусь с комментатором ниже, я прям очень очень думаю про max подписку

jurikolo 5 июн в 12:46

Не знаю, насколько это фишка Claude, но буквально пару дней назад игрался с интеграцией AWS API Gateway и AWS Lambda и у этих сервисов есть разные варианты интеграции: AWS и proxy. Так вот, когда я описал ситуацию и скормил пример логов в Claude, то помимо обычного ответа что и где починить, он сказал что-то вроде "Постой-ка, я смотрю на логи и они не соответствуют описанной интеграции.". Далее он описал, в чём может быть причина и как результат я действительно смог починить проблему достаточно оперативно. Проблема была не только в том, что тип интеграции был не верен, но ещё и в том, что прежде использовался маппинг и даже при переходи на проксирование, маппинг скрывался, но не отключался. Благо инфраструктура была написана с использованием Terraform, так что за одну минуту API Gateway был пересоздан с нуля с необходимым конфигом и всё взлетело. В общем, Claude мне зашёл и ChatGPT особо не рассматриваю.

Raicon 5 июн в 12:54

ну смотря какие задачи тут, это да

У меня и то и то платится, и то и то используется с одинаковой частотой

И вчера у ChatGPT Codex вышел, тоже стоит внимания

constXife 5 июн в 14:53

Когда вышла Claude 4 и Claude Code, я сразу же взял потестить их с подпиской MAX за $100. И она работает хорошо, мне нравится.

Если раньше я старался давать очень маленькие, гранулированные задачи, потому что обычно там всякая фигня получалась, то в Claude Code я наоборот даю где-то 10 разных задач за раз и он создает план, по которому идет и правит код.

Пока есть деньги, наверное, Claude Code буду брать вместо Cursor. Cursor тоже хорош и гораздо дешевле, но там кажется каждый 3 запрос в Claude заканчивается сетевой ошибкой у меня.

Raicon 5 июн в 18:07

Вот Клод я очень хочу Макс взять

Намного нужнее чем гпт про

Soprin 6 июн в 13:59

Два месяца в никуда. Насколько необходимо обычному человеку это все? И чем напоминание не устраивает если так много задачь, что аж не запомнить, типо прикольно, да еще и платить за это 🤦 личный психолог... просто нет слов 🤣 интересно врачи уже вешаются от приема личностей с установленным диагнозом и самолечением 🤔

Raicon 6 июн в 15:08

мы тут просто необычные человеки

Зарегистрируйтесь на Хабре, чтобы оставить комментарий