cognitronn 25 мар в 20:49

Claude 3.7 Sonnet: Пора сдвинуть ChatGPT и Deepseek с лидирующих позиций

Простой

15 мин

21K

Блог компании BotHubИскусственный интеллектМашинное обучение*

Обзор

+19

Комментарии 39

Fizikoleg 25 мар в 20:58

Статья успела устареть едва появившись. Deepseek выпустили обновление модели V3, и Google выпустила Gemini Pro 2.5

nasingfaund 17 апр в 12:33

Гемини 2.5 pro завис. Задал оч простую задачку на питоне впендюрить cmd.exe в tkinter text. Логику описал норм и полностью завис при генерации кода. Упростил до нельзя, накодил. Кракозябры в выводе.

Pilotv 25 мар в 21:04

Давайте будем честными в задаче с автобусом Claude допустил более серьезную ошибку по сравнению с Deepseek. Китайский ИИ посчитал водителя и дал правильный ответ - 6 человек , claude же ответил заведомо неправильно - в автобусе как минимум 5 человек

dos 25 мар в 21:22

Так он ответил что там 5 человек а не 6

antonk42 25 мар в 21:27

Claude совершено верно констатировал, что в автобусе как минимум именно 5(а не 6) человек. Водитель, возможно, есть, но его может и не быть. Не исключено, что он выпрыгнул на ходу или умер за рулём. Или водителя в автобусе изначально не было, т.к. автобус на автопилоте, дистанционном управлении или прицеплен (например, из-за поломки или будучи в составе автобусного поезда) к тягачу, где сидит водитель.

tcapb1 26 мар в 02:28

ответ Claude:

В таком случае в автобусе могло бы быть минимум 5 человек (только пассажиры в последних двух рядах).
Однако, я полагаю, что классическая интерпретация подобных задач всё же предполагает наличие водителя за рулём функционирующего транспортного средства. Но ваше замечание вполне обоснованно с точки зрения логики и современных технологических возможностей.

Pilotv 26 мар в 18:14

А может один пассажир рептилойд а второй андройд и тогда людей всего трое, выдумать можно всякое. Это классическая задачка на внимательность и ИИ ее решил неправильно, это даже из объяснения видно где он сокрушается что нет дополнительной информации по пассажирам, но ничего не пишет о водителе.

antonk42 26 мар в 20:18

может один пассажир рептилойд а второй андройд

Это противоречит условию задачи, где явно сказано:

В последнем ряду сидят три человека, а в предпоследнем - два.

cupraer 26 мар в 20:27

Вы чё, никогда рептилоидов по фамилии «Два» не видели?

randomsimplenumber 26 мар в 00:21

Гипотеза: из того, что нейросеть решила задачу Х, не следует, что она решит также задачу Y.

mxr 25 мар в 22:18

В задачах "умного помощника" для кодера, Claude держит лидерство с середины прошлого года. Ранее использовал 3.5, сейчас перешёл на 3.7 с момента релиза. Их просто не возможно на полном серьёзе сравнивать с ChatGPT и уж тем более deepseek. От использования первых версий Gemeni остался осадок, на столько, что до сих пор не рискую тестировать.

antonk42 25 мар в 22:21

Grok?

lxnvr 26 мар в 00:24

Лично мне Грок зашёл своеобразным стилем общения, человечный он более, что ли. Без вычурной вежливости и любви ChatGPT к разбиванию всего и вся на списочки. Что касается кодинга (по работе нужны несложные скрипты на разных языках), почти всегда сразу предлагает рабочий вариант, плюс возможные улучшения и ограничения.

Timick 26 мар в 00:22

Тоже сложилось впечатление что Клод нервно курит в сторонке по расту и крестах.

milkyway044 26 мар в 06:49

В задачах "умного помощника" для кодера, Claude держит лидерство с середины прошлого года.

На каком стеке или задачах ты это видишь?

mxr 26 мар в 08:28

Все 3 выше указанные нейросетки, я успел полноценно попробовать в: C, JS, PHP
ChatGPT выдает хорошие результаты через чат, если просить его написать что-то небольшое без больших контекстов и на хорошо ему известном языке. Deepseek всегда выдавал результат хуже обоих, а Claude пишет хороший коммерческий код, практически не ошибается, не добавляет мусора, не выдумывает несуществующие методы и всегда держит в контексте проект с которым работаешь.

ChatGPT у меня в документах роется обычно, и он делает это лучше всех.
У Grok deep search неплохой, но мне не нравится вывод после исследований в котором мало когда есть суть и 60% текста копипаста предыдущих 30%.

milkyway044 26 мар в 10:21

Интересно, как меняется твой рабочий процесс при использовании ИИ, какую часть задач ты делаешь с Claude? Насколько сильно Claude ускоряет работу (2х, 3х, больше)?

mxr 26 мар в 15:56

Сложно оценить, думаю скорость разработки проекта растет на 50-70%. Меньше пишу кода вручную, но больше думаю о его архитектуре. После AI, я проверяю каждую строчку вручную пытаясь понять какие изменения он внес и не ошибся ли. Когда я писал код сам, это занимало больше времени на написание, но меньше на review.

George_Prikashchenkov 26 мар в 13:55

И насколько большие проекты, что он удачно помнит контекст проекта?

milkyway044 26 мар в 14:11

Скорее не проекты, а модули, компоненты — контекст Claude до 200k в Pro = примерно 10k строк кода.

mxr 26 мар в 16:00

Обычно это 4-5 файлов которые нужны для конкретной фичи. Модели, контроллеры, маршруты и их реализации. Все это тысячи строк, но сколько конкретно токенов я не могу сказать из-за того что каждая фича уникальна.
Я стараюсь не давать AI писать большие объемы кода, из-за того что мне сложнее будет отследить баги или ошибки которые он внес в ходе написания.

Но с ним очень легко разучится писать код, и мне повезло что я выучил те языки которые я использую до появления AI) Я могу увидеть ошибку или представить как работает та или иная часть кода которую он написал. С AI такой навык вряд ли будет вырабатываться у современных кодеров.

DanielKross 26 мар в 09:22

Да, я тоже от gemini долго плевался и вычеркнул его из списка интересных, для меня, нейросеток. Мне больше всего зашло совместное использование чатджпт и клауде, начинаешь в одном, полируешь в другом.

Per_Ardua 26 мар в 11:17

И правильно, что не рисковали ранее.

Gemini во многих вещах хорош, но работа в агентном режиме не в этом списке. Не так понимает инструкции (нужен сильно отличающийся подход), плохо работает с fim (может вносить изменения не в те строки файла, заменять функционал комментами, и даже зациклить агента), не очень хорошо понимает JSON-schema формат для входных параметров при работе с tools (может принимать его за пример json, из-за чего нужно прокидывать в контекст доп описание). В общем есть проблемы.

Но надеюсь в моделях 2.5 он из них вырастет. В моей компании используется именно он и я точно буду тестировать его в ближайшее время.

Pusk1 26 мар в 18:32

О3 mini который хай очень хорош в рамках чпта GPT для кодинга, Пытался использовать с курсором и только переплювался. По мне в лоб сравнивать модели становится всё сложнее. С котекстом инструменты работают по разному, а напрямик через API я ими не пользуюсь.

Anraus 25 мар в 22:53

Простите, но стихи у них у всех... Кхм... Не Пушкины, явно:)

А вот "Мону Лизу" Deepseek можно в рамочку!))

cupraer 26 мар в 09:50

Вот именно; Мона Лиза дикпика — единственное интересное во всем этом потоке жалких потуг.

Nikita_Pomogator 26 мар в 00:23

Сейчас прям гонка титанов — и кайф наблюдать, как каждый релиз всё ближе к тому самому «ИИ, который реально думает». Claude 3.7 зацепил именно подачей — не просто «быстрее и умнее», а упор на рассуждение. Это уже не про болтовню, а про глубину анализа. Интересно, кто первым научит модель по-настоящему обобщать между разными задачами, а не просто выдавать по шаблону. Спасибо за сводку — без неё легко потеряться в потоке апдейтов

positroid 26 мар в 09:25

Интересно, кто первым научит модель по-настоящему обобщать между разными задачами, а не просто выдавать по шаблону.

А можете дать пример такой задачи / промпта, с которыми ИИ пока не справляются?

Потому что по ощущениям уж обобщать они давно умеют.

maertor 26 мар в 16:21

Поправка: умеют шаблонно писать шаблонные обобщения. Яркий пример - анализ стихов в статье, который сделал не сам автор, а нейросеть. Реальные ошибки здесь упущены из виду, зато красочно (в стиле ИИ) описаны какие-то эфемерные придирки

cupraer 26 мар в 16:55

Если бы такие стихи показали живому человеку, он бы первом делом сказал, даже не читая дальше первой строки первого катрена, что Пушкин практически никогда не использовал мужскую рифму в первой строке (кроме «Узника» что-то вообще ничего не могу вспомнить) — Клод, вообще никогда не прибегал у цезурам — o3, и не подозревал о существовании дольника — Дикпик.

maertor 26 мар в 17:38

Ну вот, вы лишь подтвердили, что обобщать ИИ не умеет от слова "совсем".

Мужская рифма - это рифма с ударением на последний слог.

Просто читаем стихи Пушкина по порядку:

"Как ныне сбирается вещий ОлЕг..."

"Три девицы под окнОм

Пряли поздно вечеркОм."

"Духовной жаждою томИм,

В пустыне мрачной я влачился."

"Во глубине сибирских рУд..."

Цезура в стихах - это пауза внутри строки, то есть точка, двоеточие или многоточие будет не в конце строки, а где-нибудь в середине. Открываем случайное произведение Пушкина. Мне пришла в голову поэма "Медный всадник":

"На берегу пустынных волн

Стоял он, дум великих полн,

И вдаль глядел. Пред ним широко

Река неслася; бедный чёлн

По ней стремился одиноко".

Две цезуры в первых четырех стихах.

Разве что с изменением безударных слогов Пушкин не баловался. Дипсик выдал базу

cupraer 26 мар в 17:47

Узника я упомянул, Олега и девиц не вспомнил, каюсь. Цезура — это не то, что вы думаете, и в чёлне их нет.

Ни один живой человек, повторяю, не скажет, что оно хоть как-то похоже на Пушкина.

maertor 26 мар в 18:00

Ну вот цезура у Пушкина как словораздел:

"На старости | я сызнова живу,

Минувшее | проходит предо мною —

Давно ль оно | неслось, событий полно,

Волнуяся, | как море-окиян?

Теперь оно | безмолвно и спокойно".

Я не понимаю, на какой комментарий вы отвечаете. Я ведь был не согласен с автором статьи

cupraer 26 мар в 18:22

Я ведь был не согласен с автором статьи.

Это понятно, просто за цезуру обидно :)

Цезура (сильная цезура) — это намеренная потеря безударной (как правило) стопы. («Говорят, что раньше йог — мог // ни черта не бравши в рот — год…» — В. С.)

Errdonald 26 мар в 09:55

А комментарии тоже ИИ здесь пишут,бессмертные и бесстрастные, без страхов и болей, без связи с реальностью, импровизируя на заданную тему?

maertor 26 мар в 16:11

Во-первых, зачем в статье графики от разработчика? Их главная задача - продвинуть свой продукт, а значит инфа будет искажённой и достижения будут намеренно преувеличены. Во-вторых, аналитику к результатам тестов как будто тоже писал ИИ.

Например, вот здесь написано очень механистично, без понимания смысла написанного:

"...тает в сумраке дубров» звучит немного размытой метафорой. Строка «Осенний бал листает позолотой главы» хоть и красива, может показаться излишне поэтизированной".

Ну какие "дубров"? Правильно: дубравы, дубрав - через "а". И почему метафора немного размыта? Потому что "тает в сумраке"? Так это буквальная трактовка в стиле нейросетей!

Как строки СТИХОВ могут быть СЛИШКОМ поэтизированы? Вы кого пытаетесь надурить таким анализом? Живой человек явно так не может писать... И как у Дипсика можно было не заметить резкую смену ритма во втором четверостишии?

В "листании глав" проблема не в поэтичности, а в отсутствии логической связи с предыдущей строкой. Слова красивы, но бессмысленны. Логику прекрасно считывает человек, но часто не замечает нейросеть. Вы что, при оценке работы Клауде скормили ему все результаты, чтобы он оценил сам себя?

CFlAlex95 26 мар в 18:05

Мой опыт использования. Датасатанист. Питон.

Полгода назад - Клод был очень хорош. Быстро и точно. Но последний пару недель - куча лишнего. Простая просьба - 8 страниц кода. Причем в промте указано - степ бай степ. Но забывает на 3 итерацию. Невероятно короткаяя глубина.

Чат напротив стал хорош. Коротко, точно, и с длинной проблем нет.

Такое впечатление что перенастраивают постоянно. Так что приходится использовать по очереди.

Все тарифы - коммерческие.

xBodro 27 мар в 10:06

Попробовал Claude code, натравил его на достаточно большой проект и сделал несколько тестовых запросов: попросил написать немного документации и добавить логов. Надо отдать должное, сделал все хорошо, но за несколько этих запросов сожрал приветственные 5 баксов и попросил пополнить баланс. Хорошо, но дорого.

kenzhesi 8 апр в 08:40

Приветствую всех!

Вчера наконец оказался онлайн и попросил несколько ИИ:

на языке mql4 написать код МТФ (мультитаймфреймового) индикатора Simple Moving Average (SMA) не используя функции iMA() и iMAOnArray().

Это та ещё задачка )

Справилась только Claude Sonnet 37. До нее опрашивал DeepSeek (кажется V3), несколько LlaMA, GigaChat 2 Max (все с платных аккаунтов). До ChatGPT руки не дошли посмотреть.

Еще понравилось то, что Клод принимает к рассмотрению картинки. В моем случае скриншот из торгового терминала MetaTrader4. Ну только он был под рукой.

В интересное время живем, товарищи! Всем удачи-

Зарегистрируйтесь на Хабре, чтобы оставить комментарий