Комментарии 37
Статья успела устареть едва появившись. Deepseek выпустили обновление модели V3, и Google выпустила Gemini Pro 2.5
Давайте будем честными в задаче с автобусом Claude допустил более серьезную ошибку по сравнению с Deepseek. Китайский ИИ посчитал водителя и дал правильный ответ - 6 человек , claude же ответил заведомо неправильно - в автобусе как минимум 5 человек
Так он ответил что там 5 человек а не 6
Claude совершено верно констатировал, что в автобусе как минимум именно 5(а не 6) человек. Водитель, возможно, есть, но его может и не быть. Не исключено, что он выпрыгнул на ходу или умер за рулём. Или водителя в автобусе изначально не было, т.к. автобус на автопилоте, дистанционном управлении или прицеплен (например, из-за поломки или будучи в составе автобусного поезда) к тягачу, где сидит водитель.
ответ Claude:
В таком случае в автобусе могло бы быть минимум 5 человек (только пассажиры в последних двух рядах).
Однако, я полагаю, что классическая интерпретация подобных задач всё же предполагает наличие водителя за рулём функционирующего транспортного средства. Но ваше замечание вполне обоснованно с точки зрения логики и современных технологических возможностей.
Гипотеза: из того, что нейросеть решила задачу Х, не следует, что она решит также задачу Y.
В задачах "умного помощника" для кодера, Claude держит лидерство с середины прошлого года. Ранее использовал 3.5, сейчас перешёл на 3.7 с момента релиза. Их просто не возможно на полном серьёзе сравнивать с ChatGPT и уж тем более deepseek. От использования первых версий Gemeni остался осадок, на столько, что до сих пор не рискую тестировать.
Grok?
Лично мне Грок зашёл своеобразным стилем общения, человечный он более, что ли. Без вычурной вежливости и любви ChatGPT к разбиванию всего и вся на списочки. Что касается кодинга (по работе нужны несложные скрипты на разных языках), почти всегда сразу предлагает рабочий вариант, плюс возможные улучшения и ограничения.
Тоже сложилось впечатление что Клод нервно курит в сторонке по расту и крестах.
В задачах "умного помощника" для кодера, Claude держит лидерство с середины прошлого года.
На каком стеке или задачах ты это видишь?
Все 3 выше указанные нейросетки, я успел полноценно попробовать в: C, JS, PHP
ChatGPT выдает хорошие результаты через чат, если просить его написать что-то небольшое без больших контекстов и на хорошо ему известном языке. Deepseek всегда выдавал результат хуже обоих, а Claude пишет хороший коммерческий код, практически не ошибается, не добавляет мусора, не выдумывает несуществующие методы и всегда держит в контексте проект с которым работаешь.
ChatGPT у меня в документах роется обычно, и он делает это лучше всех.
У Grok deep search неплохой, но мне не нравится вывод после исследований в котором мало когда есть суть и 60% текста копипаста предыдущих 30%.
Интересно, как меняется твой рабочий процесс при использовании ИИ, какую часть задач ты делаешь с Claude? Насколько сильно Claude ускоряет работу (2х, 3х, больше)?
Сложно оценить, думаю скорость разработки проекта растет на 50-70%. Меньше пишу кода вручную, но больше думаю о его архитектуре. После AI, я проверяю каждую строчку вручную пытаясь понять какие изменения он внес и не ошибся ли. Когда я писал код сам, это занимало больше времени на написание, но меньше на review.
И насколько большие проекты, что он удачно помнит контекст проекта?
Скорее не проекты, а модули, компоненты — контекст Claude до 200k в Pro = примерно 10k строк кода.
Обычно это 4-5 файлов которые нужны для конкретной фичи. Модели, контроллеры, маршруты и их реализации. Все это тысячи строк, но сколько конкретно токенов я не могу сказать из-за того что каждая фича уникальна.
Я стараюсь не давать AI писать большие объемы кода, из-за того что мне сложнее будет отследить баги или ошибки которые он внес в ходе написания.
Но с ним очень легко разучится писать код, и мне повезло что я выучил те языки которые я использую до появления AI) Я могу увидеть ошибку или представить как работает та или иная часть кода которую он написал. С AI такой навык вряд ли будет вырабатываться у современных кодеров.
Да, я тоже от gemini долго плевался и вычеркнул его из списка интересных, для меня, нейросеток. Мне больше всего зашло совместное использование чатджпт и клауде, начинаешь в одном, полируешь в другом.
И правильно, что не рисковали ранее.
Gemini во многих вещах хорош, но работа в агентном режиме не в этом списке. Не так понимает инструкции (нужен сильно отличающийся подход), плохо работает с fim (может вносить изменения не в те строки файла, заменять функционал комментами, и даже зациклить агента), не очень хорошо понимает JSON-schema формат для входных параметров при работе с tools (может принимать его за пример json, из-за чего нужно прокидывать в контекст доп описание). В общем есть проблемы.
Но надеюсь в моделях 2.5 он из них вырастет. В моей компании используется именно он и я точно буду тестировать его в ближайшее время.
О3 mini который хай очень хорош в рамках чпта GPT для кодинга, Пытался использовать с курсором и только переплювался. По мне в лоб сравнивать модели становится всё сложнее. С котекстом инструменты работают по разному, а напрямик через API я ими не пользуюсь.
Простите, но стихи у них у всех... Кхм... Не Пушкины, явно:)
А вот "Мону Лизу" Deepseek можно в рамочку!))
Сейчас прям гонка титанов — и кайф наблюдать, как каждый релиз всё ближе к тому самому «ИИ, который реально думает». Claude 3.7 зацепил именно подачей — не просто «быстрее и умнее», а упор на рассуждение. Это уже не про болтовню, а про глубину анализа. Интересно, кто первым научит модель по-настоящему обобщать между разными задачами, а не просто выдавать по шаблону. Спасибо за сводку — без неё легко потеряться в потоке апдейтов
Интересно, кто первым научит модель по-настоящему обобщать между разными задачами, а не просто выдавать по шаблону.
А можете дать пример такой задачи / промпта, с которыми ИИ пока не справляются?
Потому что по ощущениям уж обобщать они давно умеют.
Поправка: умеют шаблонно писать шаблонные обобщения. Яркий пример - анализ стихов в статье, который сделал не сам автор, а нейросеть. Реальные ошибки здесь упущены из виду, зато красочно (в стиле ИИ) описаны какие-то эфемерные придирки
Если бы такие стихи показали живому человеку, он бы первом делом сказал, даже не читая дальше первой строки первого катрена, что Пушкин практически никогда не использовал мужскую рифму в первой строке (кроме «Узника» что-то вообще ничего не могу вспомнить) — Клод, вообще никогда не прибегал у цезурам — o3, и не подозревал о существовании дольника — Дикпик.
Ну вот, вы лишь подтвердили, что обобщать ИИ не умеет от слова "совсем".
Мужская рифма - это рифма с ударением на последний слог.
Просто читаем стихи Пушкина по порядку:
"Как ныне сбирается вещий ОлЕг..."
"Три девицы под окнОм
Пряли поздно вечеркОм."
"Духовной жаждою томИм,
В пустыне мрачной я влачился."
"Во глубине сибирских рУд..."
Цезура в стихах - это пауза внутри строки, то есть точка, двоеточие или многоточие будет не в конце строки, а где-нибудь в середине. Открываем случайное произведение Пушкина. Мне пришла в голову поэма "Медный всадник":
"На берегу пустынных волн
Стоял он, дум великих полн,
И вдаль глядел. Пред ним широко
Река неслася; бедный чёлн
По ней стремился одиноко".
Две цезуры в первых четырех стихах.
Разве что с изменением безударных слогов Пушкин не баловался. Дипсик выдал базу
Узника я упомянул, Олега и девиц не вспомнил, каюсь. Цезура — это не то, что вы думаете, и в чёлне их нет.
Ни один живой человек, повторяю, не скажет, что оно хоть как-то похоже на Пушкина.
Ну вот цезура у Пушкина как словораздел:
"На старости | я сызнова живу,
Минувшее | проходит предо мною —
Давно ль оно | неслось, событий полно,
Волнуяся, | как море-окиян?
Теперь оно | безмолвно и спокойно".
Я не понимаю, на какой комментарий вы отвечаете. Я ведь был не согласен с автором статьи
А комментарии тоже ИИ здесь пишут,бессмертные и бесстрастные, без страхов и болей, без связи с реальностью, импровизируя на заданную тему?
Во-первых, зачем в статье графики от разработчика? Их главная задача - продвинуть свой продукт, а значит инфа будет искажённой и достижения будут намеренно преувеличены. Во-вторых, аналитику к результатам тестов как будто тоже писал ИИ.
Например, вот здесь написано очень механистично, без понимания смысла написанного:
"...тает в сумраке дубров» звучит немного размытой метафорой. Строка «Осенний бал листает позолотой главы» хоть и красива, может показаться излишне поэтизированной".
Ну какие "дубров"? Правильно: дубравы, дубрав - через "а". И почему метафора немного размыта? Потому что "тает в сумраке"? Так это буквальная трактовка в стиле нейросетей!
Как строки СТИХОВ могут быть СЛИШКОМ поэтизированы? Вы кого пытаетесь надурить таким анализом? Живой человек явно так не может писать... И как у Дипсика можно было не заметить резкую смену ритма во втором четверостишии?
В "листании глав" проблема не в поэтичности, а в отсутствии логической связи с предыдущей строкой. Слова красивы, но бессмысленны. Логику прекрасно считывает человек, но часто не замечает нейросеть. Вы что, при оценке работы Клауде скормили ему все результаты, чтобы он оценил сам себя?
Мой опыт использования. Датасатанист. Питон.
Полгода назад - Клод был очень хорош. Быстро и точно. Но последний пару недель - куча лишнего. Простая просьба - 8 страниц кода. Причем в промте указано - степ бай степ. Но забывает на 3 итерацию. Невероятно короткаяя глубина.
Чат напротив стал хорош. Коротко, точно, и с длинной проблем нет.
Такое впечатление что перенастраивают постоянно. Так что приходится использовать по очереди.
Все тарифы - коммерческие.
Попробовал Claude code, натравил его на достаточно большой проект и сделал несколько тестовых запросов: попросил написать немного документации и добавить логов. Надо отдать должное, сделал все хорошо, но за несколько этих запросов сожрал приветственные 5 баксов и попросил пополнить баланс. Хорошо, но дорого.
Claude 3.7 Sonnet: Пора сдвинуть ChatGPT и Deepseek с лидирующих позиций