Комментарии 46
Интересный результат. Пробовал такие тесты устраивать по вопросам Frontend разработки и хочу сказать, что в большинстве кейсов ChatGPT побеждает. В редких случаях, по отдельным темам наоборот, DeepSeek выдаёт более удовлетворительный ответ. Но и у вас и у меня всё-таки несистемный подход и по-хорошему необходимо тестировать на большем количестве запросов разных форматов. Чисто по ощущениям после недели пользования, DeepSeek по IQ больше походит на Gemini, нежели на ChatGPT.
Какой ChatGPT использовали? GPT-4o, о1 или o1 pro? А то, если сравнивать с GPT-4o то можно и не сравнивать, уровень совершенно разный
В чью пользу?
Действительно, даже не подумала, что по-хорошему надо было написать это в статье. Чат GPT-4o и Deepseek-V3.
жду сравнения o1 и r1, если к первому нет доступа, могу от своего имени закинуть
Я сравнивал о1 и r1. Но не совсем в правильных условиях. Начал писать с о1 скрипт для экселя на vба который будет отрезать от модельки в SolidWorks по миллиметру и замерять оставшийся объём на каком-то этапе gpt не справился с запросами к API SolidWorks и Я обратился за исправление ошибок к модели r1 так вот она начала нести вообще лютейшую дичь в то время как gpt хотя бы что-то старался исправить в итоге после небольшого допиливания ручками кот от gpt прекрасно работает.
Сейчас начал писать квиз по своей профессии на Java в ChatGPT. Код получается, но со скрипом: всё валится в один класс, данные не вынесены, всё загромождено в main. Приходится самому раскладывать структуру.
Переключился на DeepSeek — и сразу заметил разницу. Он сам предложил улучшения, грамотно разбил код на классы, вынес данные в JSON. Работа пошла заметно легче. Но в какой-то момент DeepSeek начал люто зависать, и пришлось снова вернуться к ChatGPT, несмотря на его склонность к менее структурированному коду.
В итоге DeepSeek по организации кода понравился больше, но из-за зависаний продолжить работу с ним не получилось.
Вот это сообщение например написано путём распознавания речи и оформления в приличный текст на чат gpt 4о))
Уже не актуально, теперь сравниваем r1 с o3
Но я лично уже потестировал и вот что заметил:
1) r1 решает кодефорсес лучше чем o1 и все модели ниже
2) o1 пишет намного лучше большой код во многих файлах сразу, написал телеграм мини эп буквально за полтора часа полноценный с бекендом на fastapi и фронтом на vue. По приколу решил со своего давнего большого проекта код объеденить в 1 файл и попросил обложить ручки всеми возможными тестами(чтобы как в sqlite где на каждую строчку кода 600 строчек тестов), и получилось очень и очень хорошо, даже отдельно написал юнит тесты и интеграционные, и даже без моих запросов догадался использовать инъекцию зависимости чтобы бд тестовая использовалась
3) o3 mini - ничем не лучше o1
4) o3 mini high - убийца дипсика и клауди и что там ещё существует на планете, попросил его сгенерировать микросервис на го, за 2 запроса сгенерил код и за третий запрос обложил его тестами, даже интеграционными, плюс написал как правильно начальнику объяснить почему я неделю ничего не делал предоставив этот код чтобы загладить вину
Но вот именно как генерирует код например приложений на андроид и ios - очень интересно мнение экспертов, как например автора поста
у меня наоборот получилось, пользоваться им невозможно, пишет вообще какую-то ерунду, ну только если супер простенькое что-то спрашивать
по-моему qwen сейчас даже лучше дипсика, и пользоваться тоже можно без впн, хотя тоже ерунду выдает, даже если с 4о сравнивать
мой вопрос
Мне нужна таблица с навигацией по ячейкам написанная на go, bubble tea и таблицей из пакета "github.com/evertras/bubble-table/table"
Доступ к внешним ресурсам это сложная тема, и её выполняет не модель а фронтэнд, сама модель не имеет к этому никакого отношения. Если фронт не нашёл ничего по вашей ссылке и не передал в контекст, то эта часть строки будет только путать модель, прося делать непонятно что.
Для чистоты эксперимента скачайте все нужные файлы по ссылке вручную и положите в контекст модели.
А Вы нажимали использовать нейросеть?
Вы можете представить человека, который сможет по такому тз что то написать? да тут вопросов возникает тьма, не говоря про анализ, который нужно провести по коду по ссылке.
А вы хотите что то от ИИ, которому три года от роду и который хуже человека по всем параметрам кроме стоимости?
с первым заданием обе модели справились.
ChatGPT провалил часть задания
квадратики которые она съедает - разных цветов
сделав вместо этого квадратики постоянно меняющегося цвета.
И если вы для проверки хотите задавать задачи с уже известными реализациями - то не стоит в промте упоминать устоявшееся название этой игры, ведь велика вероятность что модель просто скопипастит кусок имеющегося кода. Наоборот, желательно сделать какой-нибудь "финт ушами", вроде движения змейки под углом.
Более полугода очень активно использую оба инструмента ежедневно в своей работе (DS с июня прошлого года). Стек в основном python, java, plsql, html, js, css.
По моим наблюдениям на текущий момент ни один из двух не заменяет программиста. На сколько-нибудь комплексной задаче ничего хорошего не будет. Более-менее сносные результаты получаешь на типовых запросах (миллионы реализаций той же змейки уже изучены ИИ - конечно он выдаст достойный вариант). На НЕ типовых задачах повышенной сложности в моем личном рейтинге DeepSeek значительно превосходит ChatGPT (ну или лучше меня понимает :))
Оба иногда утыкаются в тупики из которого их не вывести никакими уточнениями - переписываешь куски сам, скармливаешь рабочий вариант - едешь дальше.
Ну и, конечно же, чем популярнее кодовая база (больше было материалов для изучения), тем лучше ответы. По python и java - отлично. Простые sql напишет и тот и другой. Сложные запросы (на 100+строк с агрегациями, партицированиями и прочей ерундой) лучше даже не просить без четкого понимания что должно быть на выходе: очень часто выдается код, который вроде даже работает, но на самом деле работает некорректно. Требуется тщательная проверка и исправление.
Итого по моим наблюдениям. v3 однозначно выигрывает в моем личном рейтинге у 4о. о1 и r1 забавны (видно рассуждения и иногда видя что он там пропустил или какие сделал допущения можно скорректировать запрос дальше), но избыточны. Работают существенно дольше и помнят меньше контекста диалога. Китайская модель со временем выдает результаты лучше, а ChatGPT сильно деградирует: порой переключение на 3.5 позволяет получить значительно более корректный результат.
Прошу прощения за многобукв.
P.S. все вышенаписанное про веб и десктопную разработку. К мобильным приложениям касательств не имел никогда.
А как вы используете DS, через web-интерфейс?
Да, через веб.
Я однозначно против подключения ассистентов в IDE хотя бы потому, что в коде в разработке могут быть чувствительные приватные данные. Я не хочу, что весь мой код улетал непонятно куда на анализ. Лучше я буду спрашивать интересующее меня давая только нужную информацию и пользоваться ответами.
У них у всех пока серьезные проблемы с алгоритмами, с кодом который неочевидно как делать. Например надо нарезать аудиофайл на части до 60 секунд размером, по заранее полученным точкам в которых можно делать разрез(пауза в речи). То есть на входе список возможных точек и желаемый размер сегмента, на выходе новый список точек.
Кажется что несложно, но на самом деле когда начинаешь делать понимаешь что не всё так очевидно, и есть подводный камень - могут быть сегменты больше чем разрешено.
Ллм бегают по кругу, приходится их тащить за рога в нужном направлении.
Вчера как раз написал тут релевантный пост - Полезные советы при разработке с AI IDE агентами
Задавать подобные промпты чатботам для поиска IDE AI помощника - бессмысленно. Они ничего полезного не меряют. Это как сравнивать двух бойцов на число отжиманий, хотя потом вы их будете использовать на полноценном поле боя.
Важен контекст кодовой базы, более грамотные промпты, определенный тип задач, тактика промптов, при выполнении определенных задач - и тогда AI может сделать жизнь сказкой. Какая именно AI - надо пробовать. Но не так, как в этой статье.
Довольно наивно выглядит вот этот совет писать понятные промпты или там уметь писать промпты. И вообще делать из промптов какую то науку. Типа только умные умеют писать промпты.
Нет, эти ИИ могут понять что спрашивают даже если делать ошибки в каждом слове.
Так при чем тут промпты?
Уточнение задачи в начальном промпте только снизит количество итераций вопросов. Но не факт. Я предпочитаю цепочку уточнений, чем сразу все писать в одном запросе.
В любом случае сессия вопросов-ответов с ИИ длится значительно короче последующей отладки. Поэтому запариваться над промптами нет никакой необходимости.
Ясно что ChatGPT и DeepSeek - в понимании текста одно и тоже. Но ChatGPT умеет читать с картинок. Это огромное преимущество. Он может переписать код выданный ему в виде скриншота. Или, например, сгенерить массив на C выданный ему в виде картинки таблицы.
И в этом ChatGPT гораздо сильнее DeepSeek .
Нет, речь о полноте информации в промпте, а не ошибках.
Когда ты обращаешься к человеку-специалисту, большую часть необходимых знаний он додумывает за тебя,.. почти то же самое делает ИИ но он больше выдумывает чем догадывается (по уму это должны вытягивать рассуждающие модели, но там других проблем хватает).
Не забываем что речь идет о трансформере, это основа технологии gpt (general pretrained transformer), который не просто так назван, он лучше всего умеет преобразовывать из одного вида информацию в другой... из одного языка в другой, из текста ТЗ в программу... чем полнее и точнее ты опишешь задание, тем лучше.
А так как в обучающих данных полно другого бреда, который почти наверняка будет мешать в данном конкретном случае, используют лайфхаки, вида - придание эмоциональности запросу (повышает качество), просьбы по рассуждать или перепроверить себя (неуверенность в своих же ответах повышает качество) и главный лайфхак, про который все забывают - давайте сети примеры, multishot один из первых методов (и наверное самый лучший) для улучшения качества... но нет, все хотят коротки oneshot и ждут от неполноценных галлюцинирующих моделей шедевры.
все это должно быть в промпте.
И помним, современный ИИ еще далеко не AGI. Мы не умеем пока его адекватно тестировать, обычно тесты проверяют на знания (обладание информацией) но не на умение её использовать... точнее это умение у моделей есть, но очень очень слабое, из-за которого и создается впечатление что модель умна. А главная беда обучения нейронок - переобученность, они заучивают примеры,.. притом они вытаскивают не сам текст примера, а обучаются на его производных более глубокого уровня (трансформер многослоен, заучить может не входы всей сети, а входы какого-то внутреннего слоя), мало того, похоже это и есть то как оно вообще что-либо запоминает, т.е. невозможно это у сети отключить, ведь тогда ее и обучать будет проблематично.
Именно переобученность и пускает пыль в глаза тем кто с дуру тестирует сеть на банальностях. Придумывайте задания, которых в принципе не могло быть в обучающей выборке. Анализируйте ошибки ИИ, что бы понять, почему именно она не смогла... в этом на порядок больше информации о качестве ИИ чем в сухих циферках бенчмарков.
Да, да. Взорвите свой мозг чтобы создать промт и только потом спрашивайте у ИИ.
Нет, люди так не делают, кто хоть мало мальски имел дело с ИИ. Сам ИИ научит вас экономичности вопросов.
ChatGPT в одной сессии помнит весь контекст. Подозреваю что он вообще помнит весь контекст с одного аккаунта. Поэтому начинает очень быстро понимать с полуслова.
Знание на чем сделан ИИ ничем не помогут и нечего их притягивать. Все равно это комерческая тайна, а что там сплетничают о их архитектуре не надо принимать слишком серьезно. У этих парней с дезинформацией конкурентов все отлично налажено. И как пишется в этой статье https://situational-awareness.ai/ ИИ - это прежде всего оружие, а они пока хватают низковисящие плоды буквально каждый день. Т.е. трансформеры это не самое важное в их архитектуре.
Их бенчмарки это тоже способ всех запутать. Мне как юзеру не интересна их средняя температура по больнице. А вот как они генерят код змейки важно.
Почитала комментарии, полностью согласна, теперь хочется сделать сравнение на более узких фичах, на каких-то конкретных рабочих задачах.
По поводу промптов - у меня по-разному выходит. Иногда мне нужно расписать на 40 предложений целое ТЗ, чтобы получить максимально релевантный результат. А иногда как верно заметил @indemsysбывают и абстрактные задачи чтобы просто задать вектор направления решения и далее уже конкретизировать запросы.
В статье получились как раз скорее абстрактные задачи, и мне было интересно посмотреть логику работы. А ещё проверить теорию заговора, что якобы DeepSeek - это просто "переадресация с ChatGPT" и миллион китайцев просто копипастят запрос оттуда в свою сеть)
Несколько нубских вопросов,- прошу не ругаться:
Подскажите плиз, - это локальная версия DeepSeek выдает такое волшебство или облачная?
На каких языках умеет писать программы DeepSeek?
Он понимает русский язык? Вроде заявлялась поддержка только английского и китайского?
Замечательно понимает русский и на нём же отвечает.
Заметил, что русского интерфейса в браузере нет, а вот в приложении русский интерфейс есть.
Хорошие вопросы
1) Это облачная версию DeepSeek-V3
2) Насколько я понимаю, так как в распоряжении ии весь интернет - то практически на любом.
Но я уточнила у него же, вот ответ от самого DeepSeek:
"Я могу работать с любым языком программирования, который широко используется и документирован в интернете. Моя база знаний включает синтаксис, стандартные библиотеки, фреймворки и лучшие практики для большинства популярных языков. Однако есть некоторые нюансы
Ограничения:
Экзотические или устаревшие языки: Если язык очень редкий или устаревший (например, COBOL или Fortran), моя помощь может быть ограничена из-за недостатка актуальной информации в моей базе данных.
Сверхновые технологии: Если язык или фреймворк появился совсем недавно (после октября 2023 года), я могу не знать о нём или знать недостаточно.
Контекст и специфика: Я могу писать код, но для его корректной работы в вашем проекте мне нужно понимать контекст (например, версии языка, используемые библиотеки, окружение).
"
3) Да, понимает, я все запросы делала на русском, ответы он тоже давал на русском.
По первому вопросу, на этой неделе была статья на хабре - стоимость локальной машины для работы с DeepSeek - от 6.000 дол.
Там в итоге получается скорость работы - пара токенов в секунду.
У меня 2 * Xeon Gold 5218.
Каждый из этих процессоров поддерживает 6 каналов памяти. Я поставил 12 * 64GB DDR4-2666. Получилось 768GB RAM.
Запустил DeepSeek V3 q4_K_M. Это 404GB модель + контекст.
Получил около 2 токенов в секунду:
- response_token/s: 1.9
- prompt_token/s: 3.8 - 5
Работает. Но с такой скоростью оно не надо.
У меня есть Nvidia RTX 3090. Я её добавил, на неё сгрузилось 2 слоя. Быстрее не стало. Всего в модели - 62 слоя.
2 x NVIDIA A100 рекомендуется для шустрой работы, как я понял?
По чуть чуть не получится добавлять, прирост скорости от добавления очередной gpu будет на грани погрешности измерений
Смело умножайте количество a100 на 10.. суммарный объем vram должен вмещать и веса и kv-cache для контекстного окна (это еще десяток другой gb на каждый batching процессе). Каждая A100 это 'всего' 40gb, для 4бит квантизации с горем пополам хватит 12штук (скорее 16 нужно)
batching - это одновременный запуск нескольких запросов, увеличивает скорость исполнения на порядок или даже больше (на маленьких моделях можно 16-кратный прирост получить на десктопных видеокартах), т.е. время на каждый запрос не уменьшится, но суммарное количество обработанных и сгенерированных токенов увеличивается.
Подскажите, какие промпты нужно писать, чтобы создавать android-приложения?
<на правах шутки>
открываете какой-нибудь freelance.habr.com, на таких сайтах есть сразу много продвинутых нейронок, и пишете как заказчик ТЗ так, как его понимаете, выбираете исполнителя, в беседе, вам зададут необходимые вопросы... и оплата удобная
p.s. рановато для даже топовых ИИ давать сразу все задание... делите задачу на этапы, проектируйте, просите помощи, изучайте и анализируйте ответы. Это пока то знание, которое не передать курсами и учебниками, они устареют быстрее чем выйдут в печать.
какие промпты нужно писать, чтобы создавать android-приложения?
Зачем на такие мелочи размениваться? «Счастья, для всех, даром, и пусть никто не уйдёт обиженным!»
Тут как бы не получилось так, что все заказчики, способные составить нормальное ТЗ, уйдут к нейронкам, а живым исполнителям останутся лишь техзадания вида "ну вот мне нужно сделать какую-то такую штуку... я вообще не знаю какую, но очень надо, так что давайте сделаем хоть что-нибудь, а дальше будет видно."
Занятное сравнение конечно, но из таких сравнений нельзя делать выводы. Есть 2 задания. У вас выборка всего 2.
Может в сотне других задач окажется лучше одна или другая модель. Поэтому, первое на что стоит обращать внимание - это результаты бенчмарков. Тем более, в них есть раздел касательно программирования.
Только женский пол может привнести сердечки в тему AI и кодинга)
Тронут.
Просил оформить пару приколов для интерфейса на ts с интеграцией в lua, дс справился лучше, хотя и немного бесят его рассуждения, порой по паре минут пишет, больше, чем сам код
Сравнение кода от DeepSeek и ChatGPT