Спасибо автору за попытку качественно осветить такой важный и сложный вопрос, но...
Ни слова ни сказано о Codex Desktop. Я после него вообще не могу другими агентами пользоваться, благодаря удобной поддержке параллельного выполнения нескольких задач. Справедливости ради, в Claude она тоже есть - но требует больше телодвижений.
Что такого ценного в экосистеме, в частности в Cowork - не ясно. В Codex точно также можно поручить агенту сходить в Playwright и выполнить все те же задачи, или я что-то упускаю?
Вот то как у Claude нативно реализована визуальная оценка результаты работы - реально круто, она у себя в приложении без подсказок смотрит сайт и видит его как надо, а Codex, даже на 5.4 с Playwright ведет себя гораздо менее уверенно, и в самом диалоге результаты визуального анализа не фиксируется никак, но в статье об этом тоже ни слова.
А еще ни слова о том что Claude фактически поддерживает контекст до миллиона токенов, а Codex эффективно заглядывать дальше 256К не может.
Не часто пишу комментарии к статьям на Хабре, но пошел к компьютеру и авторизовался чтобы написать тоже самое. Если дать Opus-у большой контекст, 5 часовой лимит можно сжечь за 10 минут. У Codex сжечь 5 часовой лимит за 5 часов - удается не часто. Чаще всего $20 подписки хватает на весь месяц работы, в том числе над несколькими проектами, ни в чем себе не отказывая. В редких случаях возникает потребность купить вторую за $20 - переключить аккаунт и шарашить дальше. Исчерпать 2 подписки мне не удавалось ни разу, даже вместе с женой. По цене Claude не конкурентна от слова совсем.
Уже 2 года не пишу код, хотя по сравнению с gpt4 я справлялся заметно лучше, но количество перевешивало качество - ИИ уже тогда справлялся заметно быстрее. Начиная с O1 языковые модели стали писать код лучше большинства программистов, и за пару запросов стало можно исправить уже не один файл, а сразу несколько. Причем в единицу времени ИИ стал выдавать не только больше кода по количеству, но улучшать его качество быстрее чем это может делать человек. С выходом grok3 и Claude Sonnet 3.7 ИИ шагнул еще дальше и значительно.
Большинство людей и компаний пока не понимают как реализовывать потенциал нейросетей на максимум, в частности такие платформы как Cursor используют, скажем, меньше 10% его потенциала (личное оценочное мнение исходя из профессионального опыта). Но те немногие кто уже сегодня использует его на полную катушку получают "нечестное" преимущество в конкурентной борьбе. Еще на стадии выхода о1 я столкнулся с тем что моя попытка прочитать и понять все правки кода который делает ИИ замедляют прогресс в разы, а отказ от попыток вставить свои 5 копеек безусловно приводит к снижению тренированности мозга и параличу при отключении от ИИ.
Но независимо от того что человек выбирает - снижать скорость разработки и продолжать держать руку на пульсе, или не сдерживать взрывной рост объема кода неизбежно накапливая технический долг и растущий разрыв между компетенциями оператора ИИ и требуемыми для решений возникающих кризисов, люди программисты уже проиграли в конкурентной борьбе с ИИ.
Отказ от ИИ в надежде что это тонизирует мозг так же нелеп, как желание отказаться от тракторов в пользу мотыги для здоровья позвоночника и борьбы с ожирением, или отказ от электричества для нормализации циркадных ритмов и решения других проблем, что многие обсуждают на полном серьезе и некоторые даже реализуют на практике.
Это не один вопрос, это иллюстрация. Есть исследования о том что маленькие модели хуже всего вывозят рассуждения о вымышленных вселенных - так как они лучше всего выявляют их недостатки, потеря производительности порядка 80%
Да, возможно стоило более четко проговорить, что для логических рассуждений не требующих специальных знаний QwQ все еще показывает блестящие результаты
В сравнении я использовал FP16, он и на 2 видеокарты не поместится. Q4 выдавал ответы куда веселее. Когда люди рассуждают о том что "зачем платить больше когда есть Xiaomi" они обычно не вникают не только в квантизацию модели, но и в размер контекста, не говоря уже о квантизации контекста. Помню читал недавно в уважаемой прессе, что DeepSeek, который не уступает o1 можно запустить на старом ноутбуке (имелась ввиду модель 1.5B). Когда я писал о возможности запустить на одной видеокарте, я имел ввиду в первую очередь восприятие обывателей.
Грань между языковыми моделями и мультимодальными - довольно тонкая. ИИ мне конечно помогал в написании статьи, но в процессе написания были использованы множество ИИ инструментов, множество запросов и мое активное участие. Попробовал ради интереса вбить в DeepSeek предложенный Вами запрос, результат мне понравился еще меньше, чем Вам моя статья :)
Ну, во-первых открытые модели по стоимости эксплуатации кардинально отличаются от облачных SOTA моделей. Во-вторых в России в качестве заказчиков чаще всего выступает или крупный бизнес или гос структуры которые не могут или не хотят использовать западные облака
В статье никак не учитывается Project Strawberry (Q-Star), который должен стать ядром GPT5, релиз которого ожидается в конце 2024 - начале 2025 Его релиз сделает все сказанное в статье - устаревшим
Датчики в помещениях были установлены для климат контроля, до того как возникла аномалия. Разница между температурой в помещениях и в контурах конечно есть, но принцип «нет тела, нет дела» это никак не отменяет. В одной заведомо причастной точке отклонения искать проще чем в нескольких не факт что причастных. Если аномалия вернётся возможно поставлю датчики и на контуры, если имеющихся будет не хватать для выявления причины. Пока все под контролем.
Пост этот видел, думал даже прикрепить его в статью, не стал этого делать ввиду полного отсутствия упоминания Home Assistant и общей сложности материала
Спасибо автору за попытку качественно осветить такой важный и сложный вопрос, но...
Ни слова ни сказано о Codex Desktop. Я после него вообще не могу другими агентами пользоваться, благодаря удобной поддержке параллельного выполнения нескольких задач. Справедливости ради, в Claude она тоже есть - но требует больше телодвижений.
Что такого ценного в экосистеме, в частности в Cowork - не ясно. В Codex точно также можно поручить агенту сходить в Playwright и выполнить все те же задачи, или я что-то упускаю?
Вот то как у Claude нативно реализована визуальная оценка результаты работы - реально круто, она у себя в приложении без подсказок смотрит сайт и видит его как надо, а Codex, даже на 5.4 с Playwright ведет себя гораздо менее уверенно, и в самом диалоге результаты визуального анализа не фиксируется никак, но в статье об этом тоже ни слова.
А еще ни слова о том что Claude фактически поддерживает контекст до миллиона токенов, а Codex эффективно заглядывать дальше 256К не может.
Не часто пишу комментарии к статьям на Хабре, но пошел к компьютеру и авторизовался чтобы написать тоже самое. Если дать Opus-у большой контекст, 5 часовой лимит можно сжечь за 10 минут. У Codex сжечь 5 часовой лимит за 5 часов - удается не часто. Чаще всего $20 подписки хватает на весь месяц работы, в том числе над несколькими проектами, ни в чем себе не отказывая. В редких случаях возникает потребность купить вторую за $20 - переключить аккаунт и шарашить дальше. Исчерпать 2 подписки мне не удавалось ни разу, даже вместе с женой. По цене Claude не конкурентна от слова совсем.
Источник – эстонская разведка?
Уже 2 года не пишу код, хотя по сравнению с gpt4 я справлялся заметно лучше, но количество перевешивало качество - ИИ уже тогда справлялся заметно быстрее. Начиная с O1 языковые модели стали писать код лучше большинства программистов, и за пару запросов стало можно исправить уже не один файл, а сразу несколько. Причем в единицу времени ИИ стал выдавать не только больше кода по количеству, но улучшать его качество быстрее чем это может делать человек. С выходом grok3 и Claude Sonnet 3.7 ИИ шагнул еще дальше и значительно.
Большинство людей и компаний пока не понимают как реализовывать потенциал нейросетей на максимум, в частности такие платформы как Cursor используют, скажем, меньше 10% его потенциала (личное оценочное мнение исходя из профессионального опыта). Но те немногие кто уже сегодня использует его на полную катушку получают "нечестное" преимущество в конкурентной борьбе. Еще на стадии выхода о1 я столкнулся с тем что моя попытка прочитать и понять все правки кода который делает ИИ замедляют прогресс в разы, а отказ от попыток вставить свои 5 копеек безусловно приводит к снижению тренированности мозга и параличу при отключении от ИИ.
Но независимо от того что человек выбирает - снижать скорость разработки и продолжать держать руку на пульсе, или не сдерживать взрывной рост объема кода неизбежно накапливая технический долг и растущий разрыв между компетенциями оператора ИИ и требуемыми для решений возникающих кризисов, люди программисты уже проиграли в конкурентной борьбе с ИИ.
Отказ от ИИ в надежде что это тонизирует мозг так же нелеп, как желание отказаться от тракторов в пользу мотыги для здоровья позвоночника и борьбы с ожирением, или отказ от электричества для нормализации циркадных ритмов и решения других проблем, что многие обсуждают на полном серьезе и некоторые даже реализуют на практике.
0.7 - по умолчанию. 0 сильно не улучшит и он в целом сильно ограничивает сценарии использования модели
Это не один вопрос, это иллюстрация. Есть исследования о том что маленькие модели хуже всего вывозят рассуждения о вымышленных вселенных - так как они лучше всего выявляют их недостатки, потеря производительности порядка 80%
Можно по разному относиться к звёздным войнам, но сложно по разному относиться к утверждению что это произведение культовое
Помимо кодинга, исследований, и других вещей, встраиваю его в бизнес процессы. А что?
Да, возможно стоило более четко проговорить, что для логических рассуждений не требующих специальных знаний QwQ все еще показывает блестящие результаты
Еще хуже чем QwQ, хотя до выхода QwQ это был (и сейчас остается) очень достойный вариант, просто в другой весовой категории.
Имеется ввиду высочайшую из открытых моделей - это сравнительная характеристика, а не абсолютная
В сравнении я использовал FP16, он и на 2 видеокарты не поместится. Q4 выдавал ответы куда веселее. Когда люди рассуждают о том что "зачем платить больше когда есть Xiaomi" они обычно не вникают не только в квантизацию модели, но и в размер контекста, не говоря уже о квантизации контекста. Помню читал недавно в уважаемой прессе, что DeepSeek, который не уступает o1 можно запустить на старом ноутбуке (имелась ввиду модель 1.5B). Когда я писал о возможности запустить на одной видеокарте, я имел ввиду в первую очередь восприятие обывателей.
Грань между языковыми моделями и мультимодальными - довольно тонкая. ИИ мне конечно помогал в написании статьи, но в процессе написания были использованы множество ИИ инструментов, множество запросов и мое активное участие. Попробовал ради интереса вбить в DeepSeek предложенный Вами запрос, результат мне понравился еще меньше, чем Вам моя статья :)
Ну, во-первых открытые модели по стоимости эксплуатации кардинально отличаются от облачных SOTA моделей. Во-вторых в России в качестве заказчиков чаще всего выступает или крупный бизнес или гос структуры которые не могут или не хотят использовать западные облака
Я правильно понимаю что раздельное туннелирование работает фактически только для ip адресов?
И старшеклассник и Ph.D могут периодически нести ахинею, но уровень доверия к их ответам отличается все же существенно.
В статье никак не учитывается Project Strawberry (Q-Star), который должен стать ядром GPT5, релиз которого ожидается в конце 2024 - начале 2025
Его релиз сделает все сказанное в статье - устаревшим
Хорошего Blockchain специалиста на международном рынке рвут на части, и $5000 он может заработать за неделю - жаль что в РФ они не востребованы.