Ни в коем случае не опровергаю утверждение, но уязвимость все же была в стороннем модуле, причем даже платном.
Такая же история может случиться (и часть случается) с любым продуктом, который допускает расширение своих функций за счет пользовательских модулей / плагинов / etc.
Насчёт второй части - это докажет наличие или отсутствие зрения у модели
Нет, почему же. У вас на выходе 2 сгенерированные картинки по тексту + картинке (мультимодальность здесь) и просто тексту (здесь мультимодальность ничего не решает). Каким бы подробным ни было описание изображения для генерации - разница будет заметна невооруженным взглядом.
График штатов не показательный, достаточно консервативная среда.
Например, исследование двухлетней давности показывает, что впереди планеты всей по проценту использования конкретно ChatGPT Индия (что и понятно и забавно одновременно).
А можете пояснить о чем речь? Не нашел такой фичи.
По комментарию - все верно, практически все задачи работы с картинками/видео проходят через обогащение промпта (даже в условном Flux вшит T5 для этого).
Все это никак не противоречит мультимодальности, подтвертить факт её наличия можно элементарно на задаче небольшого редактирования фото - попробоваь с фото и с тем самым текстовым промптом но в отдельном чате без фото.
1-е окно - 50 тонн на 5 кораблях 2-е окно - 1500 тонн 20 кораблями 3-е окно - 15000 тонн 100 кораблями 4-е окно - 150000 тонн 500 кораблями
Т.е. 10-кратный рост нагрузки при 5-кратном росте количества пусков.
Почему в 1 окне 10 тонн на корабль понятно, нужно обкатать технологию. Но почему во второе окно корабли будут по 75 тонн брать, если смогут везти по 200 (если речь о новой версии ко 2 окну)? Или все же каждые 2 года собираются поднимать грузоподъемность в 2 раза (очень небольшой срок для запуска новой версии корабля даже с учетом времени Маска)?
Если Маша считает, что на Эверест поднимаются дураки ... совсем исключено, что выйдет замуж за парня, который через полгода отправляется в Гималаи. Они друг для друга — не ЦА.
Думаю, достаточно яркий пример излишней и необоснованной категоричности
Феномен Баадера — Майнхофа какой-то, только 10 минут назад заказал себе такой "микроскоп", но скорее не для работы, а для записи видео. 4К, как уже заметили, там нет, но надеюсь хотя бы на FullHD (были комментарии на али, что сенсор стоит именно такой).
Все так, посыл комментария был как раз в этом. Автор в статье утверждал, что на большом количестве своих проектов передает в контекст весь код через свою утилиту. Отсюда и возник вопрос про размер его типового проекта.
Тоже такая мысль была всю статью - ИИ и под Си на ESP32 код может писать, кажется что распознавание угла стрелки вполне бы заработало непосредственно на контроллере без дополнительного железа.
Тем более что картинка статична, можно вручную задать все необходимые координаты и искажения. Но за реализацию все равно плюс)
С контроллера не замерял, покрытие не равномерное, конечно, плюс куча помех от соседей, но контроллер в пропускную возможность самого wifi даже близко не упирается, тут именно ресурсов контроллера не хватает
Дело не в задержке для управления командами, с http тоже нет ощутимой задержки, хоть она и больше чем на сокетах, дело скорее в скорости передачи картинки средствами контроллера по wifi. Картинка высокого качества больше весит, контроллер банально не успевает это все передавать. Причем если смотреть на загрузку cpu - то она далека от 100%, т.е. все упирается скорее именно в возможности модуля передачи данных.
С огранизацией html верно, тут мне просто было удобнее его компилировать в Си и включать в прошивку при сборке, чем хранить в SPIFFS (здесь чисто вкусовщина, потенциально это может вызвать сложности с OTA, когда/если я доберусь до реализации).
камера конечно не очень хорошего качества картинки
Здесь все еще упирается и в производительность конкретно esp32 и её wifi, камера может выдавать и картинку в 1080p, но это будет слайдшоу с 1 кадром в несколько секунд, и то если кадр полностью в память влезет без сжатия.
Какие у неё преимущества в сравнении с обычными нейросетями, которые на пк не нужно разворачивать?
Кроме локальности, бесплатности и как следствие автоматизации - никаких, мне просто нужно было много картинок, в условном chatGpt я бы замучался их генерировать (да и в то время еще не было обновления 4o, а Dalle-3 картинки генерировал посредственно).
Про жидкую резину думал, но пока оставил эту затею, как будто TPU достаточно даже чтобы через ножки стула перепрыгивать, на стены мне все же лазить не нужно.
Перемычка конечно очень жизнь усложняет особенно тем кто плохо паяет мелкие детали.
Вы про дорожку на плате, которая проходит между пятаками, или о чем речь? Там плата с косяком вышла из-за того, что я неправильно развел и делитель напряжения и подключение мосфета, в актуальной версии платы уже такого нет, я просто не стал травить новый вариант
4.1 в этом плане хорош (тоже в cursor) - сам задаёт вопросы и согласовывает то, что он понял перед тем, как идти кодить. Правда, этим же и достаёт, каждый чих надо одобрять.
Умный Ганс — лошадь начала XX века, якобы умевшая считать, но на деле реагировавшая на невербальные подсказки хозяина (эффект умного Ганса).
ИИ - это тот самый умный Ганс, он отвечает то, что вопрошающий хочет услышать.
Не так давно 4o прокачали в этом стремлении угодить пользователю (а это влияет на KPI, место на ллм-арене, бенчмарки и прочее), что он стал соглашаться совсем с абсурдными идеями (уже фиксят).
Ни в коем случае не опровергаю утверждение, но уязвимость все же была в стороннем модуле, причем даже платном.
Такая же история может случиться (и часть случается) с любым продуктом, который допускает расширение своих функций за счет пользовательских модулей / плагинов / etc.
Нет, почему же. У вас на выходе 2 сгенерированные картинки по тексту + картинке (мультимодальность здесь) и просто тексту (здесь мультимодальность ничего не решает). Каким бы подробным ни было описание изображения для генерации - разница будет заметна невооруженным взглядом.
График штатов не показательный, достаточно консервативная среда.
Например, исследование двухлетней давности показывает, что впереди планеты всей по проценту использования конкретно ChatGPT Индия (что и понятно и забавно одновременно).
Впрочем, это глобально не противоречит статье.
А можете пояснить о чем речь? Не нашел такой фичи.
По комментарию - все верно, практически все задачи работы с картинками/видео проходят через обогащение промпта (даже в условном Flux вшит T5 для этого).
Все это никак не противоречит мультимодальности, подтвертить факт её наличия можно элементарно на задаче небольшого редактирования фото - попробоваь с фото и с тем самым текстовым промптом но в отдельном чате без фото.
Это не так, 4o мультимодальна, генератор картинок после обновления пару месяцев назад работает на той же модели.
Может быть чего-то не понял, по финалу:
1-е окно - 50 тонн на 5 кораблях
2-е окно - 1500 тонн 20 кораблями
3-е окно - 15000 тонн 100 кораблями
4-е окно - 150000 тонн 500 кораблями
Т.е. 10-кратный рост нагрузки при 5-кратном росте количества пусков.
Почему в 1 окне 10 тонн на корабль понятно, нужно обкатать технологию. Но почему во второе окно корабли будут по 75 тонн брать, если смогут везти по 200 (если речь о новой версии ко 2 окну)? Или все же каждые 2 года собираются поднимать грузоподъемность в 2 раза (очень небольшой срок для запуска новой версии корабля даже с учетом времени Маска)?
Думаю, достаточно яркий пример излишней и необоснованной категоричности
Мне кажется ТС больше про проблемы с спиной и шеей писал нежели про оптические искажения. Из-за проблем с шеей как раз может и голова болеть
Феномен Баадера — Майнхофа какой-то, только 10 минут назад заказал себе такой "микроскоп", но скорее не для работы, а для записи видео. 4К, как уже заметили, там нет, но надеюсь хотя бы на FullHD (были комментарии на али, что сенсор стоит именно такой).
Честные 4к будут стоить в разы дороже.
Для этого есть @moderator
реферальные ссылки на хостинг в посте
Все так, посыл комментария был как раз в этом. Автор в статье утверждал, что на большом количестве своих проектов передает в контекст весь код через свою утилиту. Отсюда и возник вопрос про размер его типового проекта.
Тоже такая мысль была всю статью - ИИ и под Си на ESP32 код может писать, кажется что распознавание угла стрелки вполне бы заработало непосредственно на контроллере без дополнительного железа.
Тем более что картинка статична, можно вручную задать все необходимые координаты и искажения. Но за реализацию все равно плюс)
С контроллера не замерял, покрытие не равномерное, конечно, плюс куча помех от соседей, но контроллер в пропускную возможность самого wifi даже близко не упирается, тут именно ресурсов контроллера не хватает
Дело не в задержке для управления командами, с http тоже нет ощутимой задержки, хоть она и больше чем на сокетах, дело скорее в скорости передачи картинки средствами контроллера по wifi. Картинка высокого качества больше весит, контроллер банально не успевает это все передавать. Причем если смотреть на загрузку cpu - то она далека от 100%, т.е. все упирается скорее именно в возможности модуля передачи данных.
С огранизацией html верно, тут мне просто было удобнее его компилировать в Си и включать в прошивку при сборке, чем хранить в SPIFFS (здесь чисто вкусовщина, потенциально это может вызвать сложности с OTA, когда/если я доберусь до реализации).
Здесь все еще упирается и в производительность конкретно esp32 и её wifi, камера может выдавать и картинку в 1080p, но это будет слайдшоу с 1 кадром в несколько секунд, и то если кадр полностью в память влезет без сжатия.
Кроме локальности, бесплатности и как следствие автоматизации - никаких, мне просто нужно было много картинок, в условном chatGpt я бы замучался их генерировать (да и в то время еще не было обновления 4o, а Dalle-3 картинки генерировал посредственно).
Про жидкую резину думал, но пока оставил эту затею, как будто TPU достаточно даже чтобы через ножки стула перепрыгивать, на стены мне все же лазить не нужно.
Вы про дорожку на плате, которая проходит между пятаками, или о чем речь? Там плата с косяком вышла из-за того, что я неправильно развел и делитель напряжения и подключение мосфета, в актуальной версии платы уже такого нет, я просто не стал травить новый вариант
del
Это же уже третья статья за неделю про платформу, просто другими словами?
4.1 в этом плане хорош (тоже в cursor) - сам задаёт вопросы и согласовывает то, что он понял перед тем, как идти кодить. Правда, этим же и достаёт, каждый чих надо одобрять.
/s здесь скорее лишний
ИИ - это тот самый умный Ганс, он отвечает то, что вопрошающий хочет услышать.
Не так давно 4o прокачали в этом стремлении угодить пользователю (а это влияет на KPI, место на ллм-арене, бенчмарки и прочее), что он стал соглашаться совсем с абсурдными идеями (уже фиксят).
Оценка бизнес-плана фекалий на палочке