Филатов Антон @positroid
Web-архитектор
Information
- Rating
- 2,009-th
- Location
- Липецк, Липецкая обл., Россия
- Date of birth
- Registered
- Activity
Specialization
Backend Developer, Software Architect
Lead
PHP
Symfony
Elasticsearch
CMS «1С-Bitrix»
Web-архитектор
нет, все изображение будет перерисовано, в лучшую или худшую сторону - как повезет
нет, причина та же + с лицами неизвестных людей (которые модель не видела тысячами при тренировке) работает плохо, особенно если это средний или дальний план. Переносить 1 в 1 это скоре про Gemini 2.0 Flash Experimental, он может лук (одежду) попиксельно перерисовать, оставив все остальное без изменений, но качество хуже
По видео можно немного понять - зависит от качества wifi сигнала, задержка стрима при прямом управлении, если сигнал четкий - небольшая, может, пару кадров (при ~15 FPS это где-то 150мс), ощущается как реалтайм.
При управлении через Home Assistant добавляется гигантский лаг из-за того, что трафик идет через Европу (в моем случае) - там что-то около 500-800мс, для нужд удаленного мониторинга подходит, но управлять, конечно, не так комфортно.
Обещанная ссылка на статью: https://habr.com/ru/articles/898936/
Очень восторженная статья, понятно почему, но идеализировать новый инструмент тоже не стоит. Некоторые расхождения, которые я отметил:
Статье не противоречит, но google первым представил мультимодальную работу с картинками в чате на базе Gemini 2.0 Flash Experimental (можно найти в Google AI Studio бесплатно) - в отличии от 4o работа с картинкой ведется моделью попиксельно - детали входного изображения не искажаются при редактировании, но по качеству она несколько хуже.
Надписи будут даны ровно в том виде, как вы просите
- лучше чем 4o никто из моделей не работает, но нет, надписи не всегда будут ровно в нужном виде, иероглифы вполне присутствуют на больших объемах или в сложных условиях (перекрытие текста другими объектами и тп).Та же картинка, просто в другом ракурсе
- нет, не та же картинка, расположение объектов иное. И это в целом проблема 4o - даже в режиме редактирования перерисовывается вся картинка, даже при использовании режима выделения. Не так сильно, как было раньше в DALLE из-за мультимодальности, но все же.Чем больше итераций редактирования картинки - тем дальше она от оригинала, если это иллюстрация, а не фото - она будет упрощаться и терять детали.
Все это ни в коем случае не отменяет большого скачка в качестве, ясно становится понятно, что будущее генеративного ии - в мультимодальности.
Ниже примеры:
Скрытый текст
У любой даже средней компании есть как минимум кастомный сайт, не говоря про зоопарк внутренних систем и интеграций) Да и тренда на обобщение и универсальность не видно, как бы различные платформы это не продвигали.
Так что мне кажется, что больше возможностей (меньше time-to-market) - больше продуктов и решений для большего числа заказчиков
Я этого, конечно, не делал) Эта модель, как и подшипники и все остальные покупные детали - импортированные, взял с grabCad.
У меня XKeen (XRay под Keenetic). Точка отказа - да, недавно отвалился из-за включенных автообновлений, положив при этом весь интернет целиком. Благо что в интерфейсе роутера можно клиента поместить в сегмент xkeen или в основной.
По производительности - оверхед есть, конечно, но трафика, который не заворачивается в vpn это почти не касается (торренты сюда входят). А тот, что заворачивается - видел цифры про единицы процентов (можно считать что до 10), без учета потерь самой маршрутизации, разумеется.
Ну, собственно, ответочка от openAI. Чуть меняет оригинальное фото, но прекрасно работает с кириллицей и большими объемами текста (не черрипикал, можно на уровне промта или количеством генераций думаю можно и относительно длинные тексты привести в порядок):
Скрытый текст
Вчера в chatGPT зарелизили генерацию картинок мультимодальным 4o - хотел его здесь опробовать, но персонажей не рисует из-за нарушения прав, а то, что рисует, получается хуже Gemini (или лучше, но дальше от оригинала), поэтому вот те же примеры с Gemini 2.0 Flash Experimental (можно бесплатно потыкать в google ai studio).
Скрытый текст
Если интересен именно результат - кажется что ИИ закрыл в нем потребность. Если процесс самостоятельной реализации - можно развивать дальше)
А можете дать пример такой задачи / промпта, с которыми ИИ пока не справляются?
Потому что по ощущениям уж обобщать они давно умеют.
Все что касается механики - это к fdm, есть конечно технологические смолы для фотополимерников, но они все же далеки от обычных пластиков (abs / petg / neylon).
Проектирую сам, иначе не интересно - fusion 360 и вот это все. Немного заспойлерю платфрому, чтобы было понятно:
Скрытый текст
У меня есть и FDM и SLA.
FDM больше для технических нужд, но до появления SLA и фигурки на нем вполне хорошо печатались - высотой слоя 0.1 даже с соплом 0.4.
SLA для супер мелких деталей или фигурок, но скорее в декоративных целях - пластик получается хрупкий, он не термопластичный (резьбовые втулки нельзя впаять, только вклеивать), что, впрочем, не помешало мне корпус робота напечатать именно на нём (но тоже скорее из-за сложности форм и детализации).
В любом случае, начинать лучше с FDM все же - у него применимость кратно шире, чем у фотополимерников.
Принтер это прям мастхэв для любителя DIY, да и ценники вполне доступны на бытовом уровне. А статью скину, да
Годно) У меня как раз на финальной стадии гусеничный робот, только на esp32-cam, со своей 3д-печатной платформой и корпусом (включая траки), док-станцией, web-интерфейсом и с кучей use-case применения ИИ в процессе проектирования, так сказать. Через пару недель думаю и статью допишу.
@Arduinum (странно почему публикация не от имени автора, корпоблоги вроде такое умеют), а подскажите по "отзывчивости" управления - понятно что датчик килогерцовый, но сами пульты, которые вы использовали - с какой частотой посылают сообщения, насколько ощутима задержка. На видео иногда паузы в несколько секунд между действиями - это из-за узконаправленности или просто так управляли?
В ИИ редакторах кода (Cursor, Cline, etc) вовсю применяются векторные индексы кодовой базы, вполне себе RAG.
Справедливости ради в статье это упоминается и данные у ТС пропали с локального устройства, куда были перенесены (были же?).
Насчет заголовка и миллионов затронутых пользователей - вопрос, у меня (и не только меня) все на месте
Скрытый текст
Не ошибались. Уведомляли 12 июня 2024, что хранение хронологии из облака переезжает на устройства и нужно принять решение, где это все хранить. Давали времени до 8 декабря 2024 года.
Речь не о поисковых ботах, они полезны.
Но есть и левые краулеры, которые сканирую сайт на уязвимости, собирают данные в датасет для обучения / продажи, крадут данные на заказ и прочее. Помимо правовых вопросов и безопасности это создаёт ещё и нагрузку на сервер. К тому же такие краулеры часто игнорируют правила индексации (какие части сайта можно индексировать, пресловутый robots.txt).
Например, я после публикации последней статьи на хабре с удивлением нашёл несколько её вариаций на разных ресурсах буквально через час, при этом на некоторых она была как будто суммаризована ии, что для технического гайда, где важна чёткая последовательность действий - само по себе странно.
Интереса ради закинул эту задачу o3-mini-high, grok-3 и sonnet3.7-thinking (по ссылкам соответствующие демки на jsfiddle). Результаты на фото из статьи похожи:
grok-3
o3-mini-hight
sonnet-3.7-thinking
Промпт, если интересно:
напиши страницу на html / js, которая из загруженной картинки будет получать контурную раскраску. С ползунками для базовых настроек.
Так у разных людей и разные потребности в питании, независимо от места проживания. Люди из соседних квартир вполне могут есть одинаковое количество мяса с в разы отличающейся стоимостью. Кто-то берет премиум филе из дорогого супермаркета, а кто-то ходит на рынок за тушками целиком.
И это все даже не учитывая разный набор продуктовой корзины. Скорее стоит собрать свою корзину и оценивать для каждой страны по локальным ценам на составляющие, чем ориентироваться на данные других людей.