All streams
Search
Write a publication
Pull to refresh
35
0.5
Филатов Антон @positroid

Web-архитектор

Send message

не меняя всё

нет, все изображение будет перерисовано, в лучшую или худшую сторону - как повезет

Фото при этом не должно меняться (фон, поза, лицо) - это должен быть Я

нет, причина та же + с лицами неизвестных людей (которые модель не видела тысячами при тренировке) работает плохо, особенно если это средний или дальний план. Переносить 1 в 1 это скоре про Gemini 2.0 Flash Experimental, он может лук (одежду) попиксельно перерисовать, оставив все остальное без изменений, но качество хуже

По видео можно немного понять - зависит от качества wifi сигнала, задержка стрима при прямом управлении, если сигнал четкий - небольшая, может, пару кадров (при ~15 FPS это где-то 150мс), ощущается как реалтайм.

При управлении через Home Assistant добавляется гигантский лаг из-за того, что трафик идет через Европу (в моем случае) - там что-то около 500-800мс, для нужд удаленного мониторинга подходит, но управлять, конечно, не так комфортно.

Очень восторженная статья, понятно почему, но идеализировать новый инструмент тоже не стоит. Некоторые расхождения, которые я отметил:

  1. Статье не противоречит, но google первым представил мультимодальную работу с картинками в чате на базе Gemini 2.0 Flash Experimental (можно найти в Google AI Studio бесплатно) - в отличии от 4o работа с картинкой ведется моделью попиксельно - детали входного изображения не искажаются при редактировании, но по качеству она несколько хуже.

  2. Надписи будут даны ровно в том виде, как вы просите - лучше чем 4o никто из моделей не работает, но нет, надписи не всегда будут ровно в нужном виде, иероглифы вполне присутствуют на больших объемах или в сложных условиях (перекрытие текста другими объектами и тп).

  3. Та же картинка, просто в другом ракурсе - нет, не та же картинка, расположение объектов иное. И это в целом проблема 4o - даже в режиме редактирования перерисовывается вся картинка, даже при использовании режима выделения. Не так сильно, как было раньше в DALLE из-за мультимодальности, но все же.

  4. Чем больше итераций редактирования картинки - тем дальше она от оригинала, если это иллюстрация, а не фото - она будет упрощаться и терять детали.

Все это ни в коем случае не отменяет большого скачка в качестве, ясно становится понятно, что будущее генеративного ии - в мультимодальности.

Ниже примеры:

Скрытый текст
просим удалить объект в выделении
просим удалить объект в выделении
вся картинка перерисовывается полностью, причем здесь еще и артефакт в виде вопросительного знака возник
вся картинка перерисовывается полностью, причем здесь еще и артефакт в виде вопросительного знака возник
пример с кривым текстом
пример с кривым текстом
оригинальная иллюстрация
оригинальная иллюстрация
2 итерация
2 итерация
5 итерация
5 итерация

У любой даже средней компании есть как минимум кастомный сайт, не говоря про зоопарк внутренних систем и интеграций) Да и тренда на обобщение и универсальность не видно, как бы различные платформы это не продвигали.

Так что мне кажется, что больше возможностей (меньше time-to-market) - больше продуктов и решений для большего числа заказчиков

Я этого, конечно, не делал) Эта модель, как и подшипники и все остальные покупные детали - импортированные, взял с grabCad.

У меня XKeen (XRay под Keenetic). Точка отказа - да, недавно отвалился из-за включенных автообновлений, положив при этом весь интернет целиком. Благо что в интерфейсе роутера можно клиента поместить в сегмент xkeen или в основной.

По производительности - оверхед есть, конечно, но трафика, который не заворачивается в vpn это почти не касается (торренты сюда входят). А тот, что заворачивается - видел цифры про единицы процентов (можно считать что до 10), без учета потерь самой маршрутизации, разумеется.

Ну, собственно, ответочка от openAI. Чуть меняет оригинальное фото, но прекрасно работает с кириллицей и большими объемами текста (не черрипикал, можно на уровне промта или количеством генераций думаю можно и относительно длинные тексты привести в порядок):

Скрытый текст

Вчера в chatGPT зарелизили генерацию картинок мультимодальным 4o - хотел его здесь опробовать, но персонажей не рисует из-за нарушения прав, а то, что рисует, получается хуже Gemini (или лучше, но дальше от оригинала), поэтому вот те же примеры с Gemini 2.0 Flash Experimental (можно бесплатно потыкать в google ai studio).

Скрытый текст
а это творчество 4o по мотивам фотки с котом
а это творчество 4o по мотивам фотки с котом

Если интересен именно результат - кажется что ИИ закрыл в нем потребность. Если процесс самостоятельной реализации - можно развивать дальше)

Интересно, кто первым научит модель по-настоящему обобщать между разными задачами, а не просто выдавать по шаблону.

А можете дать пример такой задачи / промпта, с которыми ИИ пока не справляются?

Потому что по ощущениям уж обобщать они давно умеют.

Все что касается механики - это к fdm, есть конечно технологические смолы для фотополимерников, но они все же далеки от обычных пластиков (abs / petg / neylon).

Проектирую сам, иначе не интересно - fusion 360 и вот это все. Немного заспойлерю платфрому, чтобы было понятно:

Скрытый текст

У меня есть и FDM и SLA.

FDM больше для технических нужд, но до появления SLA и фигурки на нем вполне хорошо печатались - высотой слоя 0.1 даже с соплом 0.4.

SLA для супер мелких деталей или фигурок, но скорее в декоративных целях - пластик получается хрупкий, он не термопластичный (резьбовые втулки нельзя впаять, только вклеивать), что, впрочем, не помешало мне корпус робота напечатать именно на нём (но тоже скорее из-за сложности форм и детализации).

В любом случае, начинать лучше с FDM все же - у него применимость кратно шире, чем у фотополимерников.

Принтер это прям мастхэв для любителя DIY, да и ценники вполне доступны на бытовом уровне. А статью скину, да

Годно) У меня как раз на финальной стадии гусеничный робот, только на esp32-cam, со своей 3д-печатной платформой и корпусом (включая траки), док-станцией, web-интерфейсом и с кучей use-case применения ИИ в процессе проектирования, так сказать. Через пару недель думаю и статью допишу.

@Arduinum (странно почему публикация не от имени автора, корпоблоги вроде такое умеют), а подскажите по "отзывчивости" управления - понятно что датчик килогерцовый, но сами пульты, которые вы использовали - с какой частотой посылают сообщения, насколько ощутима задержка. На видео иногда паузы в несколько секунд между действиями - это из-за узконаправленности или просто так управляли?

Посмотрите статьи на хабре о технологиях RAG, их пока не начали применять для генерации кода.

В ИИ редакторах кода (Cursor, Cline, etc) вовсю применяются векторные индексы кодовой базы, вполне себе RAG.

Справедливости ради в статье это упоминается и данные у ТС пропали с локального устройства, куда были перенесены (были же?).

Насчет заголовка и миллионов затронутых пользователей - вопрос, у меня (и не только меня) все на месте

Скрытый текст

Не ошибались. Уведомляли 12 июня 2024, что хранение хронологии из облака переезжает на устройства и нужно принять решение, где это все хранить. Давали времени до 8 декабря 2024 года.

Речь не о поисковых ботах, они полезны.

Но есть и левые краулеры, которые сканирую сайт на уязвимости, собирают данные в датасет для обучения / продажи, крадут данные на заказ и прочее. Помимо правовых вопросов и безопасности это создаёт ещё и нагрузку на сервер. К тому же такие краулеры часто игнорируют правила индексации (какие части сайта можно индексировать, пресловутый robots.txt).

Например, я после публикации последней статьи на хабре с удивлением нашёл несколько её вариаций на разных ресурсах буквально через час, при этом на некоторых она была как будто суммаризована ии, что для технического гайда, где важна чёткая последовательность действий - само по себе странно.

Интереса ради закинул эту задачу o3-mini-high, grok-3 и sonnet3.7-thinking (по ссылкам соответствующие демки на jsfiddle). Результаты на фото из статьи похожи:

grok-3

o3-mini-hight

sonnet-3.7-thinking

Промпт, если интересно: напиши страницу на html / js, которая из загруженной картинки будет получать контурную раскраску. С ползунками для базовых настроек.

разные люди имеют сильно разные расходы на питание

Так у разных людей и разные потребности в питании, независимо от места проживания. Люди из соседних квартир вполне могут есть одинаковое количество мяса с в разы отличающейся стоимостью. Кто-то берет премиум филе из дорогого супермаркета, а кто-то ходит на рынок за тушками целиком.

И это все даже не учитывая разный набор продуктовой корзины. Скорее стоит собрать свою корзину и оценивать для каждой страны по локальным ценам на составляющие, чем ориентироваться на данные других людей.

Information

Rating
2,009-th
Location
Липецк, Липецкая обл., Россия
Date of birth
Registered
Activity

Specialization

Backend Developer, Software Architect
Lead
PHP
Symfony
Elasticsearch
CMS «1С-Bitrix»