Comments 19
Пньята или Пиньята? кому верить, кадру или тексту? никому, ошибка обоих промптов, текста и видео?
А так хорошо, практика, нужное дело.
пи = π
дальше сам справишься, наверное
Лол) Кому верить? Верить знаниям за 5-й класс математики, где проходят символ π. Это называется типографический каламбур, построенный по ребусному принципу, а не ошибка промпта.
Почему такой странный сценарий?
Конечно, необычно, но прямо какая - то странная фигня происходит
ну это уже не технический вопрос
сценарий такой, какой мне показался интересным
с твистом, интригой и забавной развязкой
но вообще это обыграна просто ситуация, как фильмах люди пробуют товар, чтоб понять, что он нужного качества, только тут товар - конфеты
вообще мне это просто приснилось когда-то, я и записал как короткий сценарий
то странная фигня происходит
Мягко выражаясь, трупак висит в тепле, бурно ферментизируется, источает миазмы, тут приходят два фрика с битой и оказывают методы физического воздействия на труп в результате чего, истончившийся под воздействием ничем не ограниченных микроорганизмов лопается и все что под ним начинает стекать на пол еще больше не озонируя воздух. ТС, откуда такая любовь к трупакам?
... собрали конфеты и ушли
Довольно креативно получилось, вот так должна выглядеть реклама конфет :)
Профиль бандита у окна, где он протягивает руку — 10 попыток Gemini подряд вытягивали не ту руку. Я говорю «левую». Агент пробует: «extend his LEFT arm», «near-side arm», «anatomical left shoulder», «the arm visible in foreground», «the arm attached to his left shoulder on the camera side». Ноль. Каждый раз правая.
А есть пойти от противного "the other hand, not the one from previous generation"?
Или модели не могут использовать предыдущую попытку как контекст?
Ну или как вариант просить наоборот правую, если на запрос левой показывает не ту.
Кстати, анатомически правая рука в плоском кадре в таком ракурсе и повороте тела находится визуально немного левей, поэтому вероятно модель выполняла запрос именно с этой точки зрения, а не с позиции 3Д тела в пространстве.
ну там можно посмотреть историю генераций
не сработало ничего, ни левая, ни правая, ни дальная, ни ближняя
все время была одна и та же
контекста нет, каждая генерация - это новый запрос
но можно дать как контекст другую генерацию сказать "как тут, но рука другая", но и это тоже не сработало ))
вот, собственно, про такие моменты и забавно было рассказать
видимо ИИ обучен на видео, где снимались правши, ну я уж не буду предлагать попробовать написать в промпте что гл.герой в данном кадре - левша, т.к. это денег стоит. Сам тоже пару клипов сделал, тяжело процесс шёл, подожду ещё годик прежде чем ещё пробовать делать...
Я пытался заставить новый генератор картинок ChatGPT всего-то чтоб человек стрелял из лазера по дрону. Штук 5 генераций - без толку. Он или смотрит не туда, или сама геометрия сцены нелогичная, дрон ближе чем надо. Но там еще требование конкретного человека и наверное ему сложно так всё разместить, чтоб и лицо узнаваемое было, и палил по дрону.
Кстати, для указания где что находится и как двигаться должно на видео, видел, задают иногда схематичные рисунки объектов и стрелками направления, иногда текстовые подписи. Если он с этим всем создаёт, первые кадры можно отрезать. Не пробовали так?
расскажите больше про "агента". как он построен, может код
https://github.com/boomyjee/slonagent
но это особо не важно для этой задачи
Спасибо за крутой постмортем проекта! Растянула чтение на два дня, залипла. Ценно, что показали реальный пайплайн со всеми костылями и борьбой с «пространственным кретинизмом» нейронки. Ну и сюжет - отдельный психодел в лучшем смысле этого слова. Как думаете, через пару версий ИИ научится сам нормально держать сцену, или ручной композитинг в Photoshop с нами надолго?
Как я снимал короткометражку с тремя нейросетями и одним агентом