Как я использовал ИИ для создания трейлера книги: опыт без дизайнера / Хабр

Буктрейлер, это видос от 90 до 180 секунд про книгу, как в кино, ну только не про кино.

Так СhatGPT видит первый кадр буктрейлера к книге "Война и Мир"

Сначала я честно пытался найти исполнителя, ну как это обычно бывает, решил делегировать задачу. Они (исполнители) существуют, найти очень просто, но те примеры работ, что выложены в рамках портфолио, ну мягко говоря, напоминают презентации из 90х. Закат сменяется ночным небом, описание в стиле начальных титров из “Звездных войн” (ну те, которые под 45% уходят вверх экрана) и в конце колхозный Mockup самой книги.

Короче, не захотел я так.

От темы дизайна я далек, но на проблемы с креативностью, никогда не жаловался. Спросил ChatGPT - А как сделать самому и лучше? Нейросеть предложила написать сценарий в котором разбить ролик на сцены до 15 секунд (это потому что большинство сеток не умеют пока генерировать видео длиннее).

В статье описана общая концепция, без пошаговой инструкции формата "тыкаем кнопку тут". С учетом развития платформ, скорее всего, через полгода такой мануал будет не актуальным. А нюансы использования интерфейсов удобнее уточнить у того же ChatGPT.

Как сделать сценарий?

Закидываем в ИИ весь текст книги и говорим чату.

Ты сценарист, проанализируй книгу и напиши сценарий буктрейлера.

ИИ генерит 8-10 сцен по 10-15 секунд, можно использовать первый вараинт, можно продолжать диалог и подправить, это уже вопрос вкусовщины. Дальше ChatGPT может дать советы, чем именно и что генерировать.

Если нужно: сделаю раскадровку, монтажные подсказки или текст для озвучки.

ВАЖ��О! Сделать все в одном приложении не получится. У меня получились вот такие куски.

Сценарий
Картинки сцен и персонажей
Оживление картинок
Генерация голоса (озвучка)
Связка голоса и персонажей
Финальный монтаж

Спросить чем и что делать можно GPT (меня он понимает даже с опечатками)

Поэкспериментировав я решил, что проще будет сделать картинки сцен и оживить их. Короткие видео по сценарию-промту ChatGPT генерировались криво, вот например - была сцена где на столе нужно было опрокинуть чашку кофе, кофе разливался на стол и документы. Сетка от Гугла (Gemini) вообще отказалась делать сославшись что это “деструктивное действие”, а рекомендованная Pika Labs почему-то переворачивала чашку наоборот (чашка вставала из лежачего положения). Кстати, Pika Labs единственный инструмент из рекомендаций от которого пришлось отказаться, видимо "не все йогурты одинаково полезны".

В итоге я решил сделать картинки сцен и оживить их. В том же ChatGPT:

Напиши промт картинки для сцены №1

Нарисуй картинку по промту (ну и вставляешь промт)

Чуть не забыл, выбор интересных глав, по которым делаются сцены, тоже можно доверить нейросети.

Можно сразу попросить нарисовать картинку, и это тоже работает, но я экспериментировал с разными ИИ, потому промежуточным продуктом был промт.

Далее, в моей задумке сцены должны были перебиваться цитатами из книги. Также просим ChatGPT

Подбери цитаты из книги для сцен

Итого, теперь есть картинки сцен и цитаты, нужно оживлять.

Оживление картинок

Здесь методом проб и ошибок подобрал RunWay (https://app.runwayml.com/) Промты писал сам на русском, типа - "Люди на фоне - бегут" и в переводчик на английский.

По большому счету на этом этапе можно было и закончить, смонтировав перебивку картинок и цитат под бодрую музычку в CapCut. Но мне хотелось людей добавить с отзывами.

Персонажи с отзывами

Те кто писал, наверняка знают как сложно получить обратку от первых бета-ридеров. У меня из десяти человек которые первично согласились, что-то ответили всего трое.

Короче, нужно было добавить потенциальных эмоций от прочтения. Нет реальных - генерируем (как сказал бы Трамп - "Fake it till you make it"). Задаем ChatGPT задачу прописать потенциальную целевую аудиторию и на основе нее образы читателей.

На основе образов - фото (бабка за дедку, дедка за репку). Итого имеем фото персонажа.

получается как-то так

можно поработать над фото

Далее, на основе образа персонажа генерируем отзывы.

Озвучка и сведение

Самая реалистичная озвучка у ElevenLabs (https://elevenlabs.io/).Там есть хорошая фишка с эмоциями, это паузы театральные, изменения интонации и вздохи.

Связка голоса и фото через HyGen (https://app.heygen.com/) Его ChatGPT не включил в рекомендации, сам нашел.

Окончательный монтаж

Собрал все в CapCut, музыку взял из внутренней библиотеки (тут нужно следить чтоб было открытое использование иначе ютуб блокирует). Кстати, тот же ChatGPT советовал генерить музыку нейросетью, но я уже поленился.

Общее время, включая исследования возможностей и ограничений разных нейронок, пробы и ошибки - дней 5 по 2 часа в день. По деньгам - самый дорогой ChatGPT - 20 долларов в месяц. Остальное 12-15 USD. Итого стоит рассчитывать долларов на 60-70. С пониманием инструментов сейчас можно сгенерировать ролик часа за 3-4.

Основные сложности

Главная проблема - и��остранная карта для оплаты сервисов.
Долго и безрезультатно провозился с Pika Labs.
Сценарий который пишет GPT нужно максимально упрощать, иначе в попытках добиться “киношного эффекта” процесс затянется до бесконечности.

Сервисы списком

Сценарий, основанный на анализе текста книги - https://chatgpt.com/
Цитаты из книги - https://chatgpt.com/
Картинки и персонажи - https://chatgpt.com/
Оживление картинок - https://app.runwayml.com/
Генерация голоса персонажей - https://elevenlabs.io/
Связка персонажа и голоса - https://app.heygen.com/
Монтаж - CapCut - https://www.capcut.com/

Вот что у меня в итоге получилось https://vkvideo.ru/video-213347196_456239094