Как заставить фото говорить через ИИ на русском языке: 3 простых варианта / Хабр

Интернет постепенно «поглощают» видео с танцами и разговорами от ИИ, и каждому рано или поздно хочется тоже проявить свои творческие задатки и познакомиться с генераторами видео поближе. Однако, сервисов настолько много, что приходится тратить уйму времени на поиск подходящего, а потом выясняется, что он требует ввода данных карты после регистрации, а еще и не все принимает… В этой публикации постараюсь просто и доходчиво объяснить как заставить любое фото говорить с помощью ИИ на русском языке, и без танцев с бубном. А если все‑таки решите попробовать топовые модели самостоятельно, то расскажу, как это сделать.

Прежде всего, нам нужно познакомиться с техникой, которая позволяет AI синхронно вставлять озвучку в картинку или изображение. Она называется Липсинк.

От английского lip sync означает синхронизация губ. Это техника, при которой движения губ человека синхронизируются с заранее записанным звуком (речью, пением или другим аудио).

3 способа заставить фото говорить с AI

Невзирая на стремительное развитие ИИ в области генерации видео, сегодня качественный липсинк выполняет всего несколько нейронок. Лишь с недавних пор в их перечень добавился Kling. Естественно, все они не работают в нашем гео, поэтому нужно либо регистрировать виртуальную карту другого банка, либо использоваться сервисы, которые работают у нас за счет их API. Рассмотрим разные способы создания говорящих фото и картинок:

Kling — самый продвинутый инструмент в плане понимания физики в нашем списке, который научился делать липсинк. Плюс в том, что Вы можете не только наложить звук на персонажа, но и прописать какое‑то действие, но с оплатой все сложно.
HeyGen — один из лидеров ниши создания говорящих аватаров, в котором можно использовать уже готовые шаблоны или голоса, но не очень хорошо дружит с русским языком. Лучше использовать Elevenlabs в качестве озвучки текста.
MagiaPicbot — это бот в Telegram, который работает на движке аналогичного уровня, но уже адаптированный под запросы и задачи, поэтому достаточно просто записать голосовое или загрузить звук, если хотите. Никаких промптов, иностранных карт и ВПН.

Теперь давайте посмотрим на результат работы каждого сервиса.

Как сделать говорящее фото в MagiaPicbot

И так, начнем с самого просто способа создать говорящее фото. Если у Вас изначально плохой рендер или старое фото, можете использовать BananoGenBot и попросить следующее:

«Удали пятна, царапины и пыль со всего изображения. Сохраните детали объекта и текстуру одежды. Исправьте экспозицию: восстановите пересвеченные участки. Удалите сепию, вернув изображению чистый вид с естественным тональным диапазоном. Сохраните мягкий контраст. Восстановите естественную текстуру бумаги, как будто только что отсканировано, но без цифровой обработки.»

Получился достаточно хороший референс для дальнейшей работы.

Теперь у нас есть хорошее изображение для его оживления. Нам надо статичное и реалистичное видео, с чем отлично справляется движок Luma, на базе которого работает этот бот. Для озвучки будем использовать Elevenlabs или iVox Studio (тоже бот в Telegram на этом же движке).

Текст: «В наше время интернета не было... Все друг друга бесили и без этого.»

Итог такой:

Загружаем фото;
Загружаем звук;
Пишем, что хотим увидеть (2–3 слова).

Получаем результат:

Таким образом, это самый простой путь, который не требует от нас лишних телодвижений, и позволяет получить профессиональный результат оживления фото с говорящими лицами.

Плюсы:

не нужен ВПН;
не нужны карты;
работает на Luma Ray;
не искажает мимику и лица.

Минусы:

нет гибких настроек как у Клинг.

HeyGen — как создать говорящего аватара

Далее рассмотрим как сделать живого аватара, что является довольно популярной задачей сегодня для многих каналов на YouTube. Для этого лучше всего подходит HeyGen. Этот же сервис позволяет оживить фото — добавить липсинк.

Переходим на heygen.com, регистрируемся. В дашборде ищем раздел «Talking Photo» — не «Avatar Studio», не «Video Editor», а именно Talking Photo. Нажимаешь Create.

Слева загружаем нужное фото. Требования чёткие: лицо фронтальное, занимает больше половины кадра, рот слегка приоткрыт, один человек на фото. Если лиц несколько, HeyGen попытается синхронизировать все сразу и результат будет кривым.

И так, справа два таба — Text и Audio. Text используется только чтобы проверить что вообще работает. Встроенные русские голоса звучат как советский навигатор — без интонаций, ударения съезжают на длинных фразах. Для реального ролика это убивает всё впечатление, поэтому снова используем elevenlabs.io. Здесь тоже будут танцы с бубном. Помним, что есть iVox Studio.

Возвращаемся в HeyGen, и открываем табло Audio, после чего загружаем MP3. HeyGen принимает форматы MP3 и WAV. Жмем Generate — и ожидаем 1–3 минуты. Скачиваем MP4. На бесплатном плане водяной знак и лимит 3 минуты в месяц — для теста хватит, для публикации нужен платный от $29. Однако, пополнить не удастся, так как нужна иностранная карта.

Плюсы:

лучший липсинк для фото на рынке,
работает с живописью и нарисованными персонажами,
простой интерфейс,
загрузка своего аудио из ElevenLabs.

Минусы:

без ElevenLabs русский голос слабый,
бесплатно только 3 минуты,
нужно чёткое фронтальное фото.

Kling — пошагово как сделать говорящее фото

Еще один вариант для тех, кто готов тратить свое время и нервы. Теперь Kling умеет липсинк, но через два шага, а не один. Сначала анимируем фото в видео, потом накладываешь липсинк на это видео.

Заходим на klingai.com, проходим регистрацию через ВПН. Сначала в раздел «Image to Video». Загружаем фото. Мы сделали изображение в боте Банано (ссылка вверху). Учтите, что у нас максимум 5–10 секунд. Липсинк в Kling работает максимум на 10 секундах, длиннее не берёт. Это нужно учитывать, при создании аудио. И так, сначала мы анимируем фото без звука, чтобы девушка указывала пальцем на логотип.

Теперь главный шаг — идем в раздел «Lip Sync». Загружаем видео, которое только что сгенерировали. Здесь два варианта добавить аудио: встроенный TTS работает только на китайском и английском — для русского не годится; либо, как оговаривалось ранее... Поэтому выбираем «Upload Local Dubbing» и загружаем свой звук в MP3 из ElevenLabs.

ElevenLabs здесь критически важен, потому что Kling не поддерживает русский в своём TTS. Без ElevenLabs русский скрипт в Kling вообще не озвучивается нормально. Нужно учесть и тот факт, что в бесплатном режиме генерация может проходить часами, а с ВПН вообще вылететь через несколько часов.

Плюсы:

оживляет всего персонажа — голова двигается,
мимика живая, выглядит кинематографично.
хорошо работает с живописью.

Минусы:

два шага вместо одного,
русский TTS отсутствует — ElevenLabs обязателен,
липсинк максимум 10 секунд,
генерация очень‑очень долгая.

Рабочий план: как озвучить фото через ИИ

Скажу откровенно — сегодня бесплатно наложить липсинк на фото, чтобы не «поломать» мимику и лица практически невозможно. Это займет много времени в нашем гео, и результат вряд ли оправдает ожидания. Нужно либо получить виртуальную карту и использовать хороший ВПН (платный, как минимум), либо использовать сторонние сайты с API лидеров (боты в Telegram гораздо удобнее, и часто уже настроены под задачу).

Мой план действий для создания говорящих фото или аватаров следующий:

Улучшаю фотографию в BananoGenBot или генерирую с нуля;
Создаю озвучку в iVox Studio;
Делаю липсинк в MagiaPicbot;

Это выходит в разы дешевле, чем оформление виртуальной карты и покупка подписки на любом из сервисов, представленных в публикации. Результат аналогичный.

Как сэкономить токены, и не делать ошибок?

Как уже оговаривалось ранее, главная ошибка, которая приводит к посредственным результатам или ненужным расходам заключается в том, что больше 70% пользователей берут первое попавшееся фото, и ожидают выдающегося результата, но модели для видео генерации не апскейлят снимок перед началом работы, они не убирают царапины и дефекты.

Лицо должно быть строго анфас или с минимальным поворотом. Чем сильнее поворот головы, тем хуже ИИ понимает геометрию лица и тем страшнее двигает губами. Идеально, чтобы голова смотрела прямо в камеру. Это особенно важно для генерации говорящих аватаров.

Рот должен быть закрыт и нейтрален. Не улыбка, не открытый рот. Просто закрытые губы. Модель строит движение от нейтральной позиции, а если губы уже растянуты в улыбке, то артикуляция поедет. Разрешение важно, но не так как думают. Достаточно 512×512, главное чтобы лицо занимало большую часть кадра. Мелкое лицо на фоне пейзажа это самая плохая идея, так как модель не поймёт границы лица.

Важен равномерный свет без резких теней. Тени от носа и подбородка сбивают модель при генерации движений. Простой белый или размытый фон работает лучше всего. Со светом можно поиграть в Gemini. Он в этом плане аналогов не имеет. Просто попросите проанализировать снимок и сделать правильное освещение для оживления фото в дальнейшем.

Про аудио — второй по важности момент…

Скорость речи напрямую влияет на качество липсинка. Слишком быстрая речь приводит к тому, что губы не успевают, артикуляция смазывается. В ElevenLabs ставьте скорость чуть ниже нормальной, а это около 0.9. Это неочевидно, но разница заметная.

Паузы между предложениями помогают модели. Добавьте в текст небольшие паузы через запятые или многоточия между смысловыми блоками. Когда рот закрывается между фразами это выглядит естественно и скрывает возможные артефакты.

Громкие взрывные звуки типа: «п», «б», «т» на старте иногда дают дёрганье губ. Если видите этот артефакт, то попробуйте переформулировать текст, убрав слова, начинающиеся с этих букв в ключевых местах.

ElevenLabs — как не жечь символы

Сначала тестируйте на коротком тексте. Возьмите 2–3 предложения, проверьте голос, настройте ползунки, и только потом генерируйте полный текст. Один неудачный прогон длинного текста съедает сотни символов впустую. Настройте Stability и Similarity один раз на тестовом куске и запишите значения. Не трогайте их каждый раз заново, ведь лишние попытки.

Если текст большой, разбейте на смысловые блоки и генерируйте по частям. Если один блок получился плохо, то перегенерируете только его, а не всё заново. Не используйте платный голос для черновика. Сначала прогоните текст через любой бесплатный голос, убедитесь, что текст звучит нормально, нет странных ударений и пауз, а потом переключайтесь на свой клонированный или премиум голос. Учтите, что за бесплатные голоса в YouTube может «прилететь».

Kling и HeyGen — как не жечь кредиты

Сначала делайте короткий тест‑клип на 5–10 секунд. Убедитесь в том, что губы синхронизируются нормально, нет артефактов на лице, качество устраивает, а только потом запускайте полное видео. Аудио готовьте заранее и тщательно. Плохое аудио является основной причинок переделок. Уберите фоновый шум, проверьте, что речь чёткая, нет слипшихся слов. Одна нормальная аудиодорожка экономит 3–4 попытки.

В HeyGen не запускайте перевод сразу на финальном видео. Сначала переведите короткий отрывок, проверьте качество перевода и синхронизации, потом полную версию.
В Kling выбирайте минимально необходимое качество для задачи. Если видео идёт в Stories или Reels — нет смысла гнать в максимальном качестве, это дороже по кредитам.

Общее правило для обоих: видео с чистым фоном и статичной головой липсинкуется лучше и с первого раза. Чем больше движений камеры и фона — тем выше шанс артефактов и переделок.

Неочевидные лайфхаки по сервисам

В Kling есть режим, где вы задаёте не только аудіо, но и движение головы через reference video. Снимаете себя на телефон, как вы говорите без слов и просто киваете и двигаете головой. Загрузите это как референс. Результат выглядит живее, потому что добавляется натуральная микромимика.

В HeyGen если использовать Photo Avatar вместо Video Avatar то расход кредитов ниже, а для простых задач качество сопоставимо. Большинство не замечает разницы в финальном ролике.

Иллюстрации и арт‑картинки работают лучше, чем реальные фото для некоторых задач. Если делаете говорящего персонажа для контента, то попробуйте сгенерировать лицо через Midjourney или Flux либо поиграйтесь со стилями кино и мультиков популярных. Нарисованные лица часто дают более чистый липсинк, чем фото реального человека, потому что у них нет морщин, пор и текстур которые модель пытается сохранить.

Как заставить фото говорить через ИИ на русском языке: 3 простых варианта

3 способа заставить фото говорить с AI

Как сделать говорящее фото в MagiaPicbot

HeyGen — как создать говорящего аватара

Kling — пошагово как сделать говорящее фото

Рабочий план: как озвучить фото через ИИ

Как сэкономить токены, и не делать ошибок?

ElevenLabs — как не жечь символы

Kling и HeyGen — как не жечь кредиты

Неочевидные лайфхаки по сервисам

Публикации

Информация