Pull to refresh
33
8.8
(Алексей) @NeyroEntuziast

Не гадьте в карму, лучше пишите, в чём не согласны

Send message

Нейросети для создания видео: подборка самых топовых ИИ-генераторов видео

Level of difficultyEasy
Reading time11 min
Views2.7K

Привет, друзья! За год нейросети для создания видео настолько усовершенствовались, что теперь можно генерировать видео сразу со звуком и разговорами. В этой подборке нейросетей для генерации видео я собрал наиболее популярные и функциональные генераторы видео. Для удобства я пронумеровал их.

Некоторые из них более мощные, некоторые более удобные, а некоторые - просто проще в использовании. Я также приведу реальные примеры, расскажу, как получить к ним доступ, и выскажу свои мысли после тестирования каждой из них.

Читать далее

HeyGen представила AI Studio. Как получить доступ и пользоваться HeyGen, чтобы сгенерировать аватара

Level of difficultyEasy
Reading time5 min
Views727

Тренд на видео с ИИ-аватарами не сбавляет оборотов. Если в последнее время вы проводили много времени, прокручивая ролики TikTok или Instagram, то наверняка сталкивались с этими ИИ-видео с говорящими персонажами Это и обезьяна, ведущая влог, и день из жизни Джорджа Вашингтона, и многие другие.

Они привлекают внимание, и очевидно, что спрос на такой контент растет.

HeyGen - одна из платформ, которая сделала этот процесс проще и доступнее. Теперь они сделали еще один шаг вперед, представив HeyGen AI Studio.

В этой статье я расскажу вам о том, как работает HeyGen AI Studio, и покажу, какого качества видео вы можете сгенерировать.

Давайте начнем.

Читать далее

Google представила Veo 3 Fast — более быструю и дешевую версию Veo 3. Что такое Veo 3 Fast и как ей пользоваться

Level of difficultyEasy
Reading time6 min
Views4.4K

Прошло всего пару недель с тех пор, как Google представила Veo 3, свою самую мощную ИИ-модель для генерации видео. Особенность Veo 3 заключается в том, что это первая модель, которая генерирует как видео, так и аудио. Вы вводите запрос и сценарий, и она создает восьмисекундный ролик, в котором персонаж произносит ваши реплики с соответствующей синхронизацией губ, выражением лица и даже звуковыми эффектами.

Но была одна большая проблема. Стоимость.

Когда был открыт доступ к API, я был потрясен. Пятисекундное видео со звуком стоит 3,75 доллара. Каждая дополнительная секунда — это еще 0,75 доллара. Если посчитать, то минутное видео Veo 3 обойдется вам в 45 долларов. Для большинства пользователей это не очень дешево.

К счастью, сегодня Google выпустила новую модель, которая стоит в 5 раз дешевле Veo 3. Она называется Veo 3 Fast.

В этой статье я расскажу, что такое Veo 3 Fast, как получить к ней доступ и использовать, а также покажу примеры видео и выскажу свои соображения.

Читать далее

Manus AI теперь умеет генерировать короткометражные фильмы

Level of difficultyEasy
Reading time5 min
Views1.1K

В Manus AI, популярном агенте для автоматизации и чатботе, появилась функция генерации видео.

Я намеренно написал «короткометражных фильмов» в названии, потому что это не обычный инструмент для преобразования текста в видео или изображения в видео. Manus создает раскадровку, выполняет визуализацию концепции, генерирует несколько видеороликов, а затем склеивает их вместе.

И все это делается с помощью одного промпта.

Читать далее

Разработчики открыли ранний доступ к Kling 2.1

Level of difficultyEasy
Reading time5 min
Views1.9K

Через несколько дней после того, как Google выпустила Veo 3, компания Kling, видимо, ощутила давление и открыла ранний доступ к своему грядущему семейству видеомоделей Kling 2.1. Время было выбрано как нельзя более удачно.

Вчера на X и Reddit появилось несколько видеороликов, созданных с помощью Kling 2.1. В этом посте я расскажу о том, что же на самом деле предлагает Kling.

Судя по тому, что я прочитал, будет три разных режима:

Standard Mode в Kling 2.1:

Читать далее

Google представила ИИ-генератор видео Veo 3

Level of difficultyEasy
Reading time6 min
Views41K

Если Veo 2 произвел на вас впечатление, то Veo 3 вас просто поразит.

Google IO 2025 завершилась, и это была абсолютная масса анонсов в сфере ИИ. Многие люди, включая меня, до сих пор поднимают челюсти с пола. Но из всех анонсов Veo 3 - один из самых захватывающих для меня.

Об остальных анонсах я расскажу в отдельном посте, а пока давайте сосредоточимся на новейшей генеративной видеомодели Google.

Читать далее

OpenAI представила Codex — агента по разработке программного обеспечения внутри ChatGPT. Обзор ИИ-инструмента

Level of difficultyEasy
Reading time7 min
Views7.5K

OpenAI продолжает делать ChatGPT полезным для разработчиков.

Несколько дней назад они добавили поддержку подключения репозиториев на GitHub для глубокого исследования и возможности задавать вопросы на основе собственного кода.

Сегодня компания запустила предварительную исследовательскую версию Codex в ChatGPT, своего самого способного ИИ-агента для программирования. Он может писать код, исправлять ошибки, запускать тесты и одновременно управлять несколькими задачами по программированию, и все это - в безопасной облачной среде.

Давайте разберемся в деталях анонса Codex.

Читать далее

OpenAI представила GPT-4.1 — улучшенный процесс программирования, следование инструкциям и длинное контекстное окно

Level of difficultyEasy
Reading time8 min
Views3.9K

Компания OpenAI выпустила свою новейшую ИИ‑модель GPT-4.1, а также два более компактных варианта: GPT-4.1 Mini и GPT-4.1 Nano. В новом поколении моделей GPT значительно улучшены возможности программирования, следование инструкциям и поддержка до 1 миллиона токенов (примерно 750 000 слов).

У всех трех моделей знания ограничены июнем 2024 года.

Но почему именно три модели?

Решение о создании трех моделей было обусловлено необходимостью удовлетворить различные требования разработчиков по различным параметрам, таким как интеллект, скорость и стоимость.

Читать далее

Google представила Firebase Studio. Создавайте полнофункциональные ИИ-приложения с помощью Gemini

Level of difficultyEasy
Reading time7 min
Views10K

Google выпустила Firebase Studio, свою собственную платформу для программирования. Она должна составить конкуренцию таким платформам, как Cursor, Lovable, Bolt и V0. Если вы занимаетесь веб-разработкой, то, скорее всего, знаете Firebase как базу данных от Google.

Но это уже не так.

Это теперь полноценная экосистема, которая поможет вам создавать, тестировать и запускать ИИ-приложения без навыков написания кода.

Итак, что такое Firebase Studio, как она работает и может ли она заменить Cursor или инструменты, которые вы уже используете?

Давайте в этом разберемся.

Читать далее

Нативная генерация изображений в GPT-4o: как получить доступ, примеры генерации и редактирования изображений

Level of difficultyEasy
Reading time6 min
Views9.7K

Когда Google представила Gemini 2.0 Flash, я думал, что она на некоторое время займет трон лучшей ИИ-модели для редактирования изображений, но я ошибся. Сегодня OpenAI выпустила GPT-4o с нативной генерацией изображений. Эта новая модель позволяет генерировать изображения, редактировать одно изображение с помощью текстовых промптов и даже объединять несколько изображений в одно.

В отличие от предыдущего генератора изображений в ChatGPT на базе Dall-E 3, новый генератор изображений является частью модели GPT-4o. Да, GPT-4o - это «омнимодальная» модель, способная обрабатывать и генерировать текст, аудио и изображения.

Переход от отдельных моделей к встроенной интеграции в GPT-4o - это огромное достижение, которое повышает производительность и возможности за счет более тесной связи понимания языка и визуального синтеза.

Первоначальный доступ к этой новой функции будет открыт для пользователей Plus, Pro, Team и Free ChatGPT начиная с марта 2025 года. Ожидается, что в скором времени появится доступ для корпоративных пользователей и пользователей образовательных учреждений, а также доступ к API для разработчиков.

Читать далее

Как интегрировать Gemini 2.0 Flash в ваше веб-приложение

Level of difficultyMedium
Reading time11 min
Views3.5K

Компания Google выпустила Gemini 2.0 Flash со встроенными возможностями редактирования изображений, и это одна из самых революционных моделей, выпущенных Google в этом году. Я немного необъективен, потому что меня очень интересуют модели изображений с тех пор, как я запустил свое веб-приложение для генерации изображений.

Известно, что технологический гигант плохо разбирается в документации по API, поэтому последние несколько дней я испытывал трудности с интеграцией Gemini 2.0 Flash в Flux Labs. К счастью, Логан Килпатрик, ведущий инженер по продуктам Google AI Studio, недавно опубликовал обновленную документацию, которая значительно облегчает работу.

Так что если вы планируете создавать приложения с нуля или интегрировать Gemini 2.0 Flash в существующее веб-приложение, то сейчас я расскажу вам, как это сделать.

Читать далее

Google представила функцию Canvas в Gemini: что это такое, как получить доступ и чем она полезна

Level of difficultyEasy
Reading time5 min
Views8.6K

Google выпустила новую функцию Gemini под названием Canvas, которая представляет собой интерактивное рабочее пространство, призванное сделать процесс написания текстов и программирования более комфортным и эффективным.

Canvas - не совсем новая концепция в ИИ-чатботах. Компания Anthropic запустила подобную функцию для Claude под названием Artifacts восемь месяцев назад, а OpenAI запустила аналогичную функцию в ChatGPT пять месяцев назад.

Как разработчик, я использую ее для отладки кода и даже для предварительного просмотра проектов с компонентами front-end. Она также отлично подходит для оптимизации написанного контента, что делает ее полезным инструментом для блогеров.

Странно, что Google потребовалось так много времени, чтобы реализовать ту же функцию в Gemini, но я рад, что они наконец сделали это. Но как именно работает Canvas в Gemini и что отличает ее от конкурентов? Давайте узнаем.

Читать далее

Gemini 2.0 Flash от Google теперь позволяет редактировать изображения с использованием естественного языка

Level of difficultyEasy
Reading time4 min
Views10K

Модель Gemini 2.0 Flash от Google теперь позволяет редактировать изображения с помощью естественного языка. В отличие от более ранних мультимодальных систем, в которых использовалось сочетание отдельных моделей (например, использование языковой модели вместе с Imagen 3 для генерации изображений), Gemini 2.0 Flash работает в мультимодальном режиме, генерируя изображения непосредственно в той же системе, которая обрабатывает текст. Это устраняет необходимость в межмодельном взаимодействии, что значительно снижает время ожидания.

Поскольку Gemini 2.0 Flash больше не зависит от Imagen 3, у нее более быстрый отклик и более плавное взаимодействие. Кроме того, вы даже можете добавлять длинный текст прямо на изображения!

Посмотрите на этот пример, где я превратил генерального директора Google Deepmind, Дэмиса Хассабиса, в длинноволосого чувака.

Читать далее

Так ли хорош ИИ-генератор изображений Grok 3?

Level of difficultyEasy
Reading time5 min
Views17K

Вчера Илон Маск и компания xAI объявили, что Grok 3 будет бесплатным для всех в течение ограниченного времени. Это означает, что вы можете использовать Grok 3 для обычных чатов, глубокого исследования темы и даже для создания изображений.

В этом посте я сосредоточусь на возможностях Grok 3 по созданию изображений. Я сравню, насколько он стал лучше по сравнению с Grok 2, и посмотрю, как он выглядит в сравнении с другими ИИ-генераторами изображений, такими как ChatGPT и Flux от Black Forest Labs.

Давайте начнем.

Читать далее

Илон Маск и xAI официально представил Grok 3, который должен составить конкуренцию OpenAI и DeepSeek

Level of difficultyEasy
Reading time4 min
Views16K

Это официально. Grok 3 уже доступен.

В понедельник сам Илон Маск, а также три других члена xAI собрались вместе для презентации Grok 3, которая транслировалась в прямом эфире.

Если вы впервые слышите о Grok, то это ИИ-модель, разработанная xAI, чтобы конкурировать с GPT от OpenAI, Gemini от Google и недавно запущенной моделью DeepSeek.

Маск поделился, что слово «Grok» пришло из научно-фантастического романа Роберта Хайнлайна «Чужак в чужой стране». В книге «Grok» - это термин, используемый персонажем, выросшим на Марсе, и означающий полное и глубокое понимание чего-либо.

Читать далее

Илон Маск объявил дату выхода Grok-3 и подробности

Level of difficultyEasy
Reading time4 min
Views9.2K

Илон Маск официально объявил дату выхода Grok 3, новейшей версии чатбота от xAI. Названный «самым умным ИИ на земле», Grok 3 будет запущен сегодня (17 февраля 2025 года) в 8 часов вечера по тихоокеанскому времени с демонстрацией в прямом эфире.

Маск сделал объявление на канале X, подчеркнув его превосходные способности к рассуждениям. Этот релиз позиционирует Grok 3 как прямого конкурента ChatGPT от OpenAI, DeepSeek R-1, Gemini от Google и Claude от Anthropic.

Читать далее

Perplexity AI запустила функцию Deep Research. Обзор новой функции и ее сравнение с DeepSeek R-1, ChatGPT и Gemini

Level of difficultyEasy
Reading time5 min
Views7.8K

В Perplexity появилась новая функция под названием Deep Research, которая выполняет десятки поисковых запросов, читает сотни источников и анализирует материалы, чтобы предоставить исчерпывающий ответ по каждому вашему запросу.

Когда Google представил модель 1.5 Pro с функцией глубокого исследования в Gemini еще в декабре 2024 года, я понял, что пройдет совсем немного времени, прежде чем OpenAI и Perplexity также выпустят аналогичные функции.

Но вот что действительно интересно: в то время как OpenAI сделала функцию глубокого исследования в ChatGPT эксклюзивной для пользователей с подпиской за 200 долларов в месяц, Perplexity предлагает свою версию глубокого исследования и для не-подписчиков (с ограниченным количеством ответов в день).

Так что если вы пользователь ChatGPT, который раздумывает над тем, чтобы перейти на новую версию только ради функции глубокого исследования, вам стоит подумать дважды. Возможно, эти 200 долларов лучше потратить на что-то другое.

Читать далее

Adobe наконец-то выпустила собственный ИИ-генератор видео. Обзор нового инструмента

Level of difficultyEasy
Reading time5 min
Views2.9K

Сегодня компания Adobe сообщила, что ее ИИ-модель для генерации видео Firefly теперь находится в открытой бета-версии. Модель обучена только на полностью лицензированном контенте, что делает ее гораздо более безопасным вариантом в условиях постоянно растущей конкуренции генераторов видео на базе ИИ.

Если вы подписались на их программу раннего доступа, вы должны были получить уведомление о том, что Firefly теперь доступна для публичного использования.

Читать далее

ByteDance представила ИИ-модель для генерации видео Goku. Наступает эра фейковых блогеров

Level of difficultyEasy
Reading time4 min
Views2.2K

Согласитесь ли вы со мной, если я скажу, что наступает эра фейковых блогеров?

По правде говоря, она уже наступила.

Согласно исследованию Influencer Marketing Hub, 31,7 % брендов считают, что виртуальные блогеры имеют преимущество перед реальными. Еще 29,1 % назвали их круглосуточную доступность самым большим преимуществом.

Сегодня существуют ИИ-платформы, позволяющие создавать образы привлекательных женщин и генерировать реалистичные видеоролики с их участием. Некоторые из них даже являются бесплатными.

Однако, судя по моему личному опыту, сгенерированные видеоролики с людьми по-прежнему не отличаются реалистичностью. Большинство, если не все, видеомодели по-прежнему испытывают трудности с согласованностью движений.

Недавно Гонконгский университет официально представил модель для генерации видео Goku, разработанную в сотрудничестве с ByteDance. Эта новая видеомодель позволяет создавать максимально реалистичные видеоролики в стиле видео для Tik Tok, в том числе и для создания видеороликов с ИИ-блогерами.

Читать далее

Meta* представила VideoJAM: ИИ-генератор видео с темпоральной когерентностью SOTA

Level of difficultyMedium
Reading time8 min
Views1.7K

Создание видео со сложными, реалистичными движениями остается одной из самых трудноразрешимых задач для ИИ-моделей для генерации видео. Даже самые популярные инструменты, такие как Sora от OpenAI, Gen-3 от Runway и Kling AI, продолжают испытывать трудности с согласованностью движений.

Попробуйте сгенерировать сцену, в которой человек наливает молоко или нарезает помидор, и вы наверняка заметите несоответствия - жидкости не подчиняются силе тяжести, объекты сливаются друг с другом, а конечности неестественно извиваются.

Чтобы продемонстрировать эту проблему, я попытался с помощью Sora от OpenAI быстро сгенерировать видео мальчика, кусающего бургер.

Читать далее

Information

Rating
885-th
Registered
Activity