Обновить
146.9

Работа с видео *

Все о создании и обработке видео

Сначала показывать
Порог рейтинга
Уровень сложности

Дизайнер-видеомонтажёр — это просто! (Клип за 1000р)

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров1.6K

Идеи не падают с неба — они складываются из того, что нас окружает. Кто работал на фрилансе или шабашил наверняка сталкивался с проблемами продать подороже (купить подешевле).

На своём канале я реализую свои идеи. Порой хочется создать что‑то новое. Так что в какой‑то момент пазл сложился: я собрал в один трек свой опыт общения с «клиентскими хотелками», их требования, и привычку выражать мысли в рифме — получился черновой набросок песни:

Читать далее

Андроид всё еще не готов к RAW-видео

Уровень сложностиСредний
Время на прочтение12 мин
Количество просмотров1.9K

Уверен, что многих возмутит уже само название этой статьи. А некоторые сразу же побегут в комментарии указывать на приложение, которое «смогло». Но не стоит спешить, друзья!

Сегодня вам предстоит увлекательное путешествие по стыку технологий, кода и технических решений, которые и расскажут вам то, о чем адепты съемки мобильного RAW‑видео предпочитают не говорить.

Читать далее

Болезнь Крона, осы-паразиты и «больной нытик из Цюриха»: что стоит за главной сценой «Чужого»

Уровень сложностиПростой
Время на прочтение13 мин
Количество просмотров8.6K

Сегодня, дорогие читатели, мы погрузимся в небольшую, но интересную историю создания той самой офигенной сцены из «Чужого», от которой в своё время многим снились кошмарики. Впечатлительный был народ. В общем, разогревай вермишельку или чего ты там кушаешь, а мы погнали. Итак…

Каковы мои шансы?

По мотивам поста «камера за 1000р»

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров5.4K

Всем привет.

Публикация по мотивам поста https://habr.com/ru/articles/924182/, где уважаемый @almirus показал неплохое железо.

Читать далее

Почему так тяжело учить грамматику иностранного языка?

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров7.8K

Недавно ,была опубликована статья: «Почему так трудно учить иностранный язык?». В развитие этой темы, думаю, самое трудное в изучении языка – это грамматика. Для многих она всегда была камнем преткновения. Отсюда постоянно идут разговоры, что грамматика – не главное, мол, можно вполне обойтись без нее, просто погрузившись в языковую среду, как, совершенно естественно, учат язык дети

Однако, для взрослых такой метод работает менее эффективно. Часто, просто нет возможности общаться напрямую с носителями, но, даже, у постоянно находящихся за рубежом, все равно, возникает необходимость посещать языковые курсы.

Взрослые, как правило, используют два основных метода изучения иностранного языка: с помощью преподавателей или репетиторов и самостоятельно.

Первый способ особенно хорош для студентов языковых ВУЗов. Ребята туда идут подготовленные и высокомотивированные. Скажем, я, на первом курсе мехмата МГУ, встретил студентку первого курса МГИМО, которая, в свои 17 лет уже знала, в совершенстве, английский, французский и японский языки. На память, она оставила мне рисунок меня с надписью на катакане. Я даже собирался купить японско-русский словарь, чтобы прочесть ее послание, но, не судьба.

У нас, английский язык преподавали жестко, как и все остальные предметы для математиков, включая физкультуру. Тем не менее, с большим трудом, мы могли его «сдать», но, фактически, при этом, почти ничего не знать.

По большому счету, все упиралось в слабое знание грамматики, Да и словарный запас был недостаточным. Хотя, может быть, главным, все же, оказался недостаток мотивации, ибо вся она уходила на математику. По этой причине, нас очень любили студенты МГИМО, которые говорили, что: «Мы понимаем всех, кроме вас, математиков». Именно на нас они оттачивали свое мастерство ведения брифингов и пресс-конференций. И даже уговаривали задавать каверзные вопросы (это в те времена, когда, за прослушивание «Голоса Америки» можно было вылететь из Университета).

Читать далее

Чудесная история Генри Шугара

Уровень сложностиСредний
Время на прочтение2 мин
Количество просмотров1.3K

Это фильм. «Чудесная история Генри Шугара». В 2023 года. Я сделал красочные цвета. Вот что получилось. Ну что? Что вы думаете? «Кислотные телепузики»? :-)

Фильм получил премию «Оскар» в 2024 года. Вот полной ffmpeg:

Читать далее

Секрет идеального звука в Veo 3: анализ успешных промптов

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров2.2K

Давайте поговорим о самом недооценённом навыке в генерации видео. Нет, это не подбор оформления «в стиле Миядзаки» и не магия идеального освещения. Это — звук. Именно он создаёт то самое неповторимое настроение, ту самую магию, которая заставляет зрителя досмотреть ваш шедевр до конца, а не закрыть через три секунды.

Суть в том, чтобы не перечислять звуки, а погружать нейросеть в атмосферу, описывать мир вокруг так, как будто вы сами в нём находитесь. И знаете, это сработало! Veo 3 оказался куда более чутким слушателем, чем я думал.

Читать далее

Google Veo 3: как оживить картинку или фото (со звуком)

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров13K

Спустя пару месяцев после релиза, в самом конце июля, разработчики Google Veo 3 добавили ту самую кнопочку Загрузить изображение. Я обожал эту фишку в Veo 2, но в третьей версии нейросеть просто взлетела по качеству. В общем, в этой статье — полный разбор, как оживить со звуком всё что угодно: от вашего кота до стрит‑арта Бэнкси.

Читать далее

Как сделать красочные цвета в аниме и фильмах? ffmpeg

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров1.3K

Представляю к вашему вниманию пять фильмов и четыре аниме которые сам сделал. С красочными цвета! ffmpeg в командной строке полностью. Первый — это ремукс файл исходник. Где-то 30 или 40 гигабайт. Последний - это 7 или 12 гигабайт красочные цвета получили. А потом можно в Яндекс Диск скачать полный фильм!

Читать далее

Как пользоваться Veo 3: примеры промптов от простого к сложному

Уровень сложностиПростой
Время на прочтение14 мин
Количество просмотров7.3K

Думаете, нейросеть для генерации видео Veo 3 — это непроходимый квест? Вовсе нет! Это как давать задание самому внимательному режиссёру. Всё просто: всего пара хитрых приёмов в запросе — и вот уже готова крутая видеосториз с идеальным светом, звуком и одним и тем же героем. Нет, это не магия, это умные промпты. Проверим?

Мы раскроем секреты, чтобы ваши ролики выглядели как снятые голливудской камерой. Готовьтесь к идеальным роликам без лишних слов.

Читать далее

Промпты для Veo 3: как создать идеальное видео?

Уровень сложностиПростой
Время на прочтение16 мин
Количество просмотров8K

Вы тоже видели эти впечатляющие демо‑ролики, созданные Google Veo 3, и хотите повторить?

Генерация видео по текстовому описанию перестала быть фантастикой. Нейросеть Veo 3 уверенно доказывает это, превращая ваши идеи в кинематографичные кадры. Секрет успеха кроется в правильно составленном промпте.

Революционная модель, появившаяся в мае 2025 года, мыслит визуальными категориями, и наша задача — говорить с ней на одном языке. Это подробное руководство расскажет, как составлять эффективные промпты для Veo 3, структурировать их, избегать распространенных ошибок и точно доносить до ИИ свои творческие замыслы.

Читать далее

Мой удивительно быстрый видеокодек для стриминга

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров12K

Стриминг игрового процесса с одной машины на другую достаточно популярен сегодня. Для этого процесса требуются очень низкие задержки — здесь важна каждая миллисекунда. Нам нужно выполнять следующие задачи:

• Отправляем ввод контроллера с машины А на машину Б по сети

• Б рендерит кадр на GPU

• Б кодирует кадр в битовый поток

• Б отправляет результат по сети машине А

• A декодирует битовый поток

• A отображает изображение на экране

• В мозге цели высвобождается дофамин

Каждый этап в этой цепочке повышает задержки, а нам нужно их как можно сильнее минимизировать. Обычно в качестве решения используется ускоренное GPU сжатие видео при помощи какого-нибудь кодека, обычно H.264, HEVC или, если хотите заморочиться, AV1. В идеале весь процесс должен выполняться примерно за 20 мс.

Читать далее

Продолжение. Год спустя. «Конец августа 2024. YouTube после замедления, про Rutube, Дзен и VK видео»

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров14K

Уже по своей традиции, раз в год пишу про YouTube/Rutube. Что изменилось у меня за год, и нашел ли я альтернативу YouTube. Ниже изложена субъективная точка зрения, с которой не обязательно соглашаться.

Читать далее

Ближайшие события

Я был дизайнером 6 лет, делал картинки для новостей, а потом пришла нейросеть

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров36K

В 2022 году я был простым дизайнером в пиар-отделе  — оформлял социальные сети, делал картинки к новостям. Думал, что так и буду всю жизнь постики клепать.

Сейчас работаю полноценно на внешних заказчиков нашей компании. У меня теперь, помимо графического дизайна для SMM, и интерфейсы, и 3D, и моушен. И вот так получилось, что в нашей компании у меня одна из самых больших экспертностей именно в ИИ. Если что-то не понимают, не знают — сразу ко мне идут.

В этой статье расскажу, как нейросети превратили меня из узкого SMM-специалиста в многопрофильного креатора, покажу реальные кейсы и поделюсь работающими техниками, которые использую каждый день.

Читать далее

Трекинг объектов по видео: как мы повышали точность, снижали ресурсоемкость, и к каким изменениям в продукте это привело

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров1.4K

Привет! Мы в Macroscop разрабатываем ПО для систем видеонаблюдения, которое умеет распознавать автономера, чекать спецодежду на рабочих, детектировать по видео задымленность и возгорания и решать еще около 20 задач, касающихся анализа видео.
Один из фокусов нашей команды - разработка собственной видеоаналитики, а также постоянное ее улучшение, выражающееся в росте точности, функциональности и производительности. 

Пару месяцев назад мы выпустили новую версию ПО, в которой в том числе значительно обновился нейросетевой модуль трекинга, отслеживающий траектории перемещения объектов, пересечение контрольных линий и длительное пребывание в охраняемых зонах.
Необходимость модернизации трекинга назрела, потому что за годы, прошедшие с момента разработки предыдущей версии, к нему накопился ряд пожеланий. Часть из них касалась повышения точности работы, часть - производительности модуля.
Возникла задача, обычно вызывающая холодный пот у разработчика: сделать так, чтобы трекинг работал точнее и при этом - быстрее.

К счастью, причины указанных проблем скрывались в разных частях алгоритма трекинга и были в большой степени независимы друг от друга. В результате нам удалось добиться повышения точности модуля при одновременном снижении затрат вычислительных ресурсов. А как мы это сделали- расскажем дальше.

Все смешалось – люди, кони кошки...

Первая сложность, связанная с точностью, лежала внутри обученного нами детектора-классификатора (YOLO), который обнаруживает в кадре объекты интересующих нас классов: транспорт разных типов, люди, животные. Выражалась она довольно специфическим образом: некоторые животные, особенно кошки и собаки, в определенных ракурсах (вид со спины и видны задние лапы, направленные параллельно туловищу) классифицировались как люди.

Как мы перестали путать кошек и людей

Диалог с LM о кинематографе, и сходстве медиа продукта с оригиналом, способе проверки этого сходства

Уровень сложностиПростой
Время на прочтение12 мин
Количество просмотров239

Здравствуйте. Начну с того, что вчера встретился с старым приятелем и мы смотрели достаточно интересный фильм, после которого у нас произошёл диалог о увиденном, который я в общем повернул в более удобную и объективную сторону, а на следующий день решил продолжить с локальной LM. Эта LM никак мной не исправлена, она выдаёт в ответы только то, что ей позволено и прекрасно понимает что такое расовое угнетение (в смысле что это плохо) и другие такие негативные явления как насилие и нарушение прав. Но диалог у нас с ней был о кинематографе, ПО для просмотра фильмов, подтверждении степени соответствия продукта оригинальному — индикации действий цензуры. На все вопросы LM отвечала честно. Кому‑то это может показаться скучным, а кому‑то и нет, ведь если подумать — кинематограф объединяет даже людей, у которых в реальной жизни нет никаких точек пересечений.

Читать далее

Krea AI: подробный обзор нейросети для генерации изображений и видео по тексту

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров8.1K

Доброго времени суток, «Хабр»!

Сегодня мы поговорим о Krea AI — агрегаторе нейросетей, объединяющем популярные модели ИИ, что позволяет создавать и пошагово редактировать изображения и видео, строить сложные 3D‑сцены с помощью текстовых промтов и существенно повышать качество картинок или видеоматериалов.

Здесь постараюсь раскрыть функциональность данного сервиса. Присаживайтесь удобнее, приступаем к статье.

Читать далее

Сказ о том, как мы приложение для падел-тенниса создавали

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров3.7K

Как‑то раз двое ML‑щиков решили соединить свою любовь к компьютерному зрению и ракеточным видам спорта. Так родилась идея сделать систему видеоаналитики для падел‑тенниса.

Падел — это игра на стыке большого тенниса и сквоша. От сквоша падел взял стеклянные стенки вокруг корта, а от большого тенниса — почти всё остальное.

Читать далее

Оптимизация инференса больших языковых моделей: комплексный анализ современных подходов и практических реализаций

Уровень сложностиСредний
Время на прочтение17 мин
Количество просмотров2K

В процессе разработки RAG-системы для обработки видеоконтента передо мной встала задача генерации качественных описаний для большого объема видео-клипов с использованием мультимодальных языковых моделей. Клипы имели продолжительность около 10 секунд, в отдельных экспериментах мы тестировали материал длиной в несколько десятков секунд. Финальные описания составляли от 300 до 2000 токенов и после генерации разбивались на чанки для индексации в векторной базе данных. При тестировании различных подходов обнаружились значительные различия в скорости и качестве обработки. Компактные модели, работающие с отдельными кадрами изображений (Phi, DeepSeekVL2, Moondream), демонстрировали существенно более высокую скорость по сравнению с моделями полноценной обработки видео, однако качество генерируемых описаний оставляло желать лучшего. Типичный workflow включал конкатенацию описаний отдельных кадров, при этом в DeepSeekVL2 дополнительно использовался system prompt для более интеллигентного объединения результатов анализа кадров. Модели для обработки изображений стабильно укладывались в временные рамки 3-5 секунд на клип, что значительно быстрее требуемого лимита. Полноценные видео-модели, получающие на вход целые видеоклипы, изначально генерировали описания за 30 секунд на vanilla PyTorch. Применение VLLM ускорило процесс до 12-15 секунд, а SGLang позволил достичь целевых 8-10 секунд на клип. Эти временные рамки позволили настроить обработку на кластере из 20 RTX 4090 и сгенерировать около миллиона описаний за месяц для production-системы. Благодаря применению различных техник оптимизации инференса удалось не только достичь поставленных временных целей, но и существенно превзойти их, завершив генерацию необходимого объема описаний за две недели вместо месяца. Система успешно развернута в продакшене и демонстрирует стабильную производительность. Данная статья представляет систематизированный анализ практического опыта оптимизации инференса мультимодальных LLM, полученного в ходе решения реальной production-задачи. Особое внимание уделяется сравнению эффективности различных подходов к ускорению, включая современные специализированные фреймворки VLLM и SGLang, а также аппаратные оптимизации на базе TensorRT.

Читать далее

Самый стильный фильм про виртуальную реальность: TRON

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров4.7K

И это не преувеличение. Точнее, даже не просто фильм, а два фильма, мультсериал и несколько игр по мотивам. А совсем скоро в кинотеатрах появится третья часть, продолжающая сюжет первых двух. Так что, думаю, стоит разузнать о нем чуть больше и рассказать об этом вам.

Заваривайте чаек, отложите в сторону освежитель воздуха и поудобнее примоститесь на бабку в автобусе — сегодня мы нырнем в киберпространство.

Это биоцифровой джаз, брат!

Вклад авторов