Статьи / Профиль Tarzan3668 / Хабр

Пузицкий Михаил @Tarzan3668

Data Science, предприниматель

ПрофильСтатьи3ПостыНовостиКомментарии8

Tarzan3668 12 авг 2024 в 12:10

Как оживить Кандинский матрицами вращений для генерации видео — модель Splitter Next (часть 3-я)

Средний

9 мин

1.1K

Natural Language Processing*Искусственный интеллектМашинное обучение*Обработка изображений*Работа с видео*

В первой части, был показан способ генерации видео за счет влияния на текстовый эмбеддинг изменениями от эмбеддингов кадров другого видео через матрицы вращений. Во второй части были показаны первичные подходы и реализации по генерации видео из текста с использованием машинного обучения простой модели Splitter. Задача модели Splitter создавать серию близких текстовых эмбеддингов, которые будут потом использоваться Декодером для генерации близких изображений. В третей части я покажу как улучшал модель Splitter и оценивал.

Tarzan3668 27 июл 2024 в 11:10

Как оживить Кандинский матрицами вращений для генерации видео — модель Splitter (часть 2-я)

Средний

7 мин

1.2K

Работа с видео*Обработка изображений*Машинное обучение*Искусственный интеллектNatural Language Processing*

В первой части, я познакомил вас с новым подходом, использующим матрицы вращений для генерации видео моделями text-2-image.

Во второй части двигаемся к решению задачи на основе машинного обучения через:
- формализацию функции потерь;

- построение базовой модели Splitter, по сути, обучаемой матрицы вращений;

- построение алгоритма обучения на векторизованном датасете из 200-500 роликов.

И посмотрим первые результаты.

Tarzan3668 22 июл 2024 в 00:43

Как оживить Кандинский матрицами вращений для генерации видео (часть 1-я)

Средний

6 мин

2.7K

Работа с видео*Обработка изображений*Машинное обучение*Искусственный интеллектNatural Language Processing*

Из песочницы

В статье коснемся темы матриц вращений и особенно их версии для многомерных пространств. Матрицы вращений широко используются в задачах 3D моделирования, для контролируемого поворота объекта. Но как оказалось, можно посмотреть на них шире и применить к многомерному латентному пространству диффузионных моделей. И первые опыты показали применимость матриц вращений при решении задачи генерации видео из текста. Статья (1-я часть) основана на моей магистерской работе в МФТИ, которую защитил в июне 2024г.
Продолжение во 2й части.

+14

В рейтинге: Не участвует

Откуда: Москва, Москва и Московская обл., Россия

Дата рождения: 3 июня 1968

Зарегистрирован: 2 июля 2017

Активность: 24 апреля в 14:09

Ученый по данным, Инженер по компьютерному зрению

Средний

От 350 000 ₽

Научно-исследовательская работа

Компьютерное зрение

Машинное обучение

Обработка естественного языка

PyTorch

Deep Learning

Нейронные сети

Computer Science

Reinforcement learning

TensorFlow

Как оживить Кандинский матрицами вращений для генерации видео — модель Splitter Next (часть 3-я)

Как оживить Кандинский матрицами вращений для генерации видео — модель Splitter (часть 2-я)

Как оживить Кандинский матрицами вращений для генерации видео (часть 1-я)

Информация

Специализация