Как стать автором
Обновить
4
0
Пузицкий Михаил @Tarzan3668

Data Science, предприниматель

Отправить сообщение

Как оживить Кандинский матрицами вращений для генерации видео — модель Splitter Next (часть 3-я)

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров985

В первой части, был показан способ генерации видео за счет влияния на текстовый эмбеддинг изменениями от эмбеддингов кадров другого видео через матрицы вращений. Во второй части были показаны первичные подходы и реализации по генерации видео из текста с использованием машинного обучения простой модели Splitter. Задача модели Splitter создавать серию близких текстовых эмбеддингов, которые будут потом использоваться Декодером для генерации близких изображений. В третей части я покажу как улучшал модель Splitter и оценивал.

Читать далее
Всего голосов 5: ↑4 и ↓1+4
Комментарии0

Как оживить Кандинский матрицами вращений для генерации видео — модель Splitter (часть 2-я)

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров1.1K

В первой части, я познакомил вас с новым подходом, использующим матрицы вращений для генерации видео моделями text-2-image.

Во второй части двигаемся к решению задачи на основе машинного обучения через:
- формализацию функции потерь;

- построение базовой модели Splitter, по сути, обучаемой матрицы вращений;

- построение алгоритма обучения на векторизованном датасете из 200-500 роликов.

И посмотрим первые результаты.

Читать далее
Всего голосов 4: ↑3 и ↓1+4
Комментарии2

Как оживить Кандинский матрицами вращений для генерации видео (часть 1-я)

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров2.5K

В статье коснемся темы матриц вращений и особенно их версии для многомерных пространств. Матрицы вращений широко используются в задачах 3D моделирования, для контролируемого поворота объекта. Но как оказалось, можно посмотреть на них шире и применить к многомерному латентному пространству диффузионных моделей. И первые опыты показали применимость матриц вращений при решении задачи генерации видео из текста. Статья (1-я часть) основана на моей магистерской работе в МФТИ, которую защитил в июне 2024г.
Продолжение во 2й части.

Читать далее
Всего голосов 12: ↑10 и ↓2+14
Комментарии4

Информация

В рейтинге
Не участвует
Откуда
Москва, Москва и Московская обл., Россия
Дата рождения
Зарегистрирован
Активность

Специализация

Data Scientist, Computer Vision Engineer
Middle
От 250 000 ₽
Research work
Computer vision
Machine learning
Natural language processing
Pytorch
Deep Learning
Neural networks
Computer Science
Reinforcement learning
TENSORFLOW