В первой части, был показан способ генерации видео за счет влияния на текстовый эмбеддинг изменениями от эмбеддингов кадров другого видео через матрицы вращений. Во второй части были показаны первичные подходы и реализации по генерации видео из текста с использованием машинного обучения простой модели Splitter. Задача модели Splitter создавать серию близких текстовых эмбеддингов, которые будут потом использоваться Декодером для генерации близких изображений. В третей части я покажу как улучшал модель Splitter и оценивал.
Data Science, предприниматель
Как оживить Кандинский матрицами вращений для генерации видео — модель Splitter (часть 2-я)
В первой части, я познакомил вас с новым подходом, использующим матрицы вращений для генерации видео моделями text-2-image.
Во второй части двигаемся к решению задачи на основе машинного обучения через:
- формализацию функции потерь;
- построение базовой модели Splitter, по сути, обучаемой матрицы вращений;
- построение алгоритма обучения на векторизованном датасете из 200-500 роликов.
И посмотрим первые результаты.
Как оживить Кандинский матрицами вращений для генерации видео (часть 1-я)
В статье коснемся темы матриц вращений и особенно их версии для многомерных пространств. Матрицы вращений широко используются в задачах 3D моделирования, для контролируемого поворота объекта. Но как оказалось, можно посмотреть на них шире и применить к многомерному латентному пространству диффузионных моделей. И первые опыты показали применимость матриц вращений при решении задачи генерации видео из текста. Статья (1-я часть) основана на моей магистерской работе в МФТИ, которую защитил в июне 2024г.
Продолжение во 2й части.
Информация
- В рейтинге
- Не участвует
- Откуда
- Москва, Москва и Московская обл., Россия
- Дата рождения
- Зарегистрирован
- Активность