Как стать автором
Обновить

Tencent опубликовала MiraData — большой датасет видеоданных для обучения нейросетей

Время на прочтение1 мин
Количество просмотров1.5K

Китайская компания Tencent опубликовала MiraData — открытый датасет видеоданных для обучения нейросетей. С его помощью разработчики могут создавать модели для генерации длинных роликов.

Авторы датасета отмечают, что анонс нейросети Sora от OpenAI сильно повлиял на область генерации видео. Ролики от Sora отличаются относительно длинным хронометражем и интенсивными движениями в кадре. Имеющиеся открытые наборы данных не позволяют обучать модели такого же уровня, поэтому инженеры Tencent решили исправить это.

Датасет MiraData включает в себя видеоданные общей продолжительностью более 16 тыс. часов, а средний хронометраж каждого ролика составляет 71 секунду. Видео подобран так, чтобы в них присутствовала высокая интенсивность движения в кадре. Каждое видео сопровождается подробной аннотацией из более чем 300 слов.

Архитектура датасета MiraData
Архитектура датасета MiraData

Для оценки качества моделей, обученных на MiraData, выпустили бенчмарк MiraBench. Он использует 17 метрик, обращающих внимание на качество видео, согласованность движений, временную согласованность и другие параметры. Авторы проекта подчёркивают, что другие открытые датасеты делают упор на короткие видео, а аннотации часто не превышают 20 слов.

Сравнение MiraData с другими открытыми датасетами
Сравнение MiraData с другими открытыми датасетами

Проект опубликован на GitHub, а данные можно скачать с Google Drive или Hugging Face Dataset. Вместе с этим инженеры опубликовали текст исследования на портале Arxiv.

Теги:
Хабы:
Если эта публикация вас вдохновила и вы хотите поддержать автора — не стесняйтесь нажать на кнопку
Всего голосов 4: ↑4 и ↓0+6
Комментарии0

Другие новости

Истории

Работа

Data Scientist
95 вакансий

Ближайшие события

27 августа – 7 октября
Премия digital-кейсов «Проксима»
МоскваОнлайн
3 – 18 октября
Kokoc Hackathon 2024
Онлайн
10 – 11 октября
HR IT & Team Lead конференция «Битва за IT-таланты»
МоскваОнлайн
25 октября
Конференция по росту продуктов EGC’24
МоскваОнлайн
7 – 8 ноября
Конференция byteoilgas_conf 2024
МоскваОнлайн
7 – 8 ноября
Конференция «Матемаркетинг»
МоскваОнлайн