Как стать автором
Обновить

Анализ стадий волейбольной игры с помощью искуственного интеллекта

Время на прочтение 2 мин
Количество просмотров 3.7K
Всего голосов 6: ↑4 и ↓2 +2
Комментарии 14

Комментарии 14

Ничего не понятно, но очень интересно. Конкретных результатов так и не увидели в статье... (Мало кто пойдет сам в репозиторий качать, запускать скрипты). Видимо, результаты вышли настолько плохими, что в статье решили их даже не светить... Последний абзац вообще что-то неясное...

из огромного и невнятного видео извлечь собственно розыгрыши и отбросить всякую скукоту.

Ценность, видимо, в этом. Потому что в волейболе (по крайней мере не профессиональном) розыгрыши, наверное, занимают треть времени. Сходить и передать, подготовка к подаче и все такое.

Да, монтаж видео - кропотливая работа и у любителей как правило нет ресурсов на это, они вываливают в сеть свои записи на 2 часа, из которых первые 10 минут люди ходят вокруг площадки.

Если вы хотите найти на видео себя или какой-то конкретный эпизод - только тотальная прокрутка.

Попробую записать следующую тренировку и прогнать. Ракурсы имеют значение?

Да, камера должна быть позади корта

Достаточно же цифр было в статье: 80% при обучении, 70% при тесте, 8 и 20 розыгрышей из 29 распознано.

Что вам не хватает?

mediapipe не тестировали ?

Нет, только сейчас узнал о его существовании

он на CPU достатчно шустро работает
и + позы будет явно интерсно тоде анализировать

У него под капотом же все равно какие-то нейросети, можно работать с ними напрямую без посредников.

Интересная задача, но правда кажется, что здесь приведена только первая половина статьи с постановкой и выбранным методом, но практически без результатов и метрик качества :) . Очень бы хотелось увидеть финальный продукт, начало классное! Есть несколько смущающих меня моментов, может и Вы найдете какие-то идеи для себя.

Во-первых, хотелось бы обучать модель на одной игре, а валидировать на игре других команд, чтобы было по-честному. 

Во-вторых, не знаю как Вам, но мне кажется, что спортивные сцены всегда по своей сути динамичны, поэтому классификатор может сильно лучше заработать, если на вход подавать не 1 кадр, а серию, например, из 3 кадров, вырванных с интервалом с несколько десятых секунды. 

В-третьих, можно присмотреться к затратным сетям, описывающим постановку рук ног человека. С этой информацией классификатор должен справляться намного лучше, но и данные становятся сильно дороже. Опять же, от масок с большим количеством пустой информации можно перейти к более формальным данным, сильно снизив размерность задачи. Например, использовать координаты, ширину и высоту фигур людей, упорядоченных в каком-то определенном порядке.

В-четвертых, очень не хватает confusion matrix. Тот же переходный процесс от расстановки к игре и от игры к празднованию - очевидная проблема для классификации.

Как мне видится процесс разметки данных. Пишем скриптик, который в очень замедленном режиме будет воспроизводить видео. Даем оператору возможность нажимать 4 кнопки: c n p s - каждая маркирует начало каждой стадии игры. Т.о. получаем таймлайн разметки игры. В последствии выдираем кадры из размеченной части датасета, при этом стараясь не нарываться на переходные от одной стадии к другой фрагменты. Имея размеченный по времени датасет мы можем в тч играться с подачей в модель серий кадров, менять алгоритмы постобработки и тп. Опять же, мы точно знаем, сколько человек должно быть на площадке. Это может нам сильно помочь с выбором threshhold’ а динамически, просто отбирать 12+1 фигур, похожих на человека в кадре, а не играться с линией отсечения.

Во-первых, хотелось бы обучать модель на одной игре, а валидировать на игре других команд, чтобы было по-честному. 

Согласен, но статья про идею, а доводка займет в разы больше времени

 если на вход подавать не 1 кадр, а серию, например, из 3 кадров

Вот над этим я как раз думаю, равно как и над применением posenet

Например, использовать координаты, ширину и высоту фигур людей, упорядоченных в каком-то определенном порядке

Эту проблему я упоминал - стандартизировать выхлоп детектора - сама по себе интересная задача, опять же выходящая за рамки идеи-гипотезы.

 Опять же, мы точно знаем, сколько человек должно быть на площадке.

Не факт. Во-первых, возможны ошибки детектора, плюс к этому в динамике люди часто перекрываются или заслоняют друг друга или смазываются, так что ошибки детектора иногда достаточно серьезны. Плюс к этому, волейболы бывают разные - 6x6, 3x3, 4x4, 2x2 и для начала надо понять в какой из них тут играют.

Зарегистрируйтесь на Хабре , чтобы оставить комментарий

Публикации

Истории