Pull to refresh
6
0

CTO в ООО «DataDep» (datadep.ru)

Send message

Для этого и архитектуру надо подправить. Моя Идея заключалась в том, чтобы архитектуру не изменять.

Не понял Вас. Имеете в виду, что каждый элемент входного тензора - отдельный канал?

так как решаются схожие задачи: если гуглить "поиск отличий при помощи НС", или "сравнение образца с шаблоном" - сразу вылезают сиамские сети.

Эксперименты сделаны еще на 5й yolo, год назад. Кажется, 8й еще не было:)

Да, вместо склейки двух кадров пробовал их размещать в разные каналы. Тоже работает. Там чуть сложнее становится с наглядностью), так как изображения начинают "рябить".
Остался пример батча GT и Prediction. GT - левая половина кадров, без числа в красной рамке. Правая половина, где есть число в рамке - prediction

GT - Prediction, при подаче кадров в разные каналы.
GT - Prediction, при подаче кадров в разные каналы.

И даже есть небольшое сравнение двух вариантов подачи кадров. Только уже не помню всех деталей того эксперимента. Прошу прощения за скрин вместо нормальных графиков)

Метрики сравнения двух методов.
Метрики сравнения двух методов.

К точному пониманию как это работает я не пришел. Есть только догадки, которые не проверял. Появилась идея -> проверил на скорую руку. По результатам проверки есть намёки что оно работает.

Заметку как раз написал, чтобы послушать чужие мнения.

По поводу F1=0.6. Из кадров видно, что определение выходящего человека работает хуже. Оно может работать хуже по разным причинам:
1. Обучающий дотасет был сформирован автоматически. Причем следующим образом: При помощи дипсорта детектировался человек. Затем я для каждого человека (если он входит или выходит) брал 10й кадр его нахождения в поле зрения камеры. Считал что он примерно попадет на порог. Понятно, что далеко не все люди в обучающей выборке попали на порог. Но я их не фильтровал, обучал как есть.
2. Часто встречаются два FP детектирования. Одно на кадр раньше, второе - на кадр позже. Но они FP именно с точки зрения разметки. Такие ложные детектирования не мешают определять что человек вышел.

По первому случаю: обучение на дефектах одинаковой природы создаёт отпечаток образа этих дефектов внутри весов.

Я делал "проверку на вшивость" на реальной задаче. Искал дефекты печати при шелкографии.

На прикрепленных картинках тройки изображений.
Верхнее изображение: дефектное слева + нормальное справа
Среднее изображение: дефектное слева + дефектное справа
Нижнее изображение: GT для первого изображения

Примеры работы на реальных данных.
Примеры работы на реальных данных.

Отмечу, что Йолка чувствительна к размеру объекта на который она была обучена. В данном случае она не была обучена на огромные дырки в краске, как на первом и втором примере.

Бывает такое, что определяет дефекты просто потому, что они похожи на дефект. То есть правая часть не всегда играет роль. Пока что думаю, что это недостаточное обучение.

По третьему случаю: задача не только определить направление, но и поймать именно тот момент, когда человек на пороге. То есть "поза над порогом" тоже важна :)

Почему так важно создавать изображения на основе именно русского языка? Сегодня уже довольно хорошо работают переводчики. Ведь можно перевести фразу на английский и пользоваться обычной DALL-E. Согласен, наверно будут проблемы с генерацией типа "лучшая картина Васи Ложкина", но тем не менее, зачем бороться за язык исходной фразы?

Information

Rating
Does not participate
Registered
Activity