у меня вопрос по confusion_matrix. А почему там единицы не по диагонали? Почему background напротив piket? Это означает, что piket видится там, где должен быть background?
Вообще я согласен с комментатором. Сложно оценить ценность статьи. Не указан размер выборки, также есть вопросы к итоговым значениям по всем метрикам единицы... Что это значит? Что модель работает идеально или что выборка небольшая и модель просто переобучилась на датасет? Также согласен с вопросом к определению мигающих сигналов по единственному кадру. Кажется, что подход выбран не верно. В качестве демонстрации проекта классификации лучше было выбрать что то более статичное, хотя бы марки авто или типы знаков
Раз уж тут в пример привели YOLOv5\v8 и rect window size, то так же скажу, что в наследнице v5 и промежуточкой между v8 - YOLOv7 модели (которую я использовал), с прямоугольным окном не все аугментации доступны, а значит на квадратном окне будет лучше качество (это видно по примерам изобр. батчей, что сохраняются в папку обучения)
Однако такие выбросы (из-за непогоды, нависающих кранов и т. п.) можно сгладить за счет статистики, не тратя время и деньги на переобучение нейронок. Проводя измерение два-три раза в день и собрав информацию, допустим, за неделю, можно исключить аномальные значения, а затем, например, перевести этажи в процент выполненных работ
Работе с данными действительно должно быть посвящено больше времени, чем с моделями, хотя именно на втором часто сосредотачиваются во время разработки.
Тут рассматриваются работа над исправлением ошибок во время разметки, но как быть например в случае ambiguous данных? Например в разметке есть классы "каска" и "голова" и много картинок, где они встречаются вместе. Вот как объяснить как и на что реагировать?! (Примеров может быть множество, ["окно", "человек"] ["перила", "человек"] ["рука", "телефон"], ...) Есть ли какие методы хотя бы фильтрации таких данных, чтобы понимать, что вот такие картинки лучше не добавлять в датасет, так как они "запутывают" модель
насчет музыки +1.
Я тоже слушаю https://music.yandex.ru/neuromusic от Яндекса. Не требует подписки ЯндексПлюс
да ИИ тупо пихают везде, сложно без него купить какой флагман
Отличный материал для подготовки к собесам! Жаль еще что ConvNext нет в списке)
у меня вопрос по confusion_matrix. А почему там единицы не по диагонали? Почему background напротив piket? Это означает, что piket видится там, где должен быть background?
я так понял вражеский "китайский" tiktok вреден для детей, а патриотический ютюб шортс только на пользу?
ну тогда тут много вопросов) Даже по поводу 100 эпох и выбранного алгоритма)
Признаюсь честно, не с первого раза понял вашу статью. Для обегчения чтения советую оформить код в блоки
подождите... Я правильно понял, что все обучение производилось на 7 строках?
X = np.array([
[1, 0, 0, 0, 0, 0], # Зеленый
[0, 1, 0, 0, 0, 0], # Зеленый мигающий
[0, 0, 1, 0, 0, 0], # Желтый
[0, 0, 0, 1, 0, 0], # Желтый мигающий
[0, 0, 0, 0, 1, 0], # Красный
[0, 0, 0, 0, 0, 1], # Красный мигающий
[0, 0, 1, 0, 1, 0], # Красный и желтый
])
y = np.array([
1, # Зеленый: движение разрешено
1, # Зеленый мигающий: движение разрешено
0, # Желтый: движение запрещено
1, # Желтый мигающий: движение разрешено
0, # Красный: движение запрещено
0, # Красный мигающий: движение запрещено
0 # Красный и желтый: движение запрещено
])
Вот это и есть ВСЯ выборка?
Вообще я согласен с комментатором. Сложно оценить ценность статьи. Не указан размер выборки, также есть вопросы к итоговым значениям по всем метрикам единицы... Что это значит? Что модель работает идеально или что выборка небольшая и модель просто переобучилась на датасет? Также согласен с вопросом к определению мигающих сигналов по единственному кадру. Кажется, что подход выбран не верно. В качестве демонстрации проекта классификации лучше было выбрать что то более статичное, хотя бы марки авто или типы знаков
типизация удобна для разработчика и необязательна для скрипта... А по поводу трансформации... Что ж, мы такое уже переживали. Ждем python4
Зачем это написано?
А не пробовали CleanLab для исправления ошибок в аннотации?
может связано с этим?
Интересный маркетинг! Доказывать цифры в 85% мы конечно не будем
а вы точно в этом уверены? Очень убедительно раздаёте советы, но что делать с подписью, поставленной под труд. договором?
Раз уж тут в пример привели YOLOv5\v8 и rect window size, то так же скажу, что в наследнице v5 и промежуточкой между v8 - YOLOv7 модели (которую я использовал), с прямоугольным окном не все аугментации доступны, а значит на квадратном окне будет лучше качество (это видно по примерам изобр. батчей, что сохраняются в папку обучения)
Так а в итоге с постпроцессингом какое accuracy?
Оч. сложная, но оч крутая статья!
Работе с данными действительно должно быть посвящено больше времени, чем с моделями, хотя именно на втором часто сосредотачиваются во время разработки.
Тут рассматриваются работа над исправлением ошибок во время разметки, но как быть например в случае ambiguous данных? Например в разметке есть классы "каска" и "голова" и много картинок, где они встречаются вместе. Вот как объяснить как и на что реагировать?! (Примеров может быть множество, ["окно", "человек"] ["перила", "человек"] ["рука", "телефон"], ...) Есть ли какие методы хотя бы фильтрации таких данных, чтобы понимать, что вот такие картинки лучше не добавлять в датасет, так как они "запутывают" модель
круто, спс. А есть возможность потом в ONNX конвертировать?