Слишком сильно напоминает данную статью https://habr.com/ru/articles/540312/, только теперь задача другая. Что будете делать в случае не английского языка?
И как понять фразу "данных для обучения нет" ? У вас же есть конкретный маркетплейс, могли бы спарсить, попытаться обучить что-то на этом. Воспользоваться идеями ArcFace/ Margin Loss, чтобы понимать, когда у вас появился новый цвет/выбросы.
Для военных целей явно нужно датасет другой специфики. Различные погодные условия, условия освещенности + моделирование искажений, которые возникают при съёмке. Сейчас же есть куча моделей, которые способны выдывать вменяемое качество, но собрать такой набор данных - нереально трудная задача.
В статье Яндекса "Как мы разработали устройство для контроля внимания водителей. Опыт Яндекс.Такси" хорошо описывается в комментариях, почему этот подход не работает в реальности. Я решал задачу определения засыпания на устройствах, которые эксплуатируются в метро и в автобусах. Нейросетевой анализатор состояния глаз даёт точность в разы лучше + это более контролируемый механизм относительно EAR.
Когда-то решал задачу аналогичную той, что предоставил автор. Для таких случаев у нас были "паттерны" расположения, т.е. мы собрали статистику за промежуток времени, а затем произвели разметку. Это позволяло учитывать случаи, когда люди криво паркуются. Итоговой алгоритм должен был выбрать лучший паттерн исходя из максимального числа свободных мест. Остался даже репозиторий - https://github.com/Vanna-IVision/IVISION_HACK.
Попробуйте вычитать все несоответствия. У вас во многих места отсутствует согласование слов/падежей. Ощущение, что человек до этого не писал на русском языке.
И хотелось ещё добавить, что при увеличениИ нашЕГО изображениЯ, мы можем применить те же Сглаживающие алгоритмы.
Задача же сама по себе не новая. Это как с распознавание автомобильных номеров, явно область не новая, но развитие техники позволяет нам решать эти задачи иначе. Тут ведь всё дело в расстоянии до объектов, а также в разрешении камеры.
На изображениях не было фиктивных знаков. Хотя, если учитывать особенности их разметки, то часть знаков все же были фиктивными, так как у вас нет возможности поставить в соответсвие знаку изображения, не копаясь в разметке. Касательно грузовиков и ложных срабатываний. По-моему, здесь можно обучить классификатор, взяв область дорожного знака + какую-то часть фона. Думаю, что фон в виде деревьев, земли отличим от фона автомобиля (грузовика). Спасибо большое !
Слишком сильно напоминает данную статью https://habr.com/ru/articles/540312/, только теперь задача другая.
Что будете делать в случае не английского языка?
И как понять фразу "данных для обучения нет" ? У вас же есть конкретный маркетплейс, могли бы спарсить, попытаться обучить что-то на этом. Воспользоваться идеями ArcFace/ Margin Loss, чтобы понимать, когда у вас появился новый цвет/выбросы.
У вас есть какая-то доказательная база для этого утверждения? Почему такой вид аугментации не должен работать ?
У вас что-то не то с картинками. Последняя вообще нечитаемая.
У вас прекрасный навык объяснять сложные вещи понятными примерами. Высокое качество материала и подачи !
Краткая выжимка всей истории с Блейком.
Статья частично напоминает работу NtechLab.
Ощущение, что просто скомпоновали несколько статей воедино.
Имеет, в этом случае batch-size будет подобран автоматически на основе объёма памяти вашей видеокарты.
Для военных целей явно нужно датасет другой специфики. Различные погодные условия, условия освещенности + моделирование искажений, которые возникают при съёмке. Сейчас же есть куча моделей, которые способны выдывать вменяемое качество, но собрать такой набор данных - нереально трудная задача.
Правды никто не знает. Слишком много задач в последнее время можно связать с военным применением.
В статье Яндекса "Как мы разработали устройство для контроля внимания водителей. Опыт Яндекс.Такси" хорошо описывается в комментариях, почему этот подход не работает в реальности. Я решал задачу определения засыпания на устройствах, которые эксплуатируются в метро и в автобусах. Нейросетевой анализатор состояния глаз даёт точность в разы лучше + это более контролируемый механизм относительно EAR.
Когда-то решал задачу аналогичную той, что предоставил автор. Для таких случаев у нас были "паттерны" расположения, т.е. мы собрали статистику за промежуток времени, а затем произвели разметку. Это позволяло учитывать случаи, когда люди криво паркуются. Итоговой алгоритм должен был выбрать лучший паттерн исходя из максимального числа свободных мест.
Остался даже репозиторий - https://github.com/Vanna-IVision/IVISION_HACK.
Попробуйте вычитать все несоответствия. У вас во многих места отсутствует согласование слов/падежей. Ощущение, что человек до этого не писал на русском языке.
И хотелось ещё добавить, что при увеличениИ нашЕГО изображениЯ, мы можем применить те же Сглаживающие алгоритмы.
Задача же сама по себе не новая. Это как с распознавание автомобильных номеров, явно область не новая, но развитие техники позволяет нам решать эти задачи иначе. Тут ведь всё дело в расстоянии до объектов, а также в разрешении камеры.
На изображениях не было фиктивных знаков. Хотя, если учитывать особенности их разметки, то часть знаков все же были фиктивными, так как у вас нет возможности поставить в соответсвие знаку изображения, не копаясь в разметке.
Касательно грузовиков и ложных срабатываний. По-моему, здесь можно обучить классификатор, взяв область дорожного знака + какую-то часть фона. Думаю, что фон в виде деревьев, земли отличим от фона автомобиля (грузовика).
Спасибо большое !