avsolovyev10 дек 2024 в 20:11

Как улучшить распознавание маркировки с помощью нейросети

Простой

8 мин

2.6K

Промышленное программирование * Обработка изображений *

Кейс

+11

Комментарии 12

RodionGork 10 дек 2024 в 20:58

Натренировать нейросеть класса Semantic Segmentation с целью выделить границы кода. На выходе получим ломаный контур кода

любопытно, а что эта задача без нейросети не решается?

avsolovyev 10 дек 2024 в 21:05

Обычно это и решается поиском на основании патерна статических элементов кода. Классический алгоритм распознавание так и работает. Но в случае сильной деформации - велик риск не найти или потратить непредсказуемое количество времени.

В случае нейросети - появляются зоны вероятной схожести с обученными данными (причем достаточно быстро), зная точно что код на фото только один, и он примерно ХХХ пикселей по площади - становится намного проще их отфильтровать и взять контур кода, который бы на 99.9% был именно кодом, а не чем-то на него похожим.

Wesha 10 дек 2024 в 21:49

Использовать не L-код (который, как было отмечено, предназначен для размещения на твёрдых поверхностях), а тот, который с самого начала предназначен для гибких? Да не, ерунда какая — давайте будем георически преодолевать проблему, которую создали себе сами!

avsolovyev 10 дек 2024 в 22:27

Мне изначально очень нравилась идея RFID меток: набрал тележку с таким маркированным товаром, вывез её через рамку и карточку приложил - и всё куплено. Никаких тебе штрихкодов, касс, кассиров не надо... Но реальность выглядит немного иначе)

shornikov 11 дек 2024 в 04:34

Ага. Непонятна стоимость итоговая. Может дублирование rfid-ом дешевле будет.
И вообще, в рамках пиления и воровства бюджетов - всё переделать на rfid - это же золотое дно (Может это нам на новый год?).

StepanovAlex 11 дек 2024 в 02:00

Только вот, что это за код для изогнутых поверхностей?

Wesha 11 дек 2024 в 04:55

что это за код для изогнутых поверхностей?

(Участливо:) А, в гугле забанили? Примите мои соболезнования!

StepanovAlex 12 дек 2024 в 05:40

(Участливо) Как интересно, PDF417 лучше читается на мятой и блестящей упаковке чем DM? А на чем основано такое мнение?

Wesha 12 дек 2024 в 19:17

Потому что это, условно говоря, набор одномерных кодов, расположенных один под другим, а с чтением одномерного кода с помятой упаковки проблемы редко возникают.

А на «блестящей упаковке» печатается прямоугольник белой краской, а уже на нём — код.

orekh 11 дек 2024 в 06:13

Странно, что статьей рассмотрены восстановление геометрии кода нейросетью + выпрямление классическим алгоритмом, и полное декодирование данных нейросетью (как фантастика), но не промежуточный вариант где нейросеть на выходе давала бы datamatrix с исправленной геометрией

avsolovyev 11 дек 2024 в 07:36

Я сейчас пытаюсь это реализовать, но пока не нашёл способ, который бы надёжно работал. Буду признателен за любые идеи, которыми вы можете поделиться!

orekh 11 дек 2024 в 09:33

Сам нейросети не обучал, но вообще выглядит очень похоже на Stable Diffusion, который обучается сначала подачей на вход синтетических изображений DataMatrix с минимальными искажениями, а потом с постепенным увеличением шума / перспективного наклона / прочих трансформаций, пока не сможет работать с реальными изображениями.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий