Как стать автором
Обновить

Распознавание снимков — почему нейросеть не лучший выбор, и как мне помог сервис распознаваний капчи — личный опыт

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров1.7K
Всего голосов 6: ↑4 и ↓2+4
Комментарии16

Комментарии 16

Методы, которые не работают

А я правильно понимаю, что вы не применяли и не реализовывали все описанные методы, а просто спросили у ChatGPT какие варианты возможны, потом ей же скормили картинку и попросили проанализировать в соответствии с одним из методов?

Если так, то у меня очень большие сомнения, что все полученные числа не рандом (отсутствие повторяемости подтверждает эту гипотезу).

Нейросеть (даже мультимодальная) на то и нейросеть, чтобы работать по своим алгоритмам, а не присланным. Вот если она писала скрипт на питоне с opencv, который запускал бы распознавание в соответствии с нужным методом - тогда ок.

Вы все правильно понимаете)) И я извинился перед авторами методов, если я неправ)), но нейросеть сама применяет то что рекомендует, а не просто выдумывает из своей нейросетевой головы. Я не могу привести прям пруфы, но у по опыту, она с изображениями работает именно скриптами

И я не просто спросил какие варианты возможны, я просил ее применять каждый метод несколько раз и каждый раз ответы там были примерно одинаковы в рамках указанных методов

Мне понадобилось посчитать количество объектов на спутниковом снимке (в принципе, вовлеченный и мотивированный человек эту задачу выполнит без труда, но захотелось ее автоматизировать) и самое разумное решение, которое возникает в голове - использовать нейросеть

Господи боже мой, самое разумное решение которое ДОЛЖНО возникать в голове, это обратиться к опыту тех, кто это уже делает. Ну там не знаю, загуглить что такое GCP (ground control points), и как их используют.

Какая то болезнь с этим вашим нейроэнтузиазмом

Ну е-мое, обратиться к тем кто это уже делает = пойти на условный Стаковерфлоу и получить тонну говна в коммментах, какой же ты тупой. Проходили уже. Поэтому решаем проблемы как можем, не утверждаю что всегда правильно, но с периодически они решаются

да, представляете, не нужно изобретать велосипед каждый раз когда есть нужда прокатиться

GCP и привязка космоснимка к координатам, это буквально описанная Вами задача, которую решают уже как вроде лет 50, без всякого стековерфлоу и нейроэнтузиазма

Ну вот у вас даже комментарии пассивно-агрессивные. Ну написали бы просто - попробуй вот это. Я еще раз повторюсь - я описал свой опыт. Я не разработчик, я вообще не пишу код (понимаю, не осуждаю но не пишу... сам, мне его нейросети пишут, а я отвожу (как сказал классик). Я посмотрю что это за зверь такой, ваш GCP и привязка космоснимка к координатам, но снова с использованием нейросети. Ну не понимаю я код (вернее не хочу вникать).

Снова

Лучшеб к ландсату открыли документацию, как он лупит эти точки и что с ними делать.

ML там конечно используют, но не модный, а заскорузлый, алгоритмический, opencv

Которого мало того что достаточно, но еще и за фуфлокоины не нужно платить

 Ну не понимаю я код 

Да тут вовсе дело то не в коде. Вы, сударь, не задали в своём опусе ни единого по настоящему важного вопроса. Как то, -

  1. На что я смотрю, какой физический смысл цвета пикселя на космоснимке

  2. Что поднимает вопрос, из каких приборов из космоснимка сделали жипег (псевдорасцветка, удаление физического смысла значения пикселя, сюрприз-сюрприз, настоящий космоснимок не похож на гуглкарты)

  3. Можно ли получить не жипег, а исходник, т.е. кто поставщик данных, с какого КА, это все разовое мероприятие или надо ставить каким то образом на поток

  4. Как это всё выяснили, то возвращаемся к приборам. Есть смешное заблуждение, что с орбиты КА как телефоном чпокает снимки, так вот это вообще не так. На землю смотрит комплекс аппаратуры который работает как сканер, каждый на своей длине волны.

  5. И если у нас сошлись звезды, и есть КА, есть обработанные исходники, ну пусть в hdf5 (как например у КА LandSAT-x, исходники которого пусть и некоторой тухлости все еще можно добывать на usgs.gov) , где значится слои разбиты по приборам.

  6. Определяемся с тем, что будем искать, может быть это отражает на какой специфичной длине волны, или же мы можем посчитать с достаточной точностью (ну там вполне возможна растровая арифметика, - сложение слоёв нужных приборов, банальной операцией сложения, например отличить хвойную зелень от лиственной, можно именно так)

  7. Отобрать нужные пиксели банальным фильтрованием по значению

  8. Профит

т.е. это всё можно сделать вовсе не прибегая к программированию, а используя такой программный продукт например как PostGIS. Ну а если претит GUI и хочется скриптовой автоматизации, то - программный продукт GDAL который выполнен в виде инструментов командной строки

краткое введение в приборы КА LandSAT-8, - https://landsat.gsfc.nasa.gov/satellites/landsat-8/landsat-8-bands/

P.S. > вот исходя из этих вот всех предпосылок, меня некоторым образом бомбит от того как люди кидают жипеги в скатерть самобранку и ждут результат не больше и не меньше

И вы сейчас подтвердили косвенно мое предположения, насчет говна в комментах. Я транслирую свой опыт, и уже получаю фидбек в виде - все не так, ты болен и тп. Представляю если бы я задал вопрос - чуваки, как мне объекты на спутниковом снимке достать? В лучшем случае было бы гробовое молчание...

ваша болезнь называется юношеский максимализм и изобретатель велосипедов. Ноги у нее растут от того, что вы безусловно лучше всех всё знаете, и плевать хотели во всех кто там что то имел дерзость до вас делать в тематике, тем более когда в ход пошла скатерть-самобранка

Как всегда все усложнили и запутали :) Мне вот интересно, какой процент распознавания капчи сегодня достижим нейросетями?! Т.е. сколько процентов эти крупные системы распознают из скормленных им капчей.

Да хз, не считал, но вероятно сложные капчи пониже, а если текст - то повыше. Но спутниковые снимки детектить не могут))

Если хочется прям поиграть в нейросети, то логичнее было бы для этого юзать готовые сеточки, типа Florence или даже просто СLIP c SegmentAnything от StableDiffusion. Там просто в веб-интерфейс накидываешь картинок и он сам на них ищет и сегментирует объекты ИМЕННО визуальным образом - т.е. он отличит бассейн от шезлонга в том случае, если в данном качестве снимка вы сами их отличите. Работает просто на обычном компе, безо всяких токенов

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации