Markus_automation6 фев 2025 в 07:09

Распознавание снимков — почему нейросеть не лучший выбор, и как мне помог сервис распознаваний капчи — личный опыт

Простой

6 мин

3.2K

Обработка изображений * Искусственный интеллект

Кейс

Комментарии 16

positroid 6 фев 2025 в 08:04

Методы, которые не работают

А я правильно понимаю, что вы не применяли и не реализовывали все описанные методы, а просто спросили у ChatGPT какие варианты возможны, потом ей же скормили картинку и попросили проанализировать в соответствии с одним из методов?

Если так, то у меня очень большие сомнения, что все полученные числа не рандом (отсутствие повторяемости подтверждает эту гипотезу).

Нейросеть (даже мультимодальная) на то и нейросеть, чтобы работать по своим алгоритмам, а не присланным. Вот если она писала скрипт на питоне с opencv, который запускал бы распознавание в соответствии с нужным методом - тогда ок.

Markus_automation 6 фев 2025 в 08:07

Вы все правильно понимаете)) И я извинился перед авторами методов, если я неправ)), но нейросеть сама применяет то что рекомендует, а не просто выдумывает из своей нейросетевой головы. Я не могу привести прям пруфы, но у по опыту, она с изображениями работает именно скриптами

И я не просто спросил какие варианты возможны, я просил ее применять каждый метод несколько раз и каждый раз ответы там были примерно одинаковы в рамках указанных методов

НЛО прилетело и опубликовало эту надпись здесь

Markus_automation 6 фев 2025 в 08:21

Ну е-мое, обратиться к тем кто это уже делает = пойти на условный Стаковерфлоу и получить тонну говна в коммментах, какой же ты тупой. Проходили уже. Поэтому решаем проблемы как можем, не утверждаю что всегда правильно, но с периодически они решаются

НЛО прилетело и опубликовало эту надпись здесь

Markus_automation 6 фев 2025 в 10:17

Ну вот у вас даже комментарии пассивно-агрессивные. Ну написали бы просто - попробуй вот это. Я еще раз повторюсь - я описал свой опыт. Я не разработчик, я вообще не пишу код (понимаю, не осуждаю но не пишу... сам, мне его нейросети пишут, а я отвожу (как сказал классик). Я посмотрю что это за зверь такой, ваш GCP и привязка космоснимка к координатам, но снова с использованием нейросети. Ну не понимаю я код (вернее не хочу вникать).

НЛО прилетело и опубликовало эту надпись здесь

Markus_automation 6 фев 2025 в 08:26

И вы сейчас подтвердили косвенно мое предположения, насчет говна в комментах. Я транслирую свой опыт, и уже получаю фидбек в виде - все не так, ты болен и тп. Представляю если бы я задал вопрос - чуваки, как мне объекты на спутниковом снимке достать? В лучшем случае было бы гробовое молчание...

НЛО прилетело и опубликовало эту надпись здесь

Markus_automation 6 фев 2025 в 10:12

Ладно
{Поправляет галстук и идет пить чай, перед тем как везти детей в школу}

DmitriyRomanoff 6 фев 2025 в 10:17

Как всегда все усложнили и запутали :) Мне вот интересно, какой процент распознавания капчи сегодня достижим нейросетями?! Т.е. сколько процентов эти крупные системы распознают из скормленных им капчей.

Markus_automation 6 фев 2025 в 10:18

Да хз, не считал, но вероятно сложные капчи пониже, а если текст - то повыше. Но спутниковые снимки детектить не могут))

DmitriyRomanoff 6 фев 2025 в 11:04

Ну хотя бы приблизительно, 20%, 40%, 60-80?

Asterris 7 фев 2025 в 21:50

Если хочется прям поиграть в нейросети, то логичнее было бы для этого юзать готовые сеточки, типа Florence или даже просто СLIP c SegmentAnything от StableDiffusion. Там просто в веб-интерфейс накидываешь картинок и он сам на них ищет и сегментирует объекты ИМЕННО визуальным образом - т.е. он отличит бассейн от шезлонга в том случае, если в данном качестве снимка вы сами их отличите. Работает просто на обычном компе, безо всяких токенов

Зарегистрируйтесь на Хабре, чтобы оставить комментарий