evia 18 ноя 2023 в 17:05

Практический пример использования модели детекции изображений

Средний

7 мин

7.8K

Python *

Кейс

+10

Комментарии 16

WondeRu 18 ноя 2023 в 17:20

А где видео работы?)

evia 19 ноя 2023 в 06:00

я по снимкам делала, можно будет поэкспериментировать и с видео, спасибо за идею

Dynasaur 18 ноя 2023 в 18:31

Несчастной айтишнице даже распознать нечего, кроме своего стола,кнопатуры и мобилы :-)))

А если серьёзно, пара вопросов:

Почему выбрана столь не свежая модель распознавания? (победительница 2015 года)?
Дайте ссылочку, где у неё предобученный список классов - с ходу не нашёл

evia 19 ноя 2023 в 06:52

Не знаю, что вас так зацепило в моей работе, что вы так злы) надеюсь у вас тоже что-нибудь получится)

Это был прорыв 2015 года, невероятный скачок в детекции изображений, изменивший дальшейший ход работы в этом направлении. Я помню 2011 год, когда не могли и помыслить, что такое возможно)

И если более внимательно посмотреть репозиторий Nvidia, последний релиз SSD модели детекции - 30 января 2023 года.

Dynasaur 19 ноя 2023 в 09:25

Извините, если обидел, вообще не было такого намерения

yrub 19 ноя 2023 в 10:59

плохо русским языком владеете. слово "несчастный" однозначно уничижительное. ну и смысловое наполнение первого предложения негативное в любом случаи, какие-то непонятные "доколупки". добрее быть надо ;)

sswwssww 19 ноя 2023 в 13:55

Нет, это у вас с автором статьи какие-то проблемы с эмоциональным интеллектом :) Для меня ОЧЕВИДНО что автор комментария не имел намерений никого обидеть.
1. "А если серьёзно" - дал понять что текст выше это шутка;
2. Шутка, в целом, про всю отрась(суть которой в том что It-шникам кроме "своего стола,кнопатуры и мобилы" ничего и не надо);
3. Улыбающий смайлик в конце(можно предъявить что так делают и с целью насмешки, но обычно для этого юзают пару скобок максимум. Этот момент сложно объяснить, но он мне понятен на "интуитивном" уровне);
4.Как у вас в голове умещаются 2 вещи: "комментатор оскорбил автора" > "комментатор вежливо что-то просит"? Не возникает чувства что явно вы что-то не так восприняли? Или вы действительно думаете что люди в одном и том же абзаце могут и оскорбить и вежливо попросить вас о чем то?

evia 19 ноя 2023 в 15:02

да просто у всех разные базовые настройки восприятия шуток-серьезности) так что лучше и не обсуждать особо) не по теме) вы лучше по теме статьи меня о чем-нибудь спросите)

olegtsss 19 ноя 2023 в 06:15

Хорошая статья, краткость сестра таланта). Я не разобрался, где в коде модель настроена на распознание кота?

(вопрос более детально - какие ручки можно подкрутить для настройки этого сличения, как я понимаю, с эталоном кота)? И где обучение модели распознанию кота? Или она уже обучена, тогда интересно, какие характеристики с изображения камеры в нее попадают для принятия вероятностного решения? А что кроме кота еще можно так различать?)

evia 19 ноя 2023 в 08:18

Хех, спасибо) ну я тут пыталась показать именно практическую сторону использования уже готовой предобученной модели. По пунктам:

Модель уже готова к использованию, я ее скачиваю и перевожу в режим "eval", т.е. не обучение, а использование на новых изображениях
Она предобучена на COCO датасете. У меня вышло 80 объектов, которые она умеет распознавать (добавила список в свой гитхаб)
На вход модели подается изображение - фото, у меня jpg,
А в коде это функция filter, там вроде старалась расписать максимально подробно, получается, что мы наше изображение сначала подготоваливаем в нужный вид (переменная input), а потом получаем готовый результат от модели (переменная results_per_input), ну а дальше я уже отсекаю нужный мне порог вероятности и подключаю словарь, чтобы сопоставить, к каким классам (меткам) модель соотнесла объекты на нашем изображении. Ну а я собственно оставляю только кота. Т.е. логика наоборот - модель опознает все объекты и потом я уже думаю, что с ними делать. А не я задаю ей задачу искать кота.

olegtsss 19 ноя 2023 в 10:44

classes_to_labels = utils.get_coco_object_dictionary() - теперь понятно, спасибо. И кто там есть, кроме кота? Как на пиктограммах common objects Coco?

evia 19 ноя 2023 в 13:19

да да) тут список того, что я смогла вытащить, там: person, bicycle, car, motorcycle, airplane, bus, train, truck, boat, traffic light, fire hydrant, stop sign, parking meter, bench, bird, cat, dog, horse, sheep, cow, elephant, bear, zebra, giraffe, backpack, umbrella, handbag, tie, suitcase, frisbee, skis, snowboard, sports ball, kite, baseball bat, baseball glove, skateboard, surfboard, tennis racket, bottle, wine glass, cup, fork, knife, spoon, bowl, banana, apple, sandwich, orange, broccoli, carrot, hot dog, pizza, donut, cake, chair, couch, potted plant, bed, dining table, toilet, TV, laptop, mouse, remote, keyboard, cell phone, microwave, oven, toaster, sink, refrigerator, book, clock, vase, scissors, teddy bear, hair drier, toothbrush

olegtsss 19 ноя 2023 в 15:08

wine glass ))) - забавно.

Devastor87 19 ноя 2023 в 06:39

А на какой ОС делалось распознавание голоса? Винда?

Немного не в тему, но может кто подскажет хорошую библиотеку распознавания русской речи для C# под MacOS?

evia 19 ноя 2023 в 08:30

Этот проект я в Google Colab делала, а так да, винда 11.

Я бы порекомендовала тогда тот же OpenAI подключить себе и не искать специальные неизвестного качества библиотеки. Там у них на сайте есть API ключи и потом через restapi можно запросы делать. Если не ошибаюсь, вроде бы OpenAI и Speech Recognition (Microsoft) сейчас топовые и с поддержкой русского языка. Вот тут например Speech-to-Text. А потом саммари по тексту и не надо никаких ассистентов, шикарная возможность избавиться от бесконечных совещаний)))) Я попозже думала выложить демо-проект такой штуки, правда на питоне. Питон как-то сильно проще в плане всех этих бесконечных библиотек и легче в том, чтобы слепить что-то побыстрому :)

evia 5 дек 2023 в 13:09

Добавила для примера обработку видео

Зарегистрируйтесь на Хабре, чтобы оставить комментарий