ZlodeiBaal 26 июн в 03:12

Апдейтить или нет: нужно ли брать новую ML-модель?

Средний

5 мин

2.4K

Блог компании RecognitorАлгоритмы*Обработка изображений*Машинное обучение*Искусственный интеллект

Туториал

+15

Комментарии 16

petlab 26 июн в 05:30

Текст статьи тоже нейронка писала? Не верю, что такое может накатать живой человек.

snakers4 28 июн в 11:06

Ссылка в шапке сразу ведёт на ресурс заблокированный за фейки о ВС РФ, а текст получен с помощью нейросетевого переводчика.

Контент который мы заслужили.

-1

IamSVP 26 июн в 08:20

Раз уж тут в пример привели YOLOv5\v8 и rect window size, то так же скажу, что в наследнице v5 и промежуточкой между v8 - YOLOv7 модели (которую я использовал), с прямоугольным окном не все аугментации доступны, а значит на квадратном окне будет лучше качество (это видно по примерам изобр. батчей, что сохраняются в папку обучения)

Octoslav 26 июн в 11:12

Для fully CNN моделей есть разница на каком ascpect ratio работать? Сверткам главное такой же размер объектов в пикселях подавать, как при обучении

ZlodeiBaal 26 июн в 11:14

Аугментациям в теории есть.
Но на практике всё то что в йолах используется - это мозаик, несколько кропов и цветовых. Так что не думаю что будет серьезная разница в статистике при обучении.

-1

flancer 26 июн в 08:32

Ну вот, а я-то думал, что ИИ по экспоненте развивается - каждая следующая модель на голову выше предыдущей. Походу, с технологической сингулярностью не всё так скоро, как обещалось.

kuza2000 26 июн в 08:48

В своей задаче эти сети уже превзошли человека, дальше особо некуда. Но это всего лишь маленькая крошка сильного ИИ.

kuza2000 26 июн в 09:17

Разверну свой ответ.
Сети распознования изображений делают задачу сопоставления изображений и меток. Вот эту задачу они уже делают лучше человека. Поэтому особого прогресса именно этой задачи я не жду.
Несколько лет назад пробегало описание интересного случая. Тренировали сеть на чтение адреса дома по табличке. Процент ошибок на тесте был высоковат. Стали разбираться - нашли кучу ошибок в датасете, где человек прочитал неверно, а сеть - верно))

Но на фото реальных объектов человек распознает их лучше. Я думаю, это потому, что используется не только анализ изображений. Например, человек знает другие свойства предполагаемых объектов, соотношение размеров, и т.д. Так же человек имеет знания о свойствах пространства, объемных формах объектов, свойствах перспективы и др. Поэтому, из нескольких гипотез, что подсовывает ему зрительная кора, он выбирает верную. А эти сети - это всего лишь аналог кусочка зрительной коры, сигналы пришли, тупо выбираем максимум, и все.

ZlodeiBaal 26 июн в 11:28

Какие сети превзошли? Детекция?:)
Есть примерный паритет на очень больших датасетах на очень сложных задачах (какие-нибудь нетривиальные рентгены, многоклассовые задачи где человек плохо перформит). В первую очередь когда можно датасет собрать без разметки людьми и очень-очень большой..

Если у вас была невысокая точность разметки - может да, уперлось в датасет. Так бывает. Но это было то же самое 8 лет назад:)

Автономера качество лучше чем у человека - пока не реально. Трекинг - нереально. Распознавание большого числа товаров - нереально. И так в десятках задач.
Главная проблема - это корнеркейсы и аномалии. В сегодняшнем мире большей частью эта проблема и будет определять качество...