Как стать автором
Обновить

Апдейтить или нет: нужно ли брать новую ML-модель?

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров2.4K
Всего голосов 16: ↑14 и ↓2+15
Комментарии16

Комментарии 16

Текст статьи тоже нейронка писала? Не верю, что такое может накатать живой человек.

Ссылка в шапке сразу ведёт на ресурс заблокированный за фейки о ВС РФ, а текст получен с помощью нейросетевого переводчика.

Контент который мы заслужили.

Раз уж тут в пример привели YOLOv5\v8 и rect window size, то так же скажу, что в наследнице v5 и промежуточкой между v8 - YOLOv7 модели (которую я использовал), с прямоугольным окном не все аугментации доступны, а значит на квадратном окне будет лучше качество (это видно по примерам изобр. батчей, что сохраняются в папку обучения)

Для fully CNN моделей есть разница на каком ascpect ratio работать? Сверткам главное такой же размер объектов в пикселях подавать, как при обучении

Аугментациям в теории есть.
Но на практике всё то что в йолах используется - это мозаик, несколько кропов и цветовых. Так что не думаю что будет серьезная разница в статистике при обучении.

Ну вот, а я-то думал, что ИИ по экспоненте развивается - каждая следующая модель на голову выше предыдущей. Походу, с технологической сингулярностью не всё так скоро, как обещалось.

В своей задаче эти сети уже превзошли человека, дальше особо некуда. Но это всего лишь маленькая крошка сильного ИИ.

Разверну свой ответ.
Сети распознования изображений делают задачу сопоставления изображений и меток. Вот эту задачу они уже делают лучше человека. Поэтому особого прогресса именно этой задачи я не жду.
Несколько лет назад пробегало описание интересного случая. Тренировали сеть на чтение адреса дома по табличке. Процент ошибок на тесте был высоковат. Стали разбираться - нашли кучу ошибок в датасете, где человек прочитал неверно, а сеть - верно))

Но на фото реальных объектов человек распознает их лучше. Я думаю, это потому, что используется не только анализ изображений. Например, человек знает другие свойства предполагаемых объектов, соотношение размеров, и т.д. Так же человек имеет знания о свойствах пространства, объемных формах объектов, свойствах перспективы и др. Поэтому, из нескольких гипотез, что подсовывает ему зрительная кора, он выбирает верную. А эти сети - это всего лишь аналог кусочка зрительной коры, сигналы пришли, тупо выбираем максимум, и все.

Какие сети превзошли? Детекция?:)
Есть примерный паритет на очень больших датасетах на очень сложных задачах (какие-нибудь нетривиальные рентгены, многоклассовые задачи где человек плохо перформит). В первую очередь когда можно датасет собрать без разметки людьми и очень-очень большой..

Если у вас была невысокая точность разметки - может да, уперлось в датасет. Так бывает. Но это было то же самое 8 лет назад:)

Автономера качество лучше чем у человека - пока не реально. Трекинг - нереально. Распознавание большого числа товаров - нереально. И так в десятках задач.
Главная проблема - это корнеркейсы и аномалии. В сегодняшнем мире большей частью эта проблема и будет определять качество...

Почему на КДПВ так бурно реагируют на обратную сторону монитора? Я понимаю, что это нейро-КДПВ ради КДПВ, но что-то же она должна иллюстрировать?

Восхищение от новой модели в проде!
Все же написано под картинкой:)

Тогда бы они смотрели на рабочую часть дисплея, где видно модель...

А как же тогда Dalle-3 может передать что это именно ML модель?!

А это уже вопрос квалификации промпт-инженера!

что-то же она должна иллюстрировать?

Она иллюстрирует Бессмысленность. И, по-моему, очень неплохо с этим справляется.

А те, кто смотрит на монитор правильно испытывают совсем другие эмоции

Зарегистрируйтесь на Хабре, чтобы оставить комментарий