ternaus14 ноя 2022 в 16:05

Ternaus: сводим поиск по картинкам и по тексту

3 мин

2.8K

Обработка изображений * Машинное обучение * Искусственный интеллект

Комментарии 4

vassabi 15 ноя 2022 в 21:00

Блог пост начался с картинки королевы Елизаветы + “3D unreal engine”. На удивление тоже работает.

это-то не удивляет.

удивительно другое - что эмбеддинг захватывает даже две Одри Хепберн в короне

ternaus 15 ноя 2022 в 21:21

Тут все спотыкается о то что "похожесть" определена плохо.

Это может быть:

Женщина
Наличие королевских регалий
Тип и форма этих регалий.
Форма лица.
Фон

еще что-то.

Ну и да, под поиск по лицам сеть не заточена, так что если делать похожесть по лицам - это надо сверху добавлять Face Detector + Face Recognition, до чего руки, конечно, дойдут очень нескоро.

mahmud-podzhigai 17 ноя 2022 в 18:06

А если другие способы усреднения попробовать? Например, покомпонентный max? Надежда на то, что компонента эмбеддинга, отвечающая за цвет, будет больше по амплитуде у запроса red, нежели у серой совы. И не будут размываться другие признаки (50% совы, 50% ничего).

ternaus 17 ноя 2022 в 18:08

Вспоминая, как на соревнованиях по машинному обучению агрегировали предсказания моделей думаю, что может что-то как-то полетететь.

Тут можно арифметическое среднее, max, геометрическое среднее.

И, ради любопытства, это можно все проверять.

У самого меня сейчас митивации на это не хватит, но надеюсь, что кто-то в академии озадачится (идея то на поверхности) и какую-то аналитику на эту тему наведет.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий