Группа исследователей из Гонконга и Великобритании представила новый метод преобразования изображений в цифровые представления, также известные как токены, с использованием иерархической структуры, предназначенной для более компактного и точного захвата важной визуальной информации.

В отличие от традиционных подходов, которые равномерно распределяют информацию об изображении по всем токенам, этот метод упорядочивает токены иерархически. Самые ранние токены кодируют высокоуровневые визуальные особенности, такие как широкие формы и структурные элементы, в то время как последующие токены добавляют все более мелкие детали, пока не будет представлено полное изображение.

Эта стратегия опирается на основную идею анализа главных компонентов, статистического метода, в котором данные разбиваются на компоненты, которые объясняют дисперсию в порядке убывания. Исследователи применили аналогичный принцип к токенизации изображений, что привело к представлению, которое является как компактным, так и интерпретируемым.

Одним из ключевых нововведений является отделение семантического содержания от низкоуровневых деталей изображения. В предыдущих методах эти типы информации часто были запутанными, что затрудняло интерпретацию изученных представлений. Новый метод решает эту проблему с помощью декодера на основе диффузии, который постепенно реконструирует изображение, начиная с грубых форм и переходя к тонким текстурам. Это позволяет токенам сосредоточиться на семантически значимой информации, обрабатывая подробные текстуры отдельно.
По словам исследователей, этот иерархический метод улучшает качество реконструкции изображения — сходство между исходным изображением и его токенизированной версией — почти на 10 процентов по сравнению с предыдущими передовыми технологиями.
Он также достигает сопоставимых результатов, используя значительно меньше токенов. В задачах нисходящего потока, таких как классификация изображений, метод превзошел более ранние подходы, которые полагались на традиционную токенизацию.

Исследователи отмечают, что иерархическая структура отражает то, как человеческий мозг обрабатывает визуальный ввод — от грубых контуров до все более подробных черт. Согласно исследованию, это соответствие перцептивным механизмам может открыть новые направления для разработки систем AI для анализа и генерации изображений, которые больше соответствуют визуальному познанию человека.
Новый метод может помочь сделать системы AI более простыми для понимания. Отделяя семантич��ское содержание от визуальных деталей, изученные представления становятся более интерпретируемыми, что может упростить объяснение того, как система приходит к своим решениям. В то же время компактная структура обеспечивает более быструю обработку и снижает требования к хранению.
Исследователи называют этот подход важным шагом к обработке изображений, которая более тесно связана с человеческим восприятием, но они также видят возможности для улучшения. Дальнейшая работа будет сосредоточена на совершенствовании техники и ее применении к более широкому кругу задач.
Токенизация остается основным компонентом как в моделях изображений, так и в языковых моделях. Также появляются новые стратегии цифрового кодирования текстовых сегментов, и некоторые исследователи полагают, что они могут привести к более продвинутым языковым моделям в будущем.
Источник
