Как стать автором
Обновить
390.26
BotHub
Агрегатор нейросетей: ChatGPT, Claude, Midjourney

Исследователи разрабатывают более компактный и интерпретируемый метод токенизации изображений

Время на прочтение3 мин
Количество просмотров189

Группа исследователей из Гонконга и Великобритании представила новый метод преобразования изображений в цифровые представления, также известные как токены, с использованием иерархической структуры, предназначенной для более компактного и точного захвата важной визуальной информации.

В отличие от традиционных подходов, которые равномерно распределяют информацию об изображении по всем токенам, этот метод упорядочивает токены иерархически. Самые ранние токены кодируют высокоуровневые визуальные особенности, такие как широкие формы и структурные элементы, в то время как последующие токены добавляют все более мелкие детали, пока не будет представлено полное изображение.

Диаграмма: Архитектура для реконструкции изображения с использованием преобразователя причинного зрения в качестве кодера и преобразователя дискретной интерпретации в качестве декодера, которые используют данные изображения RGB и текст в качестве входных данных.
Метод токенизации отдает приоритет семантическому содержанию, при этом начальные токены кодируют наиболее значимую визуальную информацию.

Эта стратегия опирается на основную идею анализа главных компонентов, статистического метода, в котором данные разбиваются на компоненты, которые объясняют дисперсию в порядке убывания. Исследователи применили аналогичный принцип к токенизации изображений, что привело к представлению, которое является как компактным, так и интерпретируемым.

Матрица сравнения: пошаговая реконструкция изображений трех сцен (натюрморт, городской пейзаж, пастбище) с увеличением количества токенов от 1 до 256.
В отличие от традиционных подходов, эта система выдает согласованные результаты с минимальным количеством токенов, постепенно совершенствуясь от базовых форм с использованием одного токена до подробных реконструкций с использованием 256 токенов

Одним из ключевых нововведений является отделение семантического содержания от низкоуровневых деталей изображения. В предыдущих методах эти типы информации часто были запутанными, что затрудняло интерпретацию изученных представлений. Новый метод решает эту проблему с помощью декодера на основе диффузии, который постепенно реконструирует изображение, начиная с грубых форм и переходя к тонким текстурам. Это позволяет токенам сосредоточиться на семантически значимой информации, обрабатывая подробные текстуры отдельно.

По словам исследователей, этот иерархический метод улучшает качество реконструкции изображения — сходство между исходным изображением и его токенизированной версией — почти на 10 процентов по сравнению с предыдущими передовыми технологиями.

Он также достигает сопоставимых результатов, используя значительно меньше токенов. В задачах нисходящего потока, таких как классификация изображений, метод превзошел более ранние подходы, которые полагались на традиционную токенизацию.

Серия изображений с частотными спектрами: все более подробные реконструкции одного и того же изображения с соответствующими графиками частотной мощности для иллюстрации семантически-спектральной связи.
По мере увеличения количества токенов слева направо реконструкция изображения становится более детальной, хотя новый метод обеспечивает более высокое качество при меньшем количестве токенов

Исследователи отмечают, что иерархическая структура отражает то, как человеческий мозг обрабатывает визуальный ввод — от грубых контуров до все более подробных черт. Согласно исследованию, это соответствие перцептивным механизмам может открыть новые направления для разработки систем AI для анализа и генерации изображений, которые больше соответствуют визуальному познанию человека.

Новый метод может помочь сделать системы AI более простыми для понимания. Отделяя семантическое содержание от визуальных деталей, изученные представления становятся более интерпретируемыми, что может упростить объяснение того, как система приходит к своим решениям. В то же время компактная структура обеспечивает более быструю обработку и снижает требования к хранению.

Исследователи называют этот подход важным шагом к обработке изображений, которая более тесно связана с человеческим восприятием, но они также видят возможности для улучшения. Дальнейшая работа будет сосредоточена на совершенствовании техники и ее применении к более широкому кругу задач.

Токенизация остается основным компонентом как в моделях изображений, так и в языковых моделях. Также появляются новые стратегии цифрового кодирования текстовых сегментов, и некоторые исследователи полагают, что они могут привести к более продвинутым языковым моделям в будущем.

Источник

Теги:
Хабы:
+2
Комментарии0

Другие новости

Информация

Сайт
bothub.chat
Дата регистрации
Дата основания
Численность
11–30 человек
Местоположение
Россия
Представитель
Вероника