Обновить
1
-1
Алексей Упатов@oopatow

генератор идей

Отправить сообщение

TAPe + ML: универсальная архитектура компьютерного зрения вместо патчей и «сырых» пикселей

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели4.8K

Современные модели компьютерного зрения впечатляют результатами, но цена очевидна: огромные датасеты, тяжелые архитектуры, тысячи GPU и недели или месяцы обучения. При этом значительная часть вычислений уходит на то, чтобы сначала разрушить структуру данных, а потом попытаться восстановить ее из патчей.

В этой статье мы даем высокоуровневый технический обзор архитектуры T+ML, которая работает не с сырыми пикселями, а с элементами TAPe (Theory of Active Perception). Модель, благодаря TAPe, сразу видит структурированные «строительные блоки» с известными связями и решает задачу, опираясь на них, а не на статичные произвольные патчи.

Ниже — чем этот подход отличается от трансформеров и CNN, какие задачи он покрывает и что показывают первые эксперименты.

Поразиться и не поверить

Информация

В рейтинге
Не участвует
Откуда
Москва, Москва и Московская обл., Россия
Дата рождения
Зарегистрирован
Активность

Специализация

Генеральный директор, Директор по контенту
Ведение переговоров
Продвижение проектов
Управление компанией
Мониторинг и анализ рынка
Руководство стартапом
Стратегическое управление
Управление людьми