Pull to refresh
1
-1
Алексей Упатов@oopatow

генератор идей

Send message

TAPe + ML: универсальная архитектура компьютерного зрения вместо патчей и «сырых» пикселей

Level of difficultyMedium
Reading time6 min
Reach and readers4.8K

Современные модели компьютерного зрения впечатляют результатами, но цена очевидна: огромные датасеты, тяжелые архитектуры, тысячи GPU и недели или месяцы обучения. При этом значительная часть вычислений уходит на то, чтобы сначала разрушить структуру данных, а потом попытаться восстановить ее из патчей.

В этой статье мы даем высокоуровневый технический обзор архитектуры T+ML, которая работает не с сырыми пикселями, а с элементами TAPe (Theory of Active Perception). Модель, благодаря TAPe, сразу видит структурированные «строительные блоки» с известными связями и решает задачу, опираясь на них, а не на статичные произвольные патчи.

Ниже — чем этот подход отличается от трансформеров и CNN, какие задачи он покрывает и что показывают первые эксперименты.

Поразиться и не поверить

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Date of birth
Registered
Activity

Specialization

Генеральный директор, Директор по контенту
Ведение переговоров
Продвижение проектов
Управление компанией
Мониторинг и анализ рынка
Руководство стартапом
Стратегическое управление
Управление людьми