Статьи / Профиль oopatow / Хабр

Алексей Упатов@oopatow

генератор идей

7,2

Рейтинг

ПрофильСтатьи5Посты4НовостиКомментарии8

oopatow 17 часов назад

TAPe‑дневник, день 6: синтетика, эмбеддинги и первый уход от трансформеров

Средний

4 мин

4.6K

Искусственный интеллектМашинное обучение * Data Engineering * Обработка изображений *

В этой статье продолжаем онлайн‑дневник экспериментов с TAPe‑подходом к компьютерному зрению на COCO. Здесь – про обучение эмбеддингов на полностью синтетических TAPe‑данных, 74% точности классификации на 5k val‑изображениях и первые выводы о том, почему стандартные трансформеры нам не подходят.

Долой трансформеры

oopatow 25 мар в 15:15

TAPe-дневник, день 5: 98% на 2% COCO, меньше “фона” и первые боксы

Средний

4 мин

6.6K

Обработка изображений * Data Engineering * Машинное обучение * Искусственный интеллект

В этой статье продолжаем онлайн‑дневник экспериментов с TAPe‑подходом к компьютерному зрению на COCO. Кратко: подняли точность до ~98% на двухпроцентной выборке, уменьшили количество ложных срабатываний и начали переход от поиска центроидов к детекции прямоугольников вокруг объектов.

Скорее узреть

oopatow 18 мар в 06:58

FAQ по TAPe‑детекции объектов (как мы учимся детектить объекты одномоментно и в десятки раз эффективней/дешевле ML)

Простой

5 мин

3.1K

Обработка изображений * Data Engineering * Машинное обучение * Искусственный интеллект

FAQ

Этот текст не претендует на «академический» обзор TAPe и не заменяет будущие формальные бенчмарки на COCO‑подобных датасетах. Скорее это рабочие ответы на самые частые вопросы инженеров и исследователей, которые всерьёз присматриваются к проекту.

О чем речь

Мы делаем TAPe‑модель (вот здесь понятней, о чем речь: тыц, другой тыц) под задачи детекции объектов на COCO‑подобных данных, с возможностью добавлять свои классы и кастомизировать под конкретного заказчика. TAPe работает не с пикселями и не с жёсткой N×N‑сеткой, как YOLO, а с осмысленными регионами (патчами) в TAPe‑представлении. В экспериментах стремимся к тому, чтобы за один «ход» модель отсекала точно неинтересные области и выделяла кандидатов, где вообще есть смысл что‑то детектировать.

На маленьком датасете из 4 классов и 1256 изображений с частично шумной разметкой пилотный TAPe‑детектор с ≈115k параметров даёт 98.94% попаданий по объектам по прикладной метрике «центроид бокса в 32 пикселя от центра разметки», причём без аугментаций и с обучением на CPU. В роли baseline’а брали YOLO11s (линейка Ultralytics/YOLOv8‑s): на том же датасете она плохо сходилась, давала низкую детекцию и много ложных срабатываний. Впрочем, выводы пока делать рано.

TAPe‑архитектура за несколько итераций ушла от громоздкого (для нас) dictionary‑подхода с 100k+ параметров к более компактной схеме без классического градиентного спуска: описания классов собираются из TAPe‑векторов и сжимаются через k‑means, а не обучаются как отдельная нейросеть. На подмножестве COCO (около 2% датасета, ~2400 изображений) эта же компактная модель без спецоптимизаций даёт 60.59% попаданий по центрам объектов — для такого размера детектора это неожиданно много и хороший аргумент в пользу того, что TAPe‑данные позволяют «маленьким» моделям сходиться там, где стандартные подходы ожидаемо захлёбываются.

Очень интересно

oopatow 9 мар в 09:42

Наш «домашний» НИИ обошёл DINOv2, ViT и десятки ML‑моделей в сегментации видео

Средний

18 мин

Машинное обучение * Визуализация данных * Искусственный интеллект

Аналитика

Мы открыли и разрабатываем новый способ обработки информации - TAPe (Theory of Active Perception, Теория активного восприятия). Работаем над ней давно, результаты мягко говоря впечатляющие, постепенно начинаем ими делиться. Немного писали о Теории на Хабре здесь. Исторически мы начали именно с обработки видео (когда-нибудь об этом расскажем).

В этой статье покажем результаты сравнения разных методов обработки видео (гистограммы, Фурье, структурной похожести, ML-модели) и TAPe в задаче сегментации видео. TAPe в области компьютерного зрения - это Майк Тайсон и/или Майкл Джордан среди любителей (хорошо, еще не Майк Тайсон, но уже вполне себе Рокки Бальбоа). На фоне методов Теории даже супер прокаченные модели на стероидах растерянно сидят в углу ринга. (Ладно, пока что это все влажные мечты, мы даже еще не вышли толком на ринг; но, как мы помним, главное – это величие замысла).

Читать как лажают ML с видео

oopatow 28 фев в 05:16

TAPe + ML: универсальная архитектура компьютерного зрения вместо патчей и «сырых» пикселей

Средний

6 мин

5.1K

Машинное обучение * Искусственный интеллектРабота с видео *

Из песочницы

Современные модели компьютерного зрения впечатляют результатами, но цена очевидна: огромные датасеты, тяжелые архитектуры, тысячи GPU и недели или месяцы обучения. При этом значительная часть вычислений уходит на то, чтобы сначала разрушить структуру данных, а потом попытаться восстановить ее из патчей.

В этой статье мы даем высокоуровневый технический обзор архитектуры T+ML, которая работает не с сырыми пикселями, а с элементами TAPe (Theory of Active Perception). Модель, благодаря TAPe, сразу видит структурированные «строительные блоки» с известными связями и решает задачу, опираясь на них, а не на статичные произвольные патчи.

Ниже — чем этот подход отличается от трансформеров и CNN, какие задачи он покрывает и что показывают первые эксперименты.

Поразиться и не поверить

-1

В рейтинге: 915-й

Откуда: Москва, Москва и Московская обл., Россия

Дата рождения: 9 сентября 1981

Зарегистрирован: 5 сентября 2014

Активность: сегодня в 07:42

Генеральный директор, Директор по контенту

Ведение переговоров

Продвижение проектов

Управление компанией

Мониторинг и анализ рынка

Руководство стартапом

Стратегическое управление

Управление людьми

TAPe‑дневник, день 6: синтетика, эмбеддинги и первый уход от трансформеров

TAPe-дневник, день 5: 98% на 2% COCO, меньше “фона” и первые боксы

FAQ по TAPe‑детекции объектов (как мы учимся детектить объекты одномоментно и в десятки раз эффективней/дешевле ML)

Наш «домашний» НИИ обошёл DINOv2, ViT и десятки ML‑моделей в сегментации видео

TAPe + ML: универсальная архитектура компьютерного зрения вместо патчей и «сырых» пикселей

Информация

Специализация