Комментарии 8
Просто почему все знают о YOLO, DINO и т.д.? Да просто потому что они бесплатные. Вот и всё... Но тут да, вам надо поднажать в маркетинг чтобы о вас заговорили как о ChatGPT когда-то. Ну хотя бы надо чтобы написали о вашей технологии не вы, а ваши клиенты которые от неё просто офигели!
посмотрите пожалуйста требования к «железу», необходимому, чтобы развернуть хотя бы на YOLO свою модель для своих задач, посчитайте стоимость «железа», обучения, настройки, поддержки, потом поговорим про «бесплатно».
Я говорил не про железо. А про доступ к модели. Я на домашнем ПК использую facebook/dinov2-large, мне норм (правда не дообучал, но думаю смогу, хоть может и не быстро). Может у вас и летает всё на компе за 20к, но модель сама стоит 100500? Нигде же ничего про порядок цен нет на вашу модель, ничего не понятно.
О каком запредельном железе речь? YOLO это модели, оптимизированные для edge / mobile, то есть они работают на самом простом железе и там далеко не сотни миллионов параметров. На моем Samsung S23 время инференса средней модели на HD картинке ~10..15ms и это вполне себе реалтайм. И поэтому они так всем нравятся - хорошо масштабируются под разное железо, удобный сервис для обучения на своем датасете, условно бесплатные (если не для бизнеса). Ну и архитектура там не самая простая, компания вложила много сил в ее разработку. У вас 100 тыс. параметров, это конечно круто, 100x меньше, но это не главный показатель. Что с оптимизацией под простые NPU у которых набор операций сильно урезан? В общем, хочется демонстраций. Где на входе jpeg, на выходе detection/segmentation/keypoints с хорошей точностью и крутится на любом GPU.
Насколько я понимаю, ваше архитектурное решение это собственный сильный препроцессинг. Отсюда и получаются красивые < 100k параметров и SOTA. Если у вас большая часть интеллекта зашита в TAPe-преобразовании, то сравнение с YOLO/DINO не особо честное.
вы правы в том, что у нас "всё другое". но, надеемся, у вас нет тех же претензий к производителям электрокаров, которые сравнивают свои изделия с классическими моделями автомобилей, когда электродвигатель ведет к изменениям практически всего внутри авто? или можем попробовать в обычный автомобиль – какая у вас любимая марка? – просто "засунуть" электродвигатель и посмотреть, что будет. или давайте считать, что электрокары и авто с ДВС – это разного класса объекты из разных отраслей и разного назначения.
принципы ML мы сохранили. просто мы меняем ML, и продолжим менять.
Аналогия с электрокарами как раз хорошо показывает проблему сравнения.
Электрокар можно честно сравнивать с автомобилем с ДВС по результатам: разгон, запас хода, стоимость владения, ремонтопригодность, энергопотребление, ресурс, цена и так далее. Но было бы странно говорить, что электрокар лучше ДВС-авто просто потому что у него меньше цилиндров. У него вообще другая силовая установка.
Так же и здесь, если TAPe это сильное преобразование входных данных в котором уже зашита значительная часть распознающей логики, то сравнение "у нас меньше 100 тыс. параметров, а у YOLO/DINO миллионы или миллиарды" не очень честное. Параметры нейросети в таком случае не описывают сложность всей системы.
Поэтому наиболее корректное сравнение это сравнение системы с системой: качество, задержка обработки, CPU/GPU, RAM, время обучения, стоимость разметки, устойчивость к смене предметной области, воспроизводимость, размер и сложность всего конвейера обработки, а не только количество обучаемых параметров в ML-части.
По поводу того, что вы сохранили принципы ML это тоже требует уточнения. Система с ручным или алгоритмическим преобразованием признаков и небольшой обучаемой моделью поверх вполне может считаться ML-системой. Но тогда нужен анализ вклада компонентов: TAPe без ML, TAPe + линейная модель, TAPe + MLP, обычный ML без TAPe, сравнение с одинаковыми наборами данных и одинаковым протоколом.
Иначе остается открытым вопрос, а что именно дает качество, обучаемая модель или само TAPe-преобразование? Где доказательство, что нейросеть поверх TAPe действительно необходима, а не просто оформляет уже почти готовое решение?
Ну наконец-то! Почему все уперлись в эти "йоло"? Они неживые.

Мы — другие. Компьютерное зрение без миллионов параметров: практический разрыв SOTA