Comments 6
А как насчет аналоговых компьютеров? Есть вполне перспективные разработки для компьютерного зрения. Терминатор вполне мог бы работать на таком.
У вас на сайте видосы не играют т.к. ваш хостер 403 отдает.
Я попытался погрузиться в идею,как мог. Но описаниями работы вы не блещете.
Попробую написать то что понял я,простым языком,а вы поправьте,по возможности,тоже простым языком.
Итак. У вас есть некий формат представления (видео)информации. Это некий набор векторов. Векторы выделены из изображений(или серий изображений/кадров?) неким алгоритмом. Само по себе представление в векторах ожидаемо снижает стоимость обучения и инференса. Вопрос только в том,как вы формируете векторы. Действительно ли эти векторы так универсальны?
Как это проверить? Чем докажете? Как я понимаю это представление само по себе ограничивает количество признаков,которые можно получить для обучения,в отличии от ненавистных вам пикселей. А если попытаться получить условно все возможные признаки и запихнуть в ваш TAPe. Он станет ещё более "толстым",чем набор пикселей, нет?
Комментарий написан не специалистом и без участия ИИ)
PS поиск видео по видео не нашел видео по фрагменту который я ему скормил...
векторы или, точнее, признаки, выделяются из каждого кадра. так как выделяются они очень быстро, и в процессе их выделения основной ресурс уходит на то, чтобы, условно, открыть картинку в каком-то виде. снимать с нее признаки – требуется минимальный ресурс. поэтому мы снимаем с каждого кадра, а уж что и как мы потом в результате используем - это отдельный разговор.
рассуждать категориями действительно ли признаки универсальны мы можем только таким способом: мы снимаем эти признаки тем способом, которым мы снимаем эти признаки для любой из задач, нам (и вам) известных.
как мы формируем эти признаки, которые вы называете векторами – мы, конечно, рассказывать не будем.
чем докажем? у нас реализованы продукты с характеристиками, недоступными любой другой технологии/компании. можно почитать на сайте, в статьях. Например, поиск видео по видео (RVS). Или, например, применение методов TAPe в ML. Вот ссылка, нужен будет ключ - пишите https://monitor.comexp.net/detect Можете поработать со своими классами.
Пиксели не то чтобы ненавистны нам. Мы говорим о том, что пиксели разбивают изображение на незначимые элементы, что кратно усложняет/удорожает (во всех смыслах) работу с изображением (и тем более с видео).
Насчет того, что он станет "толстым": почему? Нет, не станет:) Если вы на что-то смотрите, и описываете это что-то словами, состоящими из букв любого языка, то что в данном случае может считаться более толстым описанием? Более подробное описание некой картинки, которую вы видите? Не становится в данном случае толстым, потому что языко-математический механизм не меняется. Он может быть более детализирован в случае той или иной задачи.
Мы к сожалению не знаем, что вы искали. Вы же, наверно, имеете представление, как работает поиск? Гугл/Яндекс иже с ними когда-то начинали с того, что индексировали сайты - и после индексации эти сайты можно было найти. Начинали они с определенных сайтов и с их ограниченного числа. Нельзя на просторах интернета просто "что-то". Нужна база и индекс по этой базе. В нашем случае мы логично (для нас) пошли путем индексации фильмов, сериалов, ТВ шоу по рейтингу IMDB. Сейчас у нас больше 360 тыс проиндексированных фильмов. С отрывом - самая большая библиотека проиндексированных видео в мире, по которой мы можем мгновенно искать видео. Плюс у нас еще есть функция поиска по ТВ. Вы можете воспользоваться нашим API, накидать туда какое-то кол-во видео контента и потестировать. Или через наш виджет, который можете попробовать на своем сайте. Мы не утверждали, что создали "Гугл по видео". Мы создали инструмент, который к этому "гуглу по видео" приведет.
Про TAPe почитаю, для расширения кругозора.
Заявление об универсальности TAPe это очень сильно. Верю. Однако перцептрон Розенблатта тоже универсален. Универсальность и всегда-эффективность не одно и то же.
На уровне пикселей нейросети (сверточные нейросети) работают только на входном слое. Уже первые же свертки работают с компактной областью пикселей и на выходе формируют матрицы, которые конечно тоже состоят из отдельных ячеек. Затем применяя "бутылочное горлышко" можно изображение, за счет разных редукций, превратить в вектор признаков.
"Терминатора" не только на современных технологиях не сделать, не только на том, что можно привести к машине Тьюринга,, но и вообще на современных направлениях науки, ни в их синтезе не сделать. Необходимо новое направление науки - "физика души" ну или "физика разума". Пока доминирует дух редукционизма, ничего не выйдет.
Технология работает хорошо на некотором классе важных задач, ну и отлично.
Идей, которые оказали влияние на ML, много, и перцептрон Розенблатта - отличная идея. И идея Хинтона с огрнаичением как слоев, так и связей, направленности хода этого потока информации - тоже хорошая идея, следующий этап развития ML. Но мы говорим о другом. Мы применили совершенно новые принципы к работе с изображением и видео, создали собственную архитектуру, и уже применили ее, например, для такой функции, как detection. И мы утверждаем, что именно эти наши принципы мы и применили) Там нет ничего от Yolo, DiNo, ViT, сверточных сетей. Мы применяем наши принципы и показываем конечный работающий продукт. И не просто работающий, а работающий гораздо эффективней. Кажется, перцептрон Розенблатта этим похвастаться не может.
Вы рассказали, как работают сверточные сети. Мы знаем, как они работают. Можно описать, как работают ViT, у них есть свои способы, есть у кого-то другие способы. Но речь совсем не про это. Если говорить про свертку, то в нашем случае мы говорим не просто про отсутствие свертки, а про то, что TAPe противоположен сверточным операциям. В чем именно противоположна и как она работает - описывать не будем. А то что при помощи свертки сегодня и пытаются бороться с многообразием пикселей, которые мешают выделять значимые признаки - ну да, это неплохой вариант, но он был уже реализован во всяких OpenCV, традиционных ML, YOLO. Мы применяем другие методы, не связанные со сверткой. Результаты можете посмотреть опять-таки здесь https://monitor.comexp.net/detect и если нужен будет ключ - поделимся.
Про технологии терминаторов. Мы для себя сформировали новое направление, которое называем Язык Мышления. Мышление, мы считаем, это эффективный процесс. Кто-то считает, что математика и ML эффективней. Мы считаем, что физическое/биологическое, прошедшее миллионы-миллиарды лет эволюции, наверно сформировано достаточно оптимально и неплохо бы это попытаться повторить:)
Насчет редукционизма - да. У нас есть по всему этому поводу прекрасный альманах (англоязычный), который мы подготовили для начала для себя. Читайте на здоровье (вот здесь - конкретно про редукционизм, точнее холизм)
Мы можем решать задачи компьютерного зрения без видеокарт. И вам советуем