Обновить
16K+
2
Алексей Упатов@oopatow

генератор идей

-3
Рейтинг
4
Подписчики
Отправить сообщение

Вы как будто исходите из предпосылки, что мы не знаем, почему собственно выбрали двоичную систему. Но мы как раз знаем)

Вы рассуждаете в предметных областях, вам знакомых, и это понятно. Отсылки к советскому наследию, аналоговым схемам и т.д. Всё это довольно хорошо описано, изучено и, на наш взгляд, в контексте TAPe описывает происходящее неверно). Неверно именно с точки зрения той картины, в рамках которой мы работаем.

Не хочется вести дискуссию в логике «квантовость»,«аналоговость» — просто потому, что для нас эта ветка бесперспективна. Объяснять, почему именно мы так считаем, особого смысла тоже не видим: мы занимаемся своим делом и движемся по своей траектории. Пусть эта бесперспективность (для нас) спокойно реализуется сама. Если когда‑нибудь существующие TAPe‑механизмы и алгоритмы действительно понадобится положить на что‑то, что будет называться «квантовым» железом, мы вернёмся к этому в тот момент, когда это действительно станет нужно. Аналоговость — где‑то в той же корзине.  

Сегодня слово «квантовость» настолько аморфно, что местами уже похоже на амёбу: формально как будто что‑то есть, но в практическом смысле всё это пока довольно сыро. Все эти шрёдингеровские коты, гейзенберги, алгоритмы Шора, канадские стартапы формата «deep‑что‑то» — вокруг них до сих пор идут споры, где там реальная квантовость, а где нет. Разговоры про кубиты, ионы и прочее сейчас больше похожи на зачаточную стадию чего‑то будущего, в сторону чего мы просто осознанно не смотрим.

У нас есть конкретные результаты, к которым мы шли шаг за шагом и продолжаем идти. Про эти результаты мы в том числе здесь рассказываем. В этой точке вы можете либо принять их как есть, либо считать, что мы всё это придумали, или, как сказал один из наших потенциальных клиентов, «всё это сейчас за вас пишет ChatGPT». Мы не собираемся бить себя пяткой в грудь и доказывать, что мы не мошенники и не дилетанты — это ваше право так думать. Тот же чел продолжил «если представить, что вы действительно сделали это на своей истории, минуя ChatGPT или, скажем, YOLO, получается, вам надо было выдать Нобелевскую премию еще вчера». Эта гипотеза нам, честно говоря, нравится больше:) хотя за Нобелевкой мы не гоняемся по вполне приземлённым причинам.  Троичность, кубиты, аналоговость и прочие ярлыки – это все мимо.

Гораздо интереснее другой вопрос: в какой момент при переходе к двоичности (0/1, −1/1 и т.п.) произошло «отдискретивание», и не было ли там заведено некое явление, которое в итоге использовали минимально. Наша тейповая идея не вступает в противоречие ни с кубитами, ни с дискретностью, ни с тезисом о том, что кодирование в 0/1 эффективно. Вопрос только: эффективнее по сравнению с чем и за счёт чего именно? Для нас очевидно, что в момент перехода к 0/1 по дороге потеряли несколько важных нюансов. Здесь мы можем разве что слегка подтолкнуть вас к тому, в какую сторону мы сами рассуждаем.  

С нашей точки зрения, в двоичности проявилась очень маленькая часть гораздо более крупного явления, извините, вселенского масштаба — дихотомии. В 0/1 эта дихотомия присутствует, но реализована в минимальном возможном виде. 

Именно она, дихотомия, создаёт всю вычислительную конструкцию, на данный момент построенную  на двоичности.

Но дихотомия существенно мощнее, чем то, как она используется в классической двоичной архитектуре. Потеря «поздних» дихотомических операций приводит к тому, что любой элемент, описанный как последовательность нулей и единиц, не содержит внутри себя явных дополнительных структурных связей. Каждый раз их приходится извлекать заново. Да, эти структуры там есть, и практика показывает, что их можно найти — но за очень немалые усилия.  

А есть другие способы, мы их открыли, мы их знаем и мы их применяем. Мы как-то проводили тестирование видеокарт NVIDIA, индексировали видео с помощью методов TAPe. Загрузка декодера у нас стремится к 100 %, а ядра, наоборот, практически не используются. Потому что TAPe. Чтобы загрузить все эти тысячи ядер на 100 %, нам потребовались бы тысячи кодировщиков/декодировщиков, чтобы обеспечить ядра достаточным объемом информации. Но таких видеокарт не существует, все они обрабатывают информацию через 0/1, и поэтому всем им нужны сложносочиненные ядра в огромном количестве, чтобы обрабатывать инфу дедовским методом) А нам - не нужны. Кстати, напишем об этом отдельную статью, спасибо за идею.

обратите внимание, что я ни слова не сказал про аналоговость

здравствуйте. вы с какой целью хотите пощупать? Сейчас мы либо даём платный доступ (после бесплатных тестов) к готовым продуктам, либо используем TAPe‑стек под кастомные решения, где критичны ограничения по данным и ресурсам. В обоих случаях использование наших моделей позволяет на порядки сократить расходы на тяжёлую ИИ‑инфраструктуру при сохранении SOTA‑уровня точности.

не для open ai осталось 18 месяцев, а для AI или по крайней мере его текущей версии, ярким представителем который и является open ai:)

Что может им помочь? Принципиально другие подходы к вычислениям и обработке информации, да и переосмысление самого понятия "информация".

Как принцип ML в широком смысле неплох (нет, не велик, именно неплох, хотя за него и "раздают" Нобелевские премии), но переход от него к понятию AI это просто авантюра и голословные заявления, сродни заявлений о полётах к далёким звёздам при текущем развитии космических технологий.

Возможно в принципе?- ну, наверное.

Есть теории на этот счёт? - куча, выбирай любую, все пока не исследованы.

Есть технологии? - ну, может где-то и лежит уже парочка, в закромах..

Воплощения в текущих "устройствах"? - ха-ха-ха. 31 век - никак не раньше, если вообще возможно хоть когда- нибудь ...

Если оптимизация I-фреймов даёт на 5% лучше сжатие при прочих равных, то ты на объёмах какого-нибудь YouTube на эти 5% сможешь себе самолёт купить.

оптимизация I-фреймов, которую здесь представляет эксперимент, заключалась бы в стратегии их расположения во время энкодинга. это позволило бы очень сильно уменьшить кол-во расчётов, необходимых для самого по себе энкодинга, а также позволило бы сжимать видео намного эффективнее – просто потому что поисковая стратегия лучшего их расположения лучше и быстрее

https://monitor.comexp.net/?scenario=cluster

вот, если любопытно. принимает любое видео (кроме .avi), обрабатывает через DBSCAN с параметрами по умолчанию и отдаёт обратно разбиение.

Но спасибо за ваш коммент – мы сегодня выкатим демо-стенд, где любой желающий может повторить то же самое, что мы делаем конкретно с TAPe-данными в DBSCAN, но с любым видео. Кину ссылку

Логика возражения понятная, отвечу споконо и по существу, а не

Статья - на конкретную тему по конкретному кейсу, описанному в статье. "Инженерный отчет" и результаты экспериментов, а не полный стек (код, модель, датасеты). Архитектуру и код мы не покажем, потому что это наше ноу-хау и они используются в коммерческих проектах/пилотах.

Мы показываем то, что можно/хотим показать: настройки, список baseline'ов, время и память для каждого метода, графики, визуальные примеры разбиения сцен. Практически максимально прозрачно описали эксперимент. Все сравнения сделаны на одном и том же видео, с одинаковым кластеризатором (DBSCAN/HDBSCAN) и одинаковыми параметрами, мы явно перечисляем все используемые модели (от простых гистограмм до DINOv2/ViT) и даём численные метрики по времени/памяти. Один и тот же пайплайн применен ко всем методам, включая TAPe. Это не научная публикация - мы просто показываем эффект и делимся находками.

В вашем другом комменте про "не пытается показывать применимость к реальным задачам" есть заодно и ответ на этот тезис- про YouTube и купить самолет. Это лишь одна из многих возможных задач.

привет. отличная статья - во всяком случае по духу и направлению мысли. на канал в тг подписался. рекомендую почитать мини-альманах в тему https://comexp.net/posts - думаю тебе будет интересно. он на англ, но сегодня это не проблема, полагаю. удачи в проектах!

Если углубляться - немного - в детали, то мы не формируем фичи вручную каждый раз в зависимости от задачи. Это первое. Второе: в нашем случае из так называемых фич проистекают дальнейшие законы/методы работы с этими фичами. Они взаимосвязаны.

Представьте, что вы работаете со звуками, вам нужно написать музыку, но вы не знаете о существовании нот, как их сочетание влияет друг на друга, что такое квинтовый круг и тд и тп. Скорее всего вам придется "изобрести" и методы работы со звуком, а значит и ноты. Которые могут превращаться в аккорды, мотивы, музыку. Будут ли у вас совсем другие ноты или они будут как минимум похожи с теми, которые мы все сейчас знаем?

Это аналогия с тем, что происходит в TAPe, но с изображениями

Ну нет) Если совсем кратко:TAPe или вернее технология (модель) на базе TAPe напрямую оптимизирует то, какие патчи считать похожими и как их группировать, а не прячет эту логику внутри гигантского backprop по ViT/DINO. То есть модель сама учит свое внутреннее представление по данным, не использует заранее придуманные руками признаки

рецензируемые публикации есть. если что-то неясно/непонятно - всегда можно задать уточняющий вопрос. если таковой есть.

Информация

В рейтинге
Не участвует
Откуда
Москва, Москва и Московская обл., Россия
Дата рождения
Зарегистрирован
Активность

Специализация

Генеральный директор, Директор по контенту
Ведение переговоров
Продвижение проектов
Управление компанией
Мониторинг и анализ рынка
Руководство стартапом
Стратегическое управление
Управление людьми