Обновить
16K+
-1
Алексей Упатов@oopatow

генератор идей

-14
Рейтинг
5
Подписчики
Отправить сообщение

Спасибо за ваш комментарий и за попытку действительно вникнуть в то, что мы пытались сказать в статье, а не просто наложить на нее свои предварительные представления. Попробуем ответить по пунктам, опираясь на нашу исходную логику.

1. Выход за рамки CV и контекстуальные смыслы

Мы говорим не только и не столько о LLM, сколько об ИИ в целом. В этом смысле Computer Vision для нас — лишь первая, наиболее удобная область применения TAPe, где проще всего проверить подход инженерно.

TAPe изначально задумывался не как узкий «визуальный трюк». Он вообще не задумывался – он просто есть, как электричество. 

Внутри подхода мы уже различаем адаптированный под ML вариант (который подогнан под существующие принципы CV/ML) и то, что мы для себя называем «чистый» TAPe — набор фундаментальных элементов и связей между ними, не привязанный к пикселям и конкретной модальности. Наша долгосрочная цель — использовать чистый TAPe как связку и «переводчик» между тем, что называется описательной (языковой) частью мышления, и тем, что называется зрительной или сенсорной частью, а не останавливаться на компьютерном зрении.

2. LLM, брутфорс и область «за пределами текста»

Ваш анализ брутфорса и энергозатрат LLM нам близок — мы с ним согласны. При этом мы подчеркиваем, что LLM находятся в относительно «выгодном» положении: даже не понимая, как устроен язык, они могут использовать результат того, как язык уже работает.

Естественный язык и текст как его продолжение позволяют языковым моделям вынимать оттуда смыслы через большие энергозатраты и брутфорс. Но все, что находится за пределами текста, оказывается в этом плане гораздо более энергозатратным, просто потому, что там нет готового языка изображений. Именно с этой областью «за пределами текста» мы и пытаемся работать, и здесь классический брутфорс очень быстро упирается в ограничения.

3. Не геометрия как цель и «скрытый баг»

Ваше замечание про риск комбинаторного взрыва «с геометрической стороны» важно, но здесь есть недоразумение. Мы не ищем экономию ресурсов в геометрии связей и линиях. Мы не пытаемся описывать мир через перечисление всех возможных геометрических правил.

Наша позиция состоит в том, что из TAPe естественным образом вытекают линии и другие элементы, которые характеризуют графическую часть языка/восприятия. Эти линии не являются самостоятельными объектами, а с самого начала образуют взаимосвязанные структуры: линии не отдельны, а связаны друг с другом. Экономия ресурсов, о которой мы говорим, выходит именно из TAPe как структуры элементов и связей и может проявляться в том числе в том, что мы описываем через линии. Но экономия не является результатом ручного перебора и оптимизации геометрии, и предполагаемый «комбинаторный взрыв геометрических правил» — как раз то, от чего мы уходим, а не то, к чему идем.

4. Мозг, эффективность и «формула перехода»

Мы согласны с тем, что мозг феноменально эффективен. Более того, именно эту мысль мы и усиливаем: мозг настолько эффективен, что даже небольшой шанс подсмотреть за ним дает возможность создавать новые технологические решения, как когда одна только идея «нейрона» привела к тому, что сегодня называют искусственным интеллектом.

Гипотеза о том, что мозг работает на основе алгоритмов сжатия и не передает полный объективный мир, а выделяет сверхкомпактный код — «формулу перехода», — выглядит логичной. Вопрос в том, как это сделать практически. Мы не видим пока, чтобы существующие теории (например, теория интегрированной информации и другие подходы в нейробиологии и науках о сознании) давали в практическом смысле путь к инженерным решениям. TAPe, на наш взгляд, такой путь начинает задавать.

На уровне TAPe у нас есть фундаментальные элементы и связи между ними, а также внутреннее состояния для элемента или группы элементов. Через эти состояния и переходы между конфигурациями элементов мы пытаемся строить ту самую «формулу перехода» между различными образами и состояниями без необходимости описывать мир полностью в координатах явной геометрии или в виде полного сенсорного описания.

5. Геометрия как производная, а не основание

Ваш риск-сценарий: если система описывает мир только через геометрию объектов, то для выхода к смыслу база правил раздувается до бесконечности, и все возвращается к брутфорсу параметров. С этим сценарным рассуждением трудно спорить — при чисто геометрическом подходе так и будет.

В нашем случае геометрия объектов — лишь один из возможных поверхностных результатов работы TAPe. Сам TAPe не требует дальнейших геометрических преобразований как обязательной части любой операции. Некая геометрия объектов «получается из тейпа», но не задается отдельно.

В задачах Computer Vision мы действительно вынуждены переходить к геометрическим представлениям — это обратное преобразование, необходимое уже для ИИ и ML, а не требование тейпа как такового. Смысл объектов мы, напротив, пробуем закреплять в структуре тейпа — в конфигурациях элементов и в связях между ними, чтобы не приходилось создавать бесконечный каталог геометрических правил.

6. «Формула перехода» и контекст без раздувания параметров

По сути, вы спрашиваете, есть ли у нас представление о схеме, которая реализует «формулу перехода» и решает проблему контекста без взрыва параметров. Окончательного ответа у нас нет, но есть зачаток конструкции.

В TAPe единицей представления является не объект и не пиксель, а элемент TAPe, который уже включает в себя часть структуры переходов — в том числе состояние «не сработало». Переходы между конфигурациями таких элементов и есть то место, где, как нам кажется, может «жить» контекст, без явного перечисления всех возможных объектов и ситуаций.

Сейчас мы умеем работать с этим на стороне зрения — объекты, сцены, изменения во времени — и частично адаптировали это к ML. Для выхода к полноценному моделированию контекстуальных смыслов и личного опыта как раз и важны такие диалоги: они помогают уточнить, где должна проходить граница той самой минимальной схемы «формулы перехода».

7. Готовность выйти за рамки «чистого зрения» и ограничения раскрытия

Мы действительно готовы и уже стараемся выходить за рамки чисто зрительных задач. При этом есть важное ограничение, связанное не с идеями, а с форматом их раскрытия.

Опыт работы с научной средой привел нас к тому, что классический сценарий «полное раскрытие → публикации → кто-то строит на этом диссертацию и карьеру, не создавая работающих систем» для нас малопривлекателен. Поэтому текущая стратегия такова: использовать принцип TAPe для создания конечных решений и продуктов и аккуратно раскрывать детали подхода там, где это дает взаимный эффект, а не только академический.

спасибо.

По поводу замечания про «сведение» обсуждения ИИ к текущей реализации LLM: на самом деле мы к LLM пока даже не подходили. В тексте и в наших работах речь не о языковых моделях и не о текстовой области вообще. Мы сознательно занимаемся другим классом задач – тем, что традиционно относят к Computer Vision, то есть обработкой и использованием визуальной информации в самом широком виде.

Все результаты, которых мы сейчас достигли и которые описаны в статьях, относятся именно к этому полю – к визуальным данным, а не к языку и не к LLM. Поэтому утверждение, что мы «сузили» понятие ИИ до LLM, просто не попадает в фокус того, чем мы реально занимаемся: LLM у нас пока отсутствуют не только как реализация, но даже как объект эксперимента. Это первое.

Второе. Если вы вдруг согласны с потенциальной концепцией Языка Мышления как эффективной, следующей тому, что умеет мозг, и считаете, что резервуарные вычисления как-то характеризуют Язык Мышления – хорошо; возможно, у вас получится это реализовать. Мы идем своим путем и нам удается реализовать вполне конкретные вещи с помощью TAPe (как части Языка Мышления).

А если под альтернативой понимается просто замена одного класса вычислительных схем другим (скажем, одних нелинейных динамик на другие) в рамках общей парадигмы машинного обучения, то это остается именно вариацией внутри той же инженерной рамки. Это можно и нужно обсуждать, пробовать на практике, демонстрировать реальные применения, но на уровне принципов это не выводит нас за пределы существующей ML‑концепции.

Если сюда же добавляется еще и переход к квантовым вычислениям, квантовым реализациям и так далее, то на текущем уровне развития идея Языка Мышления с этим связана довольно слабо. В такой постановке не очень понятно, чему именно все это является альтернативой: текущим LLM, современным ML‑подходам в целом или исходной постановке вопроса об отличии инженерных систем от интеллекта как феномена.

Наконец, по поводу близости резервуарных вычислений к TAPe. На том уровне, на котором резервуарные подходы сейчас проработаны теоретически и практически, мы бы не называли их близкими к TAPe. Это разные линии развития, и путать/сравнивать их только потому, что обе оперируют динамическими системами или сложными состояниями, мы бы не стали.

спасибо за плюс. в моем профиле с десяток статей по интересующей вас теме, внутри статьи тоже есть соответствующая ссылка. велкам, коли действительно интересно

хорошо, для вас это выглядит так. не факт, что это говорит о статье, а не о вас, между прочим.

и потом, вы, простите, кто? мне зачем тратить свое время на ваши вопросы, поставленные в таком тоне? мы отвечаем людям заинтересованным, в крайнем случае - с интересными вопросами. мы заняты делом. у нас есть проект. которым мы занимаемся много лет. мы о нем написали здесь. я зашел в ваш профиль - ничего не увидел. он пустой. поэтому ничего про вас не знаю. могу судить по вам только по вашим вопросам. а они пока такие же, как ваш профиль. извините уж. а мы занимаемся делом, на свои кровные, создали реальные технологии, реальные проекты, реальные исследования, реальные научно-интеллектуальные работы, пишем здесь для тех, кому интересно. а на таких персонажей, каким вы по крайней мере через свои вопросы здесь явились - ни время, ни усилий тратить не хочется. И здесь, и в реале таких и так достаточно. Нам ценен взрослый диалог, а не детский сад.

п.с. про Выготского не, не слышали. А кто это? Рэпер?

дорогой ЭНик, начинать надо с того, с чего хочется нам, а не вам или неподготовленным читателям. А вы или неподготовленный читатель в случае заинтересованности можете перейти по одной из ссылок в статье, или по мою профилю найти с десяток тех самых конкретных примеров здесь, на Хабре

  1. Идей, которые оказали влияние на ML, много, и перцептрон Розенблатта - отличная идея. И идея Хинтона с огрнаичением как слоев, так и связей, направленности хода этого потока информации - тоже хорошая идея, следующий этап развития ML. Но мы говорим о другом. Мы применили совершенно новые принципы к работе с изображением и видео, создали собственную архитектуру, и уже применили ее, например, для такой функции, как detection. И мы утверждаем, что именно эти наши принципы мы и применили) Там нет ничего от Yolo, DiNo, ViT, сверточных сетей. Мы применяем наши принципы и показываем конечный работающий продукт. И не просто работающий, а работающий гораздо эффективней. Кажется, перцептрон Розенблатта этим похвастаться не может.

  2. Вы рассказали, как работают сверточные сети. Мы знаем, как они работают. Можно описать, как работают ViT, у них есть свои способы, есть у кого-то другие способы. Но речь совсем не про это. Если говорить про свертку, то в нашем случае мы говорим не просто про отсутствие свертки, а про то, что TAPe противоположен сверточным операциям. В чем именно противоположна и как она работает - описывать не будем. А то что при помощи свертки сегодня и пытаются бороться с многообразием пикселей, которые мешают выделять значимые признаки - ну да, это неплохой вариант, но он был уже реализован во всяких OpenCV, традиционных ML, YOLO. Мы применяем другие методы, не связанные со сверткой. Результаты можете посмотреть опять-таки здесь  https://monitor.comexp.net/detect и если нужен будет ключ - поделимся.

  3. Про технологии терминаторов. Мы для себя сформировали новое направление, которое называем Язык Мышления. Мышление, мы считаем, это эффективный процесс. Кто-то считает, что математика и ML эффективней. Мы считаем, что физическое/биологическое, прошедшее миллионы-миллиарды лет эволюции, наверно сформировано достаточно оптимально и неплохо бы это попытаться повторить:)

  4. Насчет редукционизма - да. У нас есть по всему этому поводу прекрасный альманах (англоязычный), который мы подготовили для начала для себя. Читайте на здоровье (вот здесь - конкретно про редукционизм, точнее холизм)

  1. векторы или, точнее, признаки, выделяются из каждого кадра. так как выделяются они очень быстро, и в процессе их выделения основной ресурс уходит на то, чтобы, условно, открыть картинку в каком-то виде. снимать с нее признаки – требуется минимальный ресурс. поэтому мы снимаем с каждого кадра, а уж что и как мы потом в результате используем - это отдельный разговор.

  2. рассуждать категориями действительно ли признаки универсальны мы можем только таким способом: мы снимаем эти признаки тем способом, которым мы снимаем эти признаки для любой из задач, нам (и вам) известных.

  3. как мы формируем эти признаки, которые вы называете векторами – мы, конечно, рассказывать не будем.

  4. чем докажем? у нас реализованы продукты с характеристиками, недоступными любой другой технологии/компании. можно почитать на сайте, в статьях. Например, поиск видео по видео (RVS). Или, например, применение методов TAPe в ML. Вот ссылка, нужен будет ключ - пишите https://monitor.comexp.net/detect Можете поработать со своими классами.

  5. Пиксели не то чтобы ненавистны нам. Мы говорим о том, что пиксели разбивают изображение на незначимые элементы, что кратно усложняет/удорожает (во всех смыслах) работу с изображением (и тем более с видео).

  6. Насчет того, что он станет "толстым": почему? Нет, не станет:) Если вы на что-то смотрите, и описываете это что-то словами, состоящими из букв любого языка, то что в данном случае может считаться более толстым описанием? Более подробное описание некой картинки, которую вы видите? Не становится в данном случае толстым, потому что языко-математический механизм не меняется. Он может быть более детализирован в случае той или иной задачи.

  7. Мы к сожалению не знаем, что вы искали. Вы же, наверно, имеете представление, как работает поиск? Гугл/Яндекс иже с ними когда-то начинали с того, что индексировали сайты - и после индексации эти сайты можно было найти. Начинали они с определенных сайтов и с их ограниченного числа. Нельзя на просторах интернета просто "что-то". Нужна база и индекс по этой базе. В нашем случае мы логично (для нас) пошли путем индексации фильмов, сериалов, ТВ шоу по рейтингу IMDB. Сейчас у нас больше 360 тыс проиндексированных фильмов. С отрывом - самая большая библиотека проиндексированных видео в мире, по которой мы можем мгновенно искать видео. Плюс у нас еще есть функция поиска по ТВ. Вы можете воспользоваться нашим API, накидать туда какое-то кол-во видео контента и потестировать. Или через наш виджет, который можете попробовать на своем сайте. Мы не утверждали, что создали "Гугл по видео". Мы создали инструмент, который к этому "гуглу по видео" приведет.

Вы как будто исходите из предпосылки, что мы не знаем, почему собственно выбрали двоичную систему. Но мы как раз знаем)

Вы рассуждаете в предметных областях, вам знакомых, и это понятно. Отсылки к советскому наследию, аналоговым схемам и т.д. Всё это довольно хорошо описано, изучено и, на наш взгляд, в контексте TAPe описывает происходящее неверно). Неверно именно с точки зрения той картины, в рамках которой мы работаем.

Не хочется вести дискуссию в логике «квантовость»,«аналоговость» — просто потому, что для нас эта ветка бесперспективна. Объяснять, почему именно мы так считаем, особого смысла тоже не видим: мы занимаемся своим делом и движемся по своей траектории. Пусть эта бесперспективность (для нас) спокойно реализуется сама. Если когда‑нибудь существующие TAPe‑механизмы и алгоритмы действительно понадобится положить на что‑то, что будет называться «квантовым» железом, мы вернёмся к этому в тот момент, когда это действительно станет нужно. Аналоговость — где‑то в той же корзине.  

Сегодня слово «квантовость» настолько аморфно, что местами уже похоже на амёбу: формально как будто что‑то есть, но в практическом смысле всё это пока довольно сыро. Все эти шрёдингеровские коты, гейзенберги, алгоритмы Шора, канадские стартапы формата «deep‑что‑то» — вокруг них до сих пор идут споры, где там реальная квантовость, а где нет. Разговоры про кубиты, ионы и прочее сейчас больше похожи на зачаточную стадию чего‑то будущего, в сторону чего мы просто осознанно не смотрим.

У нас есть конкретные результаты, к которым мы шли шаг за шагом и продолжаем идти. Про эти результаты мы в том числе здесь рассказываем. В этой точке вы можете либо принять их как есть, либо считать, что мы всё это придумали, или, как сказал один из наших потенциальных клиентов, «всё это сейчас за вас пишет ChatGPT». Мы не собираемся бить себя пяткой в грудь и доказывать, что мы не мошенники и не дилетанты — это ваше право так думать. Тот же чел продолжил «если представить, что вы действительно сделали это на своей истории, минуя ChatGPT или, скажем, YOLO, получается, вам надо было выдать Нобелевскую премию еще вчера». Эта гипотеза нам, честно говоря, нравится больше:) хотя за Нобелевкой мы не гоняемся по вполне приземлённым причинам.  Троичность, кубиты, аналоговость и прочие ярлыки – это все мимо.

Гораздо интереснее другой вопрос: в какой момент при переходе к двоичности (0/1, −1/1 и т.п.) произошло «отдискретивание», и не было ли там заведено некое явление, которое в итоге использовали минимально. Наша тейповая идея не вступает в противоречие ни с кубитами, ни с дискретностью, ни с тезисом о том, что кодирование в 0/1 эффективно. Вопрос только: эффективнее по сравнению с чем и за счёт чего именно? Для нас очевидно, что в момент перехода к 0/1 по дороге потеряли несколько важных нюансов. Здесь мы можем разве что слегка подтолкнуть вас к тому, в какую сторону мы сами рассуждаем.  

С нашей точки зрения, в двоичности проявилась очень маленькая часть гораздо более крупного явления, извините, вселенского масштаба — дихотомии. В 0/1 эта дихотомия присутствует, но реализована в минимальном возможном виде. 

Именно она, дихотомия, создаёт всю вычислительную конструкцию, на данный момент построенную  на двоичности.

Но дихотомия существенно мощнее, чем то, как она используется в классической двоичной архитектуре. Потеря «поздних» дихотомических операций приводит к тому, что любой элемент, описанный как последовательность нулей и единиц, не содержит внутри себя явных дополнительных структурных связей. Каждый раз их приходится извлекать заново. Да, эти структуры там есть, и практика показывает, что их можно найти — но за очень немалые усилия.  

А есть другие способы, мы их открыли, мы их знаем и мы их применяем. Мы как-то проводили тестирование видеокарт NVIDIA, индексировали видео с помощью методов TAPe. Загрузка декодера у нас стремится к 100 %, а ядра, наоборот, практически не используются. Потому что TAPe. Чтобы загрузить все эти тысячи ядер на 100 %, нам потребовались бы тысячи кодировщиков/декодировщиков, чтобы обеспечить ядра достаточным объемом информации. Но таких видеокарт не существует, все они обрабатывают информацию через 0/1, и поэтому всем им нужны сложносочиненные ядра в огромном количестве, чтобы обрабатывать инфу дедовским методом) А нам - не нужны. Кстати, напишем об этом отдельную статью, спасибо за идею.

обратите внимание, что я ни слова не сказал про аналоговость

здравствуйте. вы с какой целью хотите пощупать? Сейчас мы либо даём платный доступ (после бесплатных тестов) к готовым продуктам, либо используем TAPe‑стек под кастомные решения, где критичны ограничения по данным и ресурсам. В обоих случаях использование наших моделей позволяет на порядки сократить расходы на тяжёлую ИИ‑инфраструктуру при сохранении SOTA‑уровня точности.

не для open ai осталось 18 месяцев, а для AI или по крайней мере его текущей версии, ярким представителем который и является open ai:)

Что может им помочь? Принципиально другие подходы к вычислениям и обработке информации, да и переосмысление самого понятия "информация".

Как принцип ML в широком смысле неплох (нет, не велик, именно неплох, хотя за него и "раздают" Нобелевские премии), но переход от него к понятию AI это просто авантюра и голословные заявления, сродни заявлений о полётах к далёким звёздам при текущем развитии космических технологий.

Возможно в принципе?- ну, наверное.

Есть теории на этот счёт? - куча, выбирай любую, все пока не исследованы.

Есть технологии? - ну, может где-то и лежит уже парочка, в закромах..

Воплощения в текущих "устройствах"? - ха-ха-ха. 31 век - никак не раньше, если вообще возможно хоть когда- нибудь ...

Если оптимизация I-фреймов даёт на 5% лучше сжатие при прочих равных, то ты на объёмах какого-нибудь YouTube на эти 5% сможешь себе самолёт купить.

оптимизация I-фреймов, которую здесь представляет эксперимент, заключалась бы в стратегии их расположения во время энкодинга. это позволило бы очень сильно уменьшить кол-во расчётов, необходимых для самого по себе энкодинга, а также позволило бы сжимать видео намного эффективнее – просто потому что поисковая стратегия лучшего их расположения лучше и быстрее

https://monitor.comexp.net/?scenario=cluster

вот, если любопытно. принимает любое видео (кроме .avi), обрабатывает через DBSCAN с параметрами по умолчанию и отдаёт обратно разбиение.

Но спасибо за ваш коммент – мы сегодня выкатим демо-стенд, где любой желающий может повторить то же самое, что мы делаем конкретно с TAPe-данными в DBSCAN, но с любым видео. Кину ссылку

Логика возражения понятная, отвечу споконо и по существу, а не

Статья - на конкретную тему по конкретному кейсу, описанному в статье. "Инженерный отчет" и результаты экспериментов, а не полный стек (код, модель, датасеты). Архитектуру и код мы не покажем, потому что это наше ноу-хау и они используются в коммерческих проектах/пилотах.

Мы показываем то, что можно/хотим показать: настройки, список baseline'ов, время и память для каждого метода, графики, визуальные примеры разбиения сцен. Практически максимально прозрачно описали эксперимент. Все сравнения сделаны на одном и том же видео, с одинаковым кластеризатором (DBSCAN/HDBSCAN) и одинаковыми параметрами, мы явно перечисляем все используемые модели (от простых гистограмм до DINOv2/ViT) и даём численные метрики по времени/памяти. Один и тот же пайплайн применен ко всем методам, включая TAPe. Это не научная публикация - мы просто показываем эффект и делимся находками.

В вашем другом комменте про "не пытается показывать применимость к реальным задачам" есть заодно и ответ на этот тезис- про YouTube и купить самолет. Это лишь одна из многих возможных задач.

привет. отличная статья - во всяком случае по духу и направлению мысли. на канал в тг подписался. рекомендую почитать мини-альманах в тему https://comexp.net/posts - думаю тебе будет интересно. он на англ, но сегодня это не проблема, полагаю. удачи в проектах!

Если углубляться - немного - в детали, то мы не формируем фичи вручную каждый раз в зависимости от задачи. Это первое. Второе: в нашем случае из так называемых фич проистекают дальнейшие законы/методы работы с этими фичами. Они взаимосвязаны.

Представьте, что вы работаете со звуками, вам нужно написать музыку, но вы не знаете о существовании нот, как их сочетание влияет друг на друга, что такое квинтовый круг и тд и тп. Скорее всего вам придется "изобрести" и методы работы со звуком, а значит и ноты. Которые могут превращаться в аккорды, мотивы, музыку. Будут ли у вас совсем другие ноты или они будут как минимум похожи с теми, которые мы все сейчас знаем?

Это аналогия с тем, что происходит в TAPe, но с изображениями

Ну нет) Если совсем кратко:TAPe или вернее технология (модель) на базе TAPe напрямую оптимизирует то, какие патчи считать похожими и как их группировать, а не прячет эту логику внутри гигантского backprop по ViT/DINO. То есть модель сама учит свое внутреннее представление по данным, не использует заранее придуманные руками признаки

рецензируемые публикации есть. если что-то неясно/непонятно - всегда можно задать уточняющий вопрос. если таковой есть.

Информация

В рейтинге
Не участвует
Откуда
Москва, Москва и Московская обл., Россия
Дата рождения
Зарегистрирован
Активность

Специализация

Генеральный директор, Директор по контенту
Ведение переговоров
Продвижение проектов
Управление компанией
Мониторинг и анализ рынка
Руководство стартапом
Стратегическое управление
Управление людьми