Comments 9
в целом согласен, остается один вопрос "Что делать Человекам ... Чему учить детей ... "
я учился на программиста - за этот год студент с вайбкодингом сделает больше чем я за всю жизнь ... понятно то что я тоже вайбкодю и получается в 10 раз быстрее, НО это же каждый сейчас так ... столько кода миру не нужно
Деграданс какой-то наблюдается, хомо под давлением, созданными самим же хомо возвращаются к условным топору и вилам, к другой планете отправляют не продукт с высокой добавленной стоимостью, а опять же хомо. Иллюзия, созданная в прошлом веке что в будущем все будут делать роботы, а человек будет заниматься творчеством сбывается с точностью до наоборот. Следующим шагом будет вытеснение хомо с рынка труда, роботами, созданными самими же хомо. Лишение хомо средств к существованию в условиях перенаселения планеты вызовет локальные очаги напряженности, которые как и в настоящий момент будут гаситься управляемые нейронными сетями бумбами умиротворения.
Какие очаги напряженности? Формула "хлеба и зрелищ" была известна еще в древнем Риме. Хлебом (и даже с соевой каклеткой) современная цивилизация способна обеспечить каждого. Вопрос зрелищ (обобщим до контента) нейроночки закрыли чуть более чем полностью. Так что будет сплошная благодать
Выглядит не оптимистично ... в этом и смысл найти баланс востребованности/полезности хомо и его загрузки
Меня поражает, что в России так зациклены на трансформерах и агентах. Я слежу за исследованиями и работами в области нейронок и на западе сейчас усиленно развивают Jepa. Она сырая, в ней есть математические ошибки, но это следующий шаг. Так как проблема чистых llm или современных мультимодальных в том что они построены на трансформерах и не работают в пространстве обобщающих данных. Именно к этому стремиться Jepa. По этой причине, чисто языковые модели не могут обобщать данные в абстрактной форме. Они работают в одном пространстве текста или видео.
Если смотреть на развитие с точки зрения чисто языковых моделей или их расширений мультимодальных (которые все равно привязаны к тексту), то они не могут абстрагироваться. То есть обобщить данные. Это как недавно в статье про рентгеновские снимки, они учат шум и пытаются работать с пикселям. То же самое языковые модели на уровне кода, не обобщают код на уровне целостной системы.
У человека есть область в мозге, которая обобщает условно предсказания "текста/речи" , "зрения", моторики и другие. Обобщает эти сигналы в новом пространстве и уже дальше формируется целостная картина. И это минимум.
Поэтому пока что llm это инструмент. Мощный, удобный, который может работать на одном уровне абстракции, например текста в рамках дальних связей (на сколько они хорошо обучены). Но он не скажет вам, что внося измените в эту часть кода, вы поломаете другой модуль. Потому что это уже верхний уровень абстракция, которого у языковых моделей просто нет. Она узнает о поломке, только кода код в том месте выдачи ошибку.
как раз остается вопрос что модели сейчас развиваются с небывалой скоростью (та же V-Jepa 2) осталось совсем немного до момента когда модель будет на уровне обобщений работать в сотни раз эффективнее чем человек (т.к. объем знаний для обобщений в тысячи раз больше) ... и к этому моменту надо быть готовым и с юридически-экономической и с философской точки зрения ...
Я бы был немного аккуратнее с ожиданиями. Прогресс действительно быстрый, но говорить о том, что осталось совсем немного до систем, которые обобщают на порядки лучше человека, пока преждевременно.
Архитектуры вроде JEPA (включая V-JEPA), конечно важный шаг, но у них есть фундаментальное ограничение. Они оптимизируют расстояния в евклидовом латентном пространстве, тогда как реальная структура данных задаётся все таки вероятностной геометрией (через лог-вероятности и дивергенции типа KL). Локально это совпадает (через квадратичную аппроксимацию), но глобально нет. Как итог, такие модели сейчас требуют дополнительных трюков, типа регуляризаций и аккуратного обучения.
То есть идея в целом правильная, чтобы учиться в пространстве представлений, а не в пикселях или токенах. Но текущая реализация скорее приближение, а не полноценная реализация этой геометрии. Там еще работать и работать...
Так что прогресс есть, но точно не экспоненциальный без ограничений. Языковые модели не столько упёрлись в потолок, сколько вышли на стадию насыщения в базовой архитектуре. Поэтому сейчас основной рост сместился за счёт инженерных решений вроде специализированных моделей, мультимодальности, агентных систем и интеграция с разными инструментами.
Так что хотя движение есть, но фундаментальные ограничения (в том числе геометрические и статистические) пока никуда не делись. И до качественного скачка уровня, когда модель сильно превосходит человека в обобщении пока еще далековато.
Уверен, что и контент в сети, и культура в целом скоро четко разделится на 2 неравные части. Во-первых, это будет массовый контент и иные артефакты, созданные ИИ - стандартные, отражающие тренды, дешевые. Во-вторых, то же самое, но созданное человеком, - уникальное (даже ошибки, неточности будут уникальными, как в японском ваби-саби - красота несовершенства), нетипичное и очень редкое, а потому дорогое
Человек после цифровой эпохи: заменят ли нас машины или мы станем их частью