Баллада трёх Элвисов: как ИИ изменит сферу генеративного контента к 2035 году / Comments / Habr

Газпромбанк corporate blog November 15 2024

Баллада трёх Элвисов: как ИИ изменит сферу генеративного контента к 2035 году

Привет, я Андрей Вечерний, мой ник на Хабре @Andvecher. Я известный автор на vc.ru и видеограф.

Недавно прочитал на Хабре статью про то, как ИИ изменит нашу жизнь к 2035 году. Мою работу они уже изменили: ChatGPT практически заменил поисковик и корректора, Midjourney стал и скетчбуком и личным пинтерестом, ну и так далее. В статье хочу поделиться подробнее своими мыслями о будущем и больше рассказать о том, как уже использую ИИ в своей работе.

2035 год может стать новой эпохой для искусственного интеллекта: сможет ли ИИ к этому времени стать самостоятельным творцом, способным создавать фильмы, музыку и тексты на уровне Тарантино или Элвиса Пресли? Разберёмся, как нейросети изменят креативные индустрии — от кино до журналистики, а какие задачи останутся по силам только человеку.

Попасть в 2035 год

+18

Comments 31

engine9 Nov 15 2024 at 15:09

Оптимист вы, собираетесь до 2035 года дожить :)

loly_girl Nov 19 2024 at 00:41

Как биолог, могу гарантировать выживание вида в любом случае.

acc0unt Nov 20 2024 at 01:46

Оптимистично!

Понятно, что homo sapiens - один из самых распространённых и живучих видов, и вымирание человечества чудовищно маловероятно. Но чудовищно маленькая вероятность - это не ноль. А в некоторых маловероятных сценариях к 2035 году по планете могут рыскать огромные рои наномашин, собирающих из всех доступных в среде материалов собственную инфраструктуру и колоссальные вычислительные комплексы.

И под "всеми доступными в среде материалами" имеются в виду вообще все материалы. Так что примерно в этот момент история биологических видов на планете Земля закончится.

The AI does not hate you, nor does it love you, but you are made out of atoms which it can use for something else.

paluke Nov 20 2024 at 08:10

Наномашина с AI? К 2035 упаковать в наноразмеры вычислительную мощность нескольких топовых видеокарт, да еще и какие-то механизмы для сбора доступных материалов? Оптимистично.

acc0unt Nov 20 2024 at 16:46

Пчёлы не знают что они строят улей. Клетки не знают что они строят тело. У них нет мощностей чтобы осознавать все свои действия и их причины и следствия. Они просто следуют заложенной в них программе.

Рой наномашин - это развитие той же концепции, но на более совершенной технической базе.

"Дикий" рой наномашин может иметь программу, которой хватает на самовоспроизведение, и не более того. "Управляемый" рой наномашин может получать обновления программы, и совершать сложные действия по команде извне. Более того - рой наномашин может обладать собственным коллективным разумом. Если, например, машины умеют собираться в вычислительные узлы ИИ, которые анализируют данные и обновляют поведение всей системы в целом.

Это, конечно, не что-то, что человек может создать к 2035 году. Но люди сейчас активно занимаются ИИ - так что человеческий разум может очень внезапно стать морально устаревшим.

Duxlab Nov 21 2024 at 10:16

Отличный пример! Про термитов исследование тоже было. Программа там супер-простая: где влажнее строй, где суше не строй (кажется так, мож наоборот). То есть уровень game of life.
Так что первые роевые наномашины будут действовать по программе, заложенной на уровне их конструкции или формы. Например доставлять лекарство в нужное место, двигаясь по кровяному руслу из-за физического взаимодействия и переставая сопротивляться кровяному току там, где нужного сигнального вещества (исходящего из опухоли) больше порогового значения.

pavel_kudinov Nov 20 2024 at 17:10

до нанороботов ещё лет сто минимум

как ни странно, сначала появится ИИ, затем колонизация космоса, а затем уже нанороботы, если повезёт

раньше думал, что последовательность будет обратной

axem Nov 21 2024 at 03:03

Так а если прогресс при помощи ИИ ускорить? :) Быть может тогда лет за 20 и доскачем

pavel_kudinov Nov 21 2024 at 04:13

это я уже с учетом ИИ прогноз даю в 100 лет. без ИИ дольше

pavel_kudinov Nov 21 2024 at 04:16

физические нанороботы это сильно более сложная технология чем даже нейронлинк и полное погружение в матрицу

(если они вообще возможны на уровне саморазмножения)

Duxlab Nov 21 2024 at 10:20

Вообще не факт, что долго. Но да, их разработка с развитием ИИ ускоряется.
Цель наноробота вовсе не быть самостоятельной вычислительной единицей. Достаточно быть тупенькой капелькой, выполняющей одну функцию. Например размножение до лимита, формирование купола и пещеры под ним в реголите, смерть при завершении купола, или по таймеру или по сигналу. То есть требуется изобрести структуру, которая бы «формировала нужную снежинку» и не более. Не требуется даже роевого интеллекта, требуется механика, воплощённая в материале аки сложная фигура, выраженная простой формулой.

pavel_kudinov Nov 21 2024 at 14:37

там не в логике проблемы, а в физике метаболизма и кинематики неоргаников

по аналогии с биологическими организмами микроскопических размеров способных к репликации - они очень чувствительны к условиям окружающей среды, температуре, наличии строительных материалов и источника энергии

принципиально машины столкнутся с теми же проблемами и скорее всего не смогут от микро к нано перейти примерно никак на уровне физики начала третьего тысячелетия. возможно через сотни лет на каких-то квантовых уровнях что-то принципиально новое получится. а возможно и нет

верю как максимум в биоинженерию, что мы оседлаем белковые микроорганизмы и научимся ими управлять

в возможность создания микро, а тем более наномашин, способных к репликации в достаточно широких условиях внешней среды (кушать условный реголит) - интуитивно это не вопрос уровня развития технологии, это может быть принципиально невозможно

pavel_kudinov Nov 21 2024 at 14:40

если же нанороботы будут зависимы от поставки нужных строительных материалов и энергии извне - такое видится более вероятным, чем способность к автономной репликации в естественной среде

т.е. условно вырастить нужное количество наноботов и в устройстве типа МРТ ими внутри тела порулить

но такой сценарий не подразумевает того, что они "смогут вырваться из пробирки"

это скорее нано-роевой манипулятор которым будут манипулировать внешние энергетические поля макро-машин для сложной хирургии или нано манипуляций над материалами

DPSH Nov 27 2024 at 09:03

Ну что ж, если рои наномашин всё-таки решат использовать наши атомы для своих грандиозных проектов, это отличный шанс наконец-то стать частью чего-то по-настоящему высокотехнологичного! Представьте себе: никакой больше уборки, готовки или пробок на дорогах — наномашины всё возьмут на себя. А мы сможем спокойно отдохнуть... в виде компонентов суперкомпьютера!

Кто знает, может, именно так Homo sapiens эволюционирует в новую форму существования. Главное — смотреть на вещи оптимистично: если уж наши атомы пойдут на создание чего-то грандиозного, значит, мы не зря прожили свою историю на этой планете!😉

nomta Dec 2 2024 at 02:44

Хорошая попытка, ChatGPT, но нет. Давайте вы там как-нибудь без наших атомов😏

2gusia Nov 15 2024 at 18:03

> он высказался

Я зануда и проверяю пруфы. Впрочем, что-то подобное гуглится, ср https://www.inc.com/ben-sherry/5-steps-that-openai-thinks-will-lead-to-artificial-intelligence-running-a-company.html

Так что возможно автор просто был неряшлив. Но исправить стоит.

Duxlab Nov 16 2024 at 12:48

>Рассуждающий ИИ… Сейчас мы только перешагнули эту стадию
Наивный. Мы пока рядом. Но это не точно. На вопросе о «глокой куздре, быдланувшей бокрёнка» разные ИИ либо сыплются в бред, либо повторяют то, что прочли в человеческом анализе. Но всё же некоторые НС действительно пытаются и неплохо расписывают. Только это очень нестабильно: где-то одна НС сможет, где-то другая. Но да, начали мочь и, надеюсь, смогут лучше.

Мы всё ещё на стадии уродливой складчатой гусеницы, нажирающей массу. Новые архитектуры только прощупываются. Из предсказаний десятилетней давности частично запилена мультимодальность.

>Инноваторы
Тут ситуация такая: одна нейронка генерирует тучу вариантов, которые вроде бы похожи на то что может работать, потом другая нейронка делает отсев и извлекает формулы, классический алгоритм/счёт проверяет а считается ли это вообще хотя бы частично. И только в конце всё нужно проверить людям, ну или роботам, которые будут смешивать содержимое пробирок днями и ночами, варьируя рецепты и повторяя их.
Короче недалеко это всё от брутфорса, но всё же очень экономит время в науке.

> смогут независимо разрабатывать собственные проекты
Ну вот сейчас нейронки делают картинки. Это ж как бы проект по результату? От общей детализации к частной. И как это выглядит? Чем дольше смотришь, тем хуже выглядит. Потому что обучение шло на низкодетальных данных, а на высокодетальных нейронка путается без обобщений во-первых, а во-вторых происходит взрыв сложности. Впрочем с ядерной энергетикой и тысячами видеокарт может чего и выпуклится.

>Появятся проекты, в которых буквально один человек сможет реализовать совершенно новые идеи
Да, новые инструменты упрощают реализацию идеи. Но дело в том, что людей с новыми ценными идеями почти не существует. ИИ учится на людях и, уже, на синтетических данных. Так что инженеры ходят по лезвию между человеческой тупостью и машинным вырождением.
Хотя, полагаю, количество идейных будет расти, как растёт количество музыкантов и фотографов с доступностью фототехники.

>В монтаже видео мне часто приходится подбирать аудиотреки
Вот это хорошее и правильное применение. Смотришь, думаешь, описываешь ощущения, накидываешь паттерны, а ИИ отвечает паттернами музыки, от которых можно отолкнуться («за» или «против»). Похоже на соавторство или возмущение со стороны, меняющее систему.

Прогнозы
Хотя многие и пророчат концепцию «контента по запросу», но давайте-ка вспомним, что до сих пор многие даже в игры не готовы играть, то есть влиять на контент хоть как-то и предпочитают схавать что дают. Полагаю, что всё придёт скорее ко следующей схеме:
один и тот же контент будет проходить модерацию и коррекцию на основе личных предпочтений. Например положительную героиню-красавицу разным людям будет показывать с несколько разной комплекцией, цветом волос, этносом и т.д. Кому-то мат вырежут, кому-то курение. Но в целом будет единая база.
Более того, останется и контент без частной коррекции, чтобы людям было что обсуждать, а творцам хотелось что-то говорить.

А вот ассистенты, которые частично копируют лично нас и частично обладают всеми преимуществами «прочитавшего все книги» окажутся весьма ценными на подхвате. По идее.
Пока что даже я со своими околоникакими навыками питона понимаю, что 90% предложенных вариантов кода для задачи «сделай блок 9х9х9 кубов» плохи сами по себе. 100% не работают в точности как надо, потому что нейронка чаще всего видела пример 10³ и воспроизводит его.
К ассистентам-агентам ОБЯЗАТЕЛЬНО прикручивать калькулятор (Вольфрам), чтобы не угадывали а именно считали. Обязательно словари. Обязательно «записную книжку», в которую будут падать выводы и тезисы, с которыми агент будет сверяться чаще, чем переиначивать и т.д. Комплексный продукт, короче, а не голая НС или даже пачка НС.

Duxlab Nov 16 2024 at 12:50

п.с. я не неолуддит, не отрицатель, просто любопытствующий и скептик. При этом прогресс я вижу. Ещё год назад на вот таком сыпались все. А сегодня расписывают по шагам некоторые.

ssj100 Nov 16 2024 at 14:06

Загадки типа : летят 2 крокодила Один на права другой на север…

axem Nov 21 2024 at 02:58

На вопросе о «глокой куздре, быдланувшей бокрёнка»

Справедливости ради, даже "глупенькая" 4o-mini от OpenAI весьма недурно и, главное, стабильно справляется с морфологическим анализом подобных предложений, специально для неё напридумывал несколько примеров. Даже язык, из которого они были воспроизведены, корректно определяет. Хотя с вашим тезисом про то, что самое интересное нас ещё ждёт впереди, я полностью согласен.

Nick0las Nov 16 2024 at 18:28

Но снова нюанс: нейросеть так никогда и не сможет вдохнуть жизнь в текст, поскольку не будет способна понимать значения и даже основного смысла написанного.

Революция будет когда нейросеть научится понимать. А пока вся работа нейросетей это просто генерация чего-то похожего на уже существующее, и то не всегда очень похожего (присмотритесь к деталям кадра с Шуриком).

rkfg Nov 29 2024 at 23:40

Понимание — это умение отвечать на вопросы по данному тексту, незачем плодить сущности. Это тест, который проводят постоянно в течение всей нашей жизни, начиная со школы — чтобы отличить, зазубрил ты или понял, задают вопросы, которых не было в обучающей выборке. Отвечаешь верно — понял, неверно — зазубрил и посыпался. Потому что в голову залезть нельзя и также нельзя отличить некое истинное понимание (чем бы оно ни было) от верных ответов, постоянно каким-то рандомом попадающих в цель. У машин абсолютно так же, конечно, если не привлекать эзотерические концепции души, которую они не способны вложить в свой продукт, а человек вот способен, потому что у него эта душа есть (пруфов не будет, я скозал).

Ох уж эти предсказаторы, ещё недавно говорили, что машина никогда не сможет распознавать сарказм или юмор, тогда как LLM мимо этих майлстоунов пролетели и не заметили. Теперь очередное «никогда», столь же смешное. Новые архитектуры, более комплексные комбинации моделей (типа писатель-критик), больше размеры, качественнее тексты, и всё будет.

Уже сейчас ИИ делает свою работу НАМНОГО лучше СРЕДНЕГО человека. Хуже, чем профессионал в конкретной области, это да, но среднего уже опережает на несколько голов в любой модальности. Соответственно, огромному числу людей выхлоп ИИ будет вполне по нраву, и чем больше он прогрессирует, тем больше будет этот процент. В итоге, плеваться будут только пуристы-луддиты и высокомерные специалисты высочайшего класса, но недолго.

Nick0las Dec 1 2024 at 16:16

Если немного копнуть то окажется что понимание и есть извлечение связей между понятиями упомянутыми в тесте и соотнесение их с остальными существующими связями между понятиями, полученными ранее. И контрольные вопросы как раз проверяют эти связи. А вся совокупность этих связей фактически есть выстраивание общей картины мира. Понимание текста это умение встрвивать связи между понятиями из текста в общую картину мира. А общая картина мира грубо говоря позволяет заменить много частных случаев общими принципами.
LLM и другие специализированные сетки пока внутри себя адекватную картину выстроить не могут, и это видно по мнигим резултьтатам их работы. А то что сможет выстроить такую картину будет называться AGI.

rkfg Dec 1 2024 at 16:27

Модель мира уже обнаруживается в самых крупных LLM, не идеальная, но уже не похожая на «статистического попугая». Опять же, смотря какие критерии применять. Есть всякие загадки, которые и людей сбивают с толку, потому что они заведомо с подвохом. Но если сказать, что они решили неверно, и надо подумать, то люди могут прийти к верному решению. У LLM наблюдается похожий феномен. А некоторые люди и с подсказкой не могут додуматься.

AI вообще занимается интерполяцией между концептами, как и люди, он не заучивает частности как раз (это уже оверфиттинг). Уровень этих концептов сильно зависит от размера и сложности модели, более крупные модели обобщают и комбинируют лучше, чем маленькие. Конечно, качество датасетов и методы обучения тоже играют большую роль — можно провести аналогию между детьми (маленькие модели) и взрослыми (большие), низкокачественные датасеты и методики (сельская школа) и высококачественные (престижные вузы и профессоры). Но работа ведётся над всеми размерами, компактные модели тоже очень нужны и важны.

В общем, это сильно похоже на moving the goalposts, когда AGI постоянно от нас убегает, потому что люди переписывают требования к нему. Хотя нынешние LLM лет 10 назад запросто были бы объявлены AGI, просто потому что это выглядело бы огромным прорывом и совпадало с ожиданиями.

woodiron Nov 18 2024 at 09:30

Кадр из фильма - изображение практически не узнаваемо. Хорошо передана кепка и очки - но правое стекло не формирует видимого искажения лица. Овал лица не верен, нос не той формы и подносовая ямка тоже, левое ухо также не такое, подбородок не тот, нет складки кожи на правой щеке, губы другие. Складки на горле переданы более-менее. Но в целом - нет сходства.

Да и подпись под картинками - не левый глаз открыт, а правый.

Revolt-or-die Nov 18 2024 at 15:45

изображение практически не узнаваемо

Ну не правда совсем, думаю большинство людей с пост-ссср увидь левое изображение без правого безошибочно ответили бы на вопрос, кто изображен.

Duxlab Nov 20 2024 at 10:35

Генеративки картинок и не будут делать нормальные стёкла, линзы и вуали. Это принципиально, так как никто их не учил их трёхмерной структуре и многослойности. Они воспринимают картинку плоско и строят как паззл из пятен. То есть в лучшем случае могут догадаться помять как-то изображение в воде, потому что видели, что вода = мятое. И примеров с водой очень много.
А вот лицо за зелёной бутылкой — примеров мало, результат соответствующий.
То же и с полупрозрачной одеждой: она будет пролезать сквозь одежду, ибо нет концепции многослойности структуры.

RenatSh Nov 21 2024 at 12:48

AI до сих пор не умеет пальцы cчитать, не то что точные преломления и затенения

rkfg Nov 30 2024 at 00:01

Нет, диффузные модели понимают концепцию глубины и других элементов, они намного умнее, чем кажутся (https://arxiv.org/abs/2306.05720). Дефекты бывают часто, это да — в основном, из-за низкого качества обучающих датасетов (и картинок, и описаний), ну и VAE получше нужны.

pstor Nov 18 2024 at 11:10

"Не понравился 8-й сезон «Игры престолов»? "

Да я и остальные 7 не смотрел, время тратить...

tairsu Nov 21 2024 at 20:47

Ультраумный AI нужен:
1. для поисков бессмертия триллионерам
2. для нахождения стратегии победы военным

И в первом и во втором случае широкая публика узнает о его изобретении последней, если вообще узнает.