alexwortega 30 авг 2021 в 18:00

Видеосказки от ИИ: разбор бейзлайна трека Creative AI в рамках AIIJC

9 мин

2.8K

Блог компании СберМашинное обучение*Искусственный интеллектNatural Language Processing*

Комментарии 7

Dirac 30 авг 2021 в 19:58

Отличная статья! Aleksandr, спасибо

Arlekcangp 31 авг 2021 в 05:19

До каких пор все вокруг будут делать вид, что нынешние реализации нейросетей - серебряная пуля ? Из представленных в статье примеров прекрасно торчит не решаемая через такой подход проблема: полное отсутствие способности искусственных сетей к мышлению (в том виде, в каком оно присуще человеку, поэтому не надо спрашивать у меня "что такое мышление ?" Это и есть самое четкое определение, которое можно дать на данный момент) Похоже, признание этого факта бизнесом и научным сообществом будет третьей большой волной разочарования в "технологиях ИИ". А всё потому, что через подобные конкурсы людей толкают не в ту сторону - искать решение, которое в рамках данной парадигмы найдено быть не может. Не в состоянии подобный "ИИ" выдать сказку, которую человек воспримет как сказку, с сюжетом и нормальными звуко и аудио рядом, а не как бред наркомана в предсмертном состоянии. И да, уважаемый Сбер, нормального голосового ассистента так тоже сделать нельзя. Максимум можно родить очередное подобие автоответчика. Признайте уже наконец это.

Aniro 31 авг 2021 в 13:53

Ни в коем разе не собираюсь утверждать что нейросети - серебряная пуля, или что они способны к мышлению, но почему вы считаете что эта конкретная задача ими не решается? Как раз семейство GPT отлично доказало, что в задачах генерации все решает мощность - даже открытые сберовские large и XL модели выдают вполне пристойные тексты после файнтюнинга, а они относительно малы. Модель OpenAI вообще выдает тексты во многих случаях не отличимые от настоящих. Да, там по прежнему присутствуют типичные для токенизаторов логические ошибки, но принципиально ничего не мешает их устранить тем или иным способом, особенно если у нас нет ограничений на время генерации.

Те-же сказки можно генерировать например каскадом методов, не обязательно содержащим нейросети на всех этапах. Например на первом этапе можно просто брать один из стандартных шаблонов структуры сказки, а уже вторым - формировать на его основе текст с помощью даже существующих GPT - небольшая сказка вполне влезет в 2к токенов модели, вместе с описанием ее структуры. Дальше можно прикрутить какой-то фильтр, отсеивающий наиболее бредовые варианты, на основе анализа сентимента например. Мне кажется даже такой бюджетный вариант получится вполне пристойным.

То что вместо картинок генерируется бред наркомана - это опять же вопрос мощности, посмотрите например на результаты DALL-E

alexwortega 31 авг 2021 в 20:04

При очень больших временных и вычислительных затратах можно и на текущем CLIP+vqgan получать вменяемые картинки. Просто тратить час на правильно подобранный текстовый ввод а потом это генерировать это 10 часов занимая практически целиком одну v100 карточку - не целесообразно. А по поводу текста - полностью с вами согласен, текущее поколение gpt в целом позволяет генерировать неплохие короткие тексты

Arlekcangp 13 сен 2021 в 06:17

Да, там по прежнему присутствуют типичные для токенизаторов логические ошибки, но принципиально ничего не мешает их устранить тем или иным способом

Мешает именно то, что нынешние нейросети не могут в логику так как это делает человек. Т е они не могут именно поддерживать процесс мышления. Кстати, верно подметили, что он может быть непрерывным и возобновляемым с некоторого контекста. Ограничения на время здесь на мой взгляд не уместно. Ведь у человека оно отсутствует. Когда человек поставлен внешней средой в ситуацию с ограниченным временем, он обрывает сознательно процесс рассуждения и выдаёт некий промежуточный результат. Есть ли подобные модели сейчас в ИНС ? Мне о таких не известно. Sequence-to-sequence модели которые сейчас в основном используются, таковыми не являются. Как и в любой ИНС там процесс вывода конечен и отделен от процесса обучения. Что в корне отлично от того как это у человека устроено. Что же касается того, что некоторые куски текста выглядят неотличимыми для человека, так это результат того, что они не достаточно длинные. На примере "сказок", при достаточной длине человек неминуемо обнаружит, что там отсутствует сюжет и этого одного фактора достаточно для однозначной классификации не в пользу ИНС (если конечно не брать в расчёт, что в тесте могут участвовать наркоманы, не здоровые люди и троли)

Те-же сказки можно генерировать например каскадом методов, не обязательно содержащим нейросети на всех этапах.

Безусловно. Но во первых это будет уже смесь методов ИНС и предыдущих методов ИИ, которые уже показали свой максимум, и он оказался ниже ИНС. Фактически это тот же бустинг - применение нескольких алгоритмов для решения задачи и выбор лучшего результата. Но кардинально это проблему не решит, а лишь замаскирует. Кроме того в этом случае получится, что алгоритмы подобраны именно к этой задаче. Применительно к примеру со "сказкой", можно написать 10 "сюжетов" и скормить их ИНС. Она выберет один из них, (основываясь на доп. параметре, например "драматичность"), развернет в красивое текстовое представление... Но это не будет человеческим мышлением - синтез идеи отсутствует. Кроме того как уже писал, нет способа заставить ИНС продолжить мышление. Один раз отработав, выход получится такой, какой она выдаст без возможности эволюции этой идеи (разумной эволюции, а не "дрейфа" контекста в случайном направлении)

То что вместо картинок генерируется бред наркомана - это опять же вопрос мощности, посмотрите например на результаты DALL-E

Здесь проблема в том что ИНС и не может "знать" что генерировать. Сюжета то нет. Даже если представленные картинки дать художнику, что бы он идеально дорисовал контуры и затем идеально их расцветил, всё равно выйдет бред, потому что в тексте бред.

snakers4 1 сен 2021 в 08:23

Это не подходило под нашу идею использовать открытые решения, которые при желании можно легко файнтюнить, в связи с чем выбор пал на SILERO models, которые делает Александр Вейсов (github, статьи про его модельки).

Спасибо за бесплатный пиар в блоге Сбера, пусть статья и собирает крохи на Хабре даже по меркам наших статей про TTS (https://habr.com/ru/post/563484/ + https://habr.com/ru/post/549480/), но будет лишняя third-party ссылка xD. Больше ссылок богу ссылок.

Тут хотел внести пару поправок:

Эти модели делает не лично Александр Вейсов, а команда Silero;
Модели в silero-models и демо вообще по духу некоммерческие, но GNU Affero General Public License v3.0 формально позволяет юзать если код, где оно используется публичен;
Качество моделей располагается в таком порядке (от лучшего к худшему):
— Приватные коммерческие модели — примеры аудио — https://soundcloud.com/alexander-veysov/sets/silero-private-hq-samples;
— V1 модели;
— V2 модели;
Это было осознанное решение с учетом доступного времени и фидбека, что мошенники начали использовать наши голоса для обмана людей по телефону (вставить шутку про колл-центр Сбербанка), естественно в нарушение лицензии, морали и УК;

Понятно, что данная статья имеет цель пиара конкурса (да и вообще конкурсы что-то в последнее время как-то загрустили) и тут надерганы какие-то чужие публичные решения и демки.

Но как бы если по формальному признаку GNU AGPL позволяет использовать, если код публичен, то по сути Сбер бы мог и заплатить авторам хотя бы номинальные (по меркам Сбера) деньги хотя бы приватную коммерческую версию моделей.

Обратите также кстати внимание, что у Сбера недавно вроде появился свой TTS (я не слушал), но как авторы пишут закрыты, или доступны в виде приватного API.

Но тренд на капитализацию за счет чужого труда в ML, к сожалению, вероятно не переломить. Самый яркий пример — это те же HuggingFace, по сути не делающие ничего оригинального, а просто перебивающие чужие модели.

alexwortega 2 сен 2021 в 11:45

Спасибо, поправили.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий