Comments 13
Я так надеюсь на AI.
Я очень надеюсь что AI станет менее централизованным. Уже есть подвижки в этом направлении: https://habr.com/ru/articles/857800/
Возможно, дело в том, что ИИ начинает обучатся на своих же текстах, что и приводит к низким показателям.
Возможно.
Интернет, по крайней мере англоязычный, со пугающей скоростью засирается продуктами жизнедеятельность разных GPT. Гораздо быстрее, чем ранее копирайтерами. Уже не первй раз ища по разным темам видео - попадаю на сгенерированные ИИ. И видеоряд, и голос, и содержимое. Причем сразу не поймешь, только минут через пять понимаешь, что это не введение, а воду льет сетка по десять раз по разному одно повторяя общими словами на техническую тему. И по языку не отсеешь, так как научились сотни произношений делать английских. А за эти 5 минут "автор" и просмотр получил и минимум 1 рекламку тиснул. И в рекомендациях начинает эта ИИ хрень лезть.
Если не смогут маркеровать как то и фильтр давать тот же ютуб, то через год и сами обучать свои сети не смогут на получившейся куче мусора.
Так а смысл его маркировать? Проблема же не в ИИшности самой по себе. На ютубе хватает и человеческих видео из до-ИИ эпохи, где автор учит решать ту или иную проблему, например, в фотошопе, абсолютно не понимая сути, и затрачивая на решение в 10 раз больше действий, чем оптимальным способом. И да, часто такие видео имеют много лайков и благодарных (как будто бы, не накрученных) отзывов.
Более того, вангую, что подходы вроде O1 дадут в будущем возможность таки генерировать новый реально полезный контент за счет сотен часов экспериментов ИИ в песочнице. Условно, хотим мы сделать обучающие видео, как проверить совместимость свего железа, после чего установить, настроить и запустить локально новую опен-сорс нейросеть, к которой есть лишь очень скудный ридми, ориентированный на профессионалов, запускавших десятки похожих нейронок до этого. ИИ-агент может поэкспериментировав с виртуальной машиной и репозиторием, скачивая драйвера, пытаясь решать ошибки, и за 100 часов попыток таки сделать все правильно, и записать видео успешного варианта, озвучив его. Будет ли ценность? Безусловно. Зачем душить такое?
Ну и, с другой стороны, "человечность" != добро.
Промоделируем ситуацию, что, например, выйдет чудесный алгоритм, детектящий сгенерированный голос. Ну, начнут контент-криэйторы массово нанимать освобождающихся из закрывающихся колл-центров филлипинцев на озвучку нейробреда (благо, те привыкли разговаривать целый день). Выйдет чудесный алгоритм, маркирующий текст, наймут школьников на рерайт нейробреда, и так далее.
Тут проблема в том, что надо иметь более глубокий институт репутации. Что-то типа института репутации у воров в законе, когда репутация зарабатывается через валидацию от тех, у кого репутация уже есть, а не через алгоритм
Маркировать, что бы я мог поставить галочку - никогда не показывать материал сгенерированный ИИ. И что бы выборку для обучения можно было так же очистить от этого материала.
Иначе я, как пользователь утону в говно ИИ контенте, который сейчас лепят автоматом и льют в ютуб и везде и не найду нормальных авторов. А тот, кто учит ИИ - начнет учить их на гигатоннах галюцинаций других ИИ и результат будет чем дальше, тем хуже.
Так я же о последствиях такой галочки и говорю. Появится галочка и ее многие кликнут -> у создателей говноконтента с НС упадут охваты -> они наймут филиппинцев озвучить нейробред (условно, филиппинцев, тут не так важно, как именно, но обойдут запрет за счет дешевых людей) -> вы снова увидите их нейробред.
Россияне заблокированы передовыми ИИ сервисами. Да что говорить, сам хабр роскомпозор заблокировал на несколько дней, так что даже обсудить новости про ИИ не получается.
Я иногда думаю, что может такие статьи тоже пишет ИИ обученный на синтетических данных. Как, например, понимать фразу альтернативный подход состоящий в переносе знаний из других областей с богатым набором данных. Альтернатива в чем? А нельзя ничего не переносить, а просто скормить эти данные?
Это сайт для айтишников, тут самые интересные статьи часто бывают сложными для понимания.
Может вы хотели спросить альтернатива чему? Текущему подходу? Потому что остальное - понятно. Альтернативный подход в том, что будут брать знания не из "интернета", а из конкретных областей знания, например, химии, физики и т.д. В каждой из этих областей куча данных, которые в открытом доступе редко валяются, а если и есть, то там есть лицензионные ограничения. Это закупать придется все. Поэтому просто скормить не получится. Более того, эти данные ещё надо будет придумать как подготовить. Да и в целом, слово перенос здесь стоит воспринимать как "адаптировать". Это как в программировании - из одного формата в другой переносить данные это типовая задача там.
Мне кажется, что фундаментально правильное направление для развития сильного ИИ. Я бы сравнил генерацию синтететических данных и обучение на них с рассуждениями философов, моделировании физиков и т.д.
То есть условный физик строит теорию на основе опытов (создание генеративной модели), потом на основе полученной теории начинает строить другие пока без подтверждения на практике (обучение на синтетических данных). Периодически такие теории должны апробироваться, иначе можно слишком отдалиться от реальной модели мира. Эксперименты физиков обычно очень дорогие, поэтому они проверяют точечные спорные моменты. Возможно для ИИ нужно что-то подобное.
Еще можно привести аналогию с чтением книг)) Книги тоже своего рода синтетические данные. Мы ведь как-то фильтруем информацию из книг и не все воспринимаем как чистую правду. Что-то принимаем и навсегда запоминаем, что-то отбрасываем.
Новая модель OpenAI достигла предела