AnnieBronson Jul 29 2024 at 10:20

Учёные предсказали ИИ деградацию из-за обучения на сгенерированных данных

2 min

6.4K

Artificial IntelligenceMachine learning*

+16

Comments 39

UFO landed and left these words here

MentalSky Jul 29 2024 at 10:30

меня давно ответ на этот вопрос интересует - если замечательный наш/их ИИ будет всё больше генерить контент, то с ростом качества этого контента будет неизбежно выдавливаться из ~~жизни~~ (процесса обучения ИИ) контент, созданный людьми. Ну хорошо, не выдавливаться, а просто становиться меньше по объему и дороже. Что будет с качеством контента, созданного ИИ на длинной дистанции?

hullaballoo Jul 29 2024 at 10:52

Будет асимптотически стремиться к оценке "мусор"

MentalSky Jul 29 2024 at 10:58

Тогда вопрос, как же тогда наступит технощастье, что прям ах как заживем, пустите только ИИ? Кто-то недоговаривает, имхо...

Kenya-West Jul 29 2024 at 11:23

Когда т. н. ИИ (который пока ещё просто "перемножение матриц", даже не полноценная нейросеть) сможет построить у себя логическую картину мира и самостоятельно выводить положения, выдвигать и проверять теории. В таком случае он сможет понять научный метод и с помощью него двигать прогресс вперёд. Простым "перемножением матриц" такую штуку не создать. Я перемножал матрицы в математическом институте, я знаю.

lorc Jul 29 2024 at 13:12

Нужно просто увеличить размер матриц еще на порядок и тогда точно получится

Moog_Prodigy Jul 29 2024 at 14:18

Ладно бы там "перемножение матриц". ИИ должен полноценно обучаться, хотя бы с помощью человека-учителя в реальном времени, а не вот это всё: датацентр с овер9000 серверов по миллиону долларов каждый месяц пыхтит, создавая веса для новой модели.

Ну или хотя бы Лоры, и то...

ImagineTables Jul 29 2024 at 15:35

Тогда вопрос, как же тогда наступит технощастье, что прям ах как заживем, пустите только ИИ?

Как сказало бы армянское радио, технощастье уже наступило. Но не для всех. Только для nVidia и Сэма Альтмана. Остальные — идите в то отделение, где вам обещали технощастье.

vitavit Jul 29 2024 at 12:22

тогда корпорациям важно поощрять человеческое творчество, как-то договариваться.
пока вижу только их готовность договариваться только с такими же крупными компаниями, либо пытаться создать новый нарратив, где художники и музыканты, не желающие быть материалом для ии, выставляются как "меркантильные эгоисты-луддиты, препятствующие демократии и сбыче мечт".

ImagineTables Jul 29 2024 at 15:25

Это всё равно, что торрент-трекерам договариваться. Весь смысл аферы пропадёт. Она держится только на неразвитости законов в области авторского права.

Хотя там смысла изначально не было. Но если начать платить гонорары за каждую картинку и каждый рассказ, смысл станет просто отрицательным.

san-x Jul 29 2024 at 11:01

както читал забавный рассказ небезызвестного Питера Уоттса, в котором, в качестве сеттинга, очень ярко описан продвинутый интернет будущего, засранный до предела кучей самообучающихся сущностей, создающих непонятно что непонятно для чего, но очень живучих и активных, благодаря естественному отбору :)

Shiaju Jul 31 2024 at 19:33

Как вариант пропускать контент через соцсети: что набрало больше лайков - в датасет, мусор отсеется.

dFdx Sep 17 2024 at 16:03

Или просто как раз мусора добавится?

ZEvS_Poisk Jul 29 2024 at 11:03

Свожу всю статью к простой истине: "Нельзя срать там где ешь". Простите за грубость.

CitizenOfDreams Jul 29 2024 at 11:19

Ну так не случайно восьмое поколение модели зациклилось именно на зайцах.

К животным, поедающим свои собственные экскременты, относятся грызунообразные: морские свинки, шиншиллы, зайцы, кролики. Их пищеварительный тракт часто не в состоянии с первого раза эффективно переварить растительную пищу.

tuxi Jul 29 2024 at 11:13

Исследователи Оксфордского университета заявляют, что использование контента, созданного ИИ, для обучения новых нейросетей грозит коллапсом модели.

Удивительно, что очевидность подается как некое научное открытие. Они точно ученые?

CitizenOfDreams Jul 29 2024 at 11:16

Они точно ученые?

Точно ученые, причем британские.

Kergan88 Jul 31 2024 at 00:25

Вообще, это совсем неочевидно. Чисто интуитивно таких эффектов наблюдаться не должно, ведь ни каких причин для этого нет. Конкретный механизм возникновения этих проблем на данный момент ни кому даже примерно не ясен.

NeoCode Jul 29 2024 at 11:21

Вообще этот вопрос гораздо более глубокофилософский чем кажется. Ведь люди, человечество тоже постоянно обучаются на данных, сгенерированных самими людьми. Но тем ни менее цивилизация развивается, а не деградирует (или мы пока не видим деградации, так как находимся слишком близко от начала процесса).

Ясно что данные для сохранения адекватности должны постоянно синхронизироваться с реальным миром (а это уже почти что механизмы эволюции и естественного отбора). Еще вспоминаются эксперименты, когда человек оставался в глубокой пещере в абсолютной тишине и темноте, и через какое-то время мозг начинал выдавать звуковые и визуальные галлюцинации.

vassabi Jul 29 2024 at 11:37

у людей кроме контакта с реальностью есть еще "обучение на другой модели".

Потому что если у людей культура замыкается сама на себе и перестает перенимать из других культур - то она тоже ожидаемо деградирует

tuxi Jul 29 2024 at 11:58

У людей помимо всего еще есть лень или нежелание быть публичным. Допустим, я знаю что то сокровенное, что-то такое, что точно тру и вау-вау, но мне лениво, и я не кричу на весь мир. Или я жадный и скрываю это знание. Текущий псевдоИИ в такое не умеет.

Moog_Prodigy Jul 29 2024 at 15:05

Ну, не будем про политику, она тут запрещена.

fujikiriku Jul 31 2024 at 01:20

Можно про историю - хрестоматийный пример Китая, профукавшего все что возможно и с трудом, через потрясения и жертвы в 20 веке - догоняющего развитый мир.

Или про религию и культуру - европейская культура и христианская мысль с одно стороны - и, вначале передовой, а теперь безнадежно отсталый исламский мир

antitectress Jul 30 2024 at 10:19

что-то мне это напоминает-с.

vadimr Jul 29 2024 at 12:30

Этот вопрос затрагивает Азимов в цикле “Основание”. У него там на определённом этапе распада галактической империи наука перешла от постановки экспериментов исключительно к составлению вторичных научных работ на основе более ранних источников. Ну и, естественно, в итоге перестали работать атомные электростанции, летать звездолёты и всё такое.

antitectress Jul 30 2024 at 10:07

вархаммер напомнило

ImagineTables Jul 29 2024 at 15:51

Ведь люди, человечество тоже постоянно обучаются на данных, сгенерированных самими людьми

Люди не генерируют данные, люди создают знания. (Хотя, смотря кто, конечно).

Считается, что в мире есть только один процесс, приводящий к созданию знаний. Это эволюция. Биологическая эволюция генов создавала знания об аэродинамике, порождая бесчисленных воробьёв. А мы осуществляем эволюцию мемов у себя в мозгах, улучшая идеи через критику. А что вот в этой технологии эволюционного?

Пока настоящие учёные усиленно думают, как эти высокоуровневые понятия — варьирование идеи, оценка идеи — воплотить в алгоритм, всякие проходимцы собирают бабло на «китайские комнаты».

raamid Jul 29 2024 at 11:24

Если тренировать ИИ на сгенерированных данных, то в пределе ИИ распознает алгоритм, лежащий в основе генерации и будет его воспроизводить. А сэкономленные ресурсы будет тратить на свое усмотрение.

Mike_666 Jul 29 2024 at 11:53

Переводя на русский язык:
Фильтруйте и балансируйте обучающий датасет, но это было так же верно и для натуральных данных, в которых мусора ничуть не меньше, и редкие объекты встречаются - редко!
Но фильтровать надо по критериям качества, а вовсе не исходя из натуральности данных.

vaslobas Jul 29 2024 at 12:11

Классика.

garbage in, garbage out - https://ru.wikipedia.org/wiki/GIGO

Dmitry_604 Jul 29 2024 at 12:53

Почему-то вспомнилось это:

"hold the door" "hol e dor" "Ho dor" "Hodor" .

Кстати в русском переводе (который я смотрел) звучало крайне смешно из "Затвори ход" сделали "Ходор" через несколько переходов.

tormozedison Jul 29 2024 at 13:35

Далеко не первое исследование на эту тему. Я это называю "Терминатором, пожирающим себя изнутри".

qiper Jul 29 2024 at 16:31

Не может быть. Что, уже ИИ всех не заменит?

UFO landed and left these words here

Kupkupich Jul 29 2024 at 19:24

Получается, терминатор, переваривший сам себя — это сильно!

digtatordigtatorov Jul 31 2024 at 02:32

Кто сказал, что сами генераторы не будут развиваться? Достаточно мысленно разделить два года последней жизни на до и после. Любое изображение сейчас даже близко не стоит с теми, которые генерировались ранее. Синтетика будет становиться лучше, отсюда и причин к деградации откуда? Или ответы омни, что лучше 3 версии, причем ощутимо.

Shiaju Jul 31 2024 at 19:35

Ужасная проблема, никак не решить, очевидно

falseshepard Aug 3 2024 at 02:39

Это исследование публиковалось год или чуть меньше назад и освещалась на всех площадках, даже не около IT.

Так сказать, с подключением!

Knkplua Aug 4 2024 at 10:38

Здесь обсуждаются корявые тексты и некрасивые картинки на выходе. А вот здесь https://habr.com/ru/articles/700324/ ничтоже сумняшеся обсуждается точность прогнозирования нейросетью в кардиологии по исходным данным, сгенерированным другой нейросетью. Такая себе вещь сама в себе, но на которую могут опираться при принятии жизненно важных решений.