Как стать автором
Обновить

Комментарии 91

Рано или поздно информация закончиться во всех возможный истоников. И к этому времении ИИ будет обучаться у другого ИИ для получения данных. Всё как у нас, людей, люди обучают людей, так и ИИ будет обучать ИИ.

Вполне возможно, что так оно и будет. Но наверное даже забавно будет наблюдать за тем, как нейросети учатся на галлюцинациях своих сородичей :)

а потом забавно будет наблюдать за последствиями галлюцинаций, когда факты заменяться выдумкой и вот мы уже живем в мире, который построил DataGOD, ведь так будет написано в галлюнопедии. А авторские права и законы не писаны для богов.

интересно будет почитать какие новые теории заговора может придумать ИИ

Я думаю, что источником данных для обучения будет сам ИИ. Точнее его реальная практика. Машины с автопилотом уже есть. Сельскохозяйтвенные роботы, домашняя прислуга, торговля, образование. Причем ИИ будет не просто собирать данные, а и получать фидбек от людей в реальном времени.

А что, звучит неплохо. Сделать 1 млн роботов-слуг, они в день будут получать порядка 1 млн фидбеков. При этом данные централизовано обрабатываются, то есть есть шанс, что один робот учтет ошибку другого робота.

Но прям сейчас не получится. Маск своих Опитимусов обещал через 3-5 лет. А нужно прям сейчас...

А не получится положительная обратная связь и "шиза" на выходе?

Люди получают обратную связь от своих действий в реальном мире. Именно поэтому реальный опыт и ценится выше теоретических знаний.

Если обратной связи нет - это средневековая схоластика. Сначала был студентом, учил богословие. Потом стал преподавателем, стал других студентов учить богословию.

И к этому времении ИИ будет обучаться у другого ИИ для получения данных. Всё как у нас, людей, люди обучают людей, так и ИИ будет обучать ИИ.

Не будут они учить друг друга. Им доступно копирование, в отличии от людей)

https://habr.com/ru/articles/806047/

Кажется надо сходить к ребятам работающим на БАК и других ускорителях или например к астрономам. Думаю у них то данных с лихвой должно хватать. И это явно будет более полезным чем хай гуголь поставь кипятитсья чайник.

Столько экспрессии, стенаний и глупых ярлыков, а так и не понятно, чтож плохого в том, что нейросетки обучают на больших объемах данных.

Проблема не в том, что их обучают на больших данных. Проблема в том, что эти данные зачастую принадлежат пользователям, у которых большие компании, которые создали эти нейросети, разрешение либо не спросили, либо не оставили вариантов.

Вот представьте, жил-был некий Иннокентий, и была у него, скажем, дочка, и Иннокентий на утреннике в школе записал как она рассказывает стихи собственного сочинения в ее уникальном стиле со сцены, и выложили на ютуб, поделиться с друзьями и родственниками.

А через год Иннокентий увидел стихи "похожие до степени смешения" на упаковке бутылки водки, предъявили претензию производителю, он предъявил претензию брендинг агентству которое делало упаковку, а оно призналось что использовало нейросеть ChatGPT6 для создания креативов, а та в свою очередь обучалась незаконно на данных с ютуба, и в том числе конкретно и видео Иннокентия, хотя он такого разрешения не давал и в жизни этого не хотел.

Пример конечно дикий, но наглядный.

Большинству плевать, кто там что перегенерил. Остро встал вопрос, который вообще-то обсуждали уже 20-30 лет назад: в Интернете нельзя по-умолчанию защищать авторские права. Потому что большая часть контента в Интернете создаётся пользователями, которых не интересуют эти самые права. Этот контент не содержит ни указаний авторства, ни лицензии на использование.

А теперь вопрос стоит ребром: или отменять авторские права в том виде, как они есть сейчас, или ИИ будет только у корпораций, потому что они с их баблом могут отбрехаться от любых нарушений.

Если кто не хочет, чтобы его стихи использовали - пусть явно об этом укажет. А лицензией по умолчанию должно быть что-то вроде CC-BY. И у создателя ИИ в файлике - список всех ников в Интернете, кто хочет - может почитать.

Хорошо, тогда и веса модели должны быть доступны публично. Вот Мета - молодцы, несмотря на всю их рептилойдность, выпустили llama, llama2 и сейчас, похоже, готовятся опубликовать (я очень надеюсь на это), веса llama3.

Полностью поддержу.

Если сочинил стих и не хочешь ... - держи его в себе. Открыл в инете рот, продекламировал, тогда какие претензии, что кто-то запомнил и продекламировал переиначив?

компания использует информацию для улучшения сервисов, разработки новых продуктов, функций и технологий,

Хорошая формулировка, юристы недаром едят хлеб. Информацию использовали все всегда и давно. Поглядел куда клиент мышкой тычет, поправил интерфейс. Почитал, что он пишет, переделал текст. Робот занят тем же самым

По моему ChatGPT6 в вашем примере притянут за уши. Более вероятно это мог бы быть поэт Вася, работающий в оном брендинг агентстве, который увидел стихи в ютуб-ролике когда-то. И может быть даже начисто забыл об этом, поэтому уверен, что придумал их сам. Ну или сознательно использовал чужие стихи, не важно.

Почему никто не поднимает панику, изза того, что другие поэты слушают чужие песни?

"Мы такие чистые да гордые, пели о душе, да всё плевали в нее" - Алиса, альбом Сумерки (1991 год)

"В этой пьяной стране есть для каждого кнут, здесь поют о душе и в нее же плюют" - Ария, альбом Ночь короче дня (1995 год).

Как думаете, Пушкина украла часть текста у Кинчева (Панфилова)? Пора паниковать?

Вот-вот. В советской эстраде были перепетые западные пестни и даже, вроде, наоборот тоже что-то было. Киркорова вообще королем римейков называли. Почему все эти борцы с нейросетями до сих пор не борются за то, что запретить людям слушать пестни, чтоб они их потом злонамеренно не крали?

>Более вероятно это мог бы быть поэт Вася

Если это сделал поэт Вася - то всё норм, за исключением если скопировал почти слово в слово. Это глубоко ошибочно приравнивать в правах ИИ и людей. ИИ это механизм, а вот память людям редактировать пока что закон не позволяет.

Если это сделал поэт Вася - то всё норм

Так не должно быть. Экспертиза должна независимо установить, не опираясь на показания Васи, есть тут плагиат или нет. Иначе Вася всегда будет говорить, что сам сочинил, а не через ЧатГПТ. И что с этим делать?

А как они будут это устанавливать? Ведь одни и те же научные открытия бывает совершаются разыми людьми независимо, а похожие истории встречаются в эпосах разных народов. Также и похожие мелодии часто сочиняют разные люди не зная друг о друге, сомневаюсь, что со стихами и рифмами дело обстоит иначе, в конце концов рифм к тому или иному слову в каждом языке конечное количество, стихи пишутся часто на актуальные проблемы в обществе, и чем больше населения - тем больше шанс совпадения. То, что кто-то выложил в сеть раньше во-первых не значит, что он это раньше сочинил, например, услышал выступление уличного поэта, что не удосужился выложить свои стихи в сеть, позаимствовал рифму, разместил в интернете. Через месяц уличный поэт разместил свою, и теперь он - плагиатор? Называть плагиатом просто за совпадение попахивает презумпцией виновности. Скорее всего придётся просто пересмотреть систему прав на контент в принципе.

Почему никто не поднимает панику, изза того, что другие поэты слушают чужие песни?

Если они их КУПИЛИ - проблем нет. Пусть слушают. А вот если нет - сорян

Разумнее обнародовать всеобъемлющий дисклэймер, что выкладывая любую информацию в сеть - она будет использована кем угодно и как угодно. Что собственно в реальности и происходит. Тогда несметная масса проблем сразу исчезнет. А ставшие из-за этого невостребованными юристы по авторским правам, и граждане паразитирующие за счет авторских отчислений смогут принять участие в производстве материальных благ для человечества.

дисклэймер ГДЕ?

Вот у меня на моем peertube сервере выложен мой ролик, на страничке сервера прямо указано что если вы используете контент - вы обязаны либо заплатить мне 100500 ISK либо (ну например) поработать ротиком на коленях :). Бонусом - прям в HTTP-заголовках отдается X-COPYRIGHT: и текст (на русском) что если используете данный контент то соглашаетесь со всеми условиями по ссылке а если не соглашаетесь - не продолжайте.

Федерация peertube - включена. Ваш бот гулял по сети и сграбил ролик (вообще через другой peertube сервер, peertube так умеет). И использовал. Я прихожу требовать от вас выполнение обязательств.

Как?Вы не HTTP-заголовки в ответах ни даже ToS? Для вас же еще в 2011 сняли обучающий ролик (замаскированный под серию 1501 SouthPark'а) почему так делать не надо

Ваша ошибка в том, что выложив ролик в сеть в общий доступ, вы продолжаете считать его своей неприкосновенной собственностью. Не надо проецировать законы материального мира на сферу информации. Это не то же самое что мобильник лежащий у вас на столике в кафе, который если сопрут - у вас его не станет. В отличие от материальных вещей, информацию вы не потеряете если ее скопирует себе кто-то другой. Поэтому в информационной среде законы должны быть совсем другие, прежде всего не мешающие техническому прогрессу.

А ваша - в том что вы посчитали что это общий доступ.

Там указаны условия же -:).

Либо да - надо менять полностью законы, и не только про авторское права потому что есть еще и дополнительная сложность, допустим что законы про авторские права изменены но ролик у меня на сервере - в общем случае нарушает какие то другие законы (о защите частной жизни например или о защите детей от педофилов террористов или он просто 18+) при этом у меня есть право это игнорировать в данном случае но вот права передавать другим такие права - нет (и я этого не делаю), вы ролик используете и нарушаете. Будете вешать на меня ответственность? А на основании чего? Получается надо весь соответствующий набор законов править.

Именно в общий доступ, т.к. практически всё выложенное вами в сеть на не принадлежащие вам сервера, со временем может стать доступным кому угодно. Исключением могут быть разве что услуги платного сервера, с владельцем которого заключается полноценный договор о безопасном хранении данных. И то как показывает жизнь, не всегда помогает)

Принятые в обществе законы о защите детей, частной жизни, против терроризма, и тд вполне могут распространяться и на сеть, примерно также как и на бумажные СМИ. Речь была только об абсурде разросшемся вокруг идеологии авторских прав и копирастии.

В случае с моим примером - речь именно про принадлежащий мне сервер. Да, отдающий другим данные, на определенных условиях.

И если законы о защите частной жизни детей от террористов у нас по прежнему в силе - то как тогда разруливать ситуации когда размещение мной - их не нарушает а вами - нарушает? Будем вас судить?

Как получилось, что вы не нарушаете, а ваш пользователь нарушает. Вы в разных юрисдикциях? Даже если так, нет никакой проблемы со скачиванием (кроме копирастической, которую и предлагают отменить). Пользователь посмотрел запрещённый ролик, осудил, пошёл дальше - в чём проблема? Вот если он начал его "использовать" - делать ремиксы, распространять, это уже другое.

Ну например варианты:

  • это хоумвидео с пляжа мое. в том числе с детьми (моими), голыми. И мной оно было выложено с доступом только по ссылке.

  • это "хоумвидео", 18+, модельрелизы у меня приложены но в них прямо указано что модельрелизы подписаны для моего сайта и есть отметка что записи нужные по https://en.wikipedia.org/wiki/Child_Protection_and_Obscenity_Enforcement_Act aka 2257 records) у меня хранятся...вот только наличие у меня этих записей - НЕ значит что они будут мной предоставлены кому попало (там персональные данные) при этом любой ресурс кто этот контент показывает - обязан подтвердить что у него они есть. Прикол американской юрисдикции.

  • это (ну например) фрагмент из Железного Неба (маленький и я допустим знаю что копирасты за него полезут) но вот только...там свастики ж везде. Сколько там в России за демонстрацию свастики дают? :).

  • опять фрагмент с Железного неба но место где посол Индии когда все видят свастику у него на кольце - начинает объяснять что это символ мира...и из контекста понятно что тут на оправдание - не натянуть

  • в ролике - все пьют, курят, тыкают членами в друг друга, орут Хайл Зеленский и рассказывают что Путин так боится проиграть что уже сбежал во Владивосток. Вероятно нарушает законодательство России. Если я не в России а вы в России - у вас видимо проблемы.

  • в ролике - официальная позиция России по СВО. Если я в России а вы на Украине - у вас вероятно проблемы за распространие пропаганды.

  • Ролик нарушает вообще все что только можно но вот только мне - плевать, сознательное нарушение законов с моей стороны. Либо потому что принципы либо потому что считаю что не догонят.

  • а что значит - распространять? Peertube ж указан. Допустим это старый инстанс и ролик только в P2P-режиме, пока вы его смотрите - вы его и раздаете тоже, потому что это torrent с webseed (в Peertube 6.0 насколько помню этот режим окончательно выпилили но только потому что не особо он полезен а проблем - хватает)

Хорошо, что вы всё подробно написали.

Если пользователь лишь посмотрел такой ролик и больше ничего, пока за это нет ответственности в известных мне юрисдикциях.

Если же брать ситуацию с p2p-сетями, через которых прошёл такой трафик то (по крайней мере в РФ) пользователь рискует арестом всей техники в собственности как орудия преступления и долгих разбирательств, чтобы доказать, что у него не было умысла в транзите именно такого трафика. В общем, приятного мало, технику если и вернут, но не в том состоянии, в котором забрали, и через многие годы. Может, и посидеть придётся в СИЗО.

Отмотав тред наверх я увидел, что всё началось с обучения на проблемных данных. Тут я не вижу отличия с тем, что пользователь сделал генератор случайных текстов, а он вдруг выдал статью с критикой СВО. Это пользователь виноват, что допустил такую возможность, и она реализовалась. Так же, как и обучая нейросетку на котиках, если она вдруг нарисует свастику (потому что обучающая выборка была отравлена котиками, расположенными в виде свастик), виноват пользователь, что сотворил такое создание, хоть и неумышленно.

А разве с текущими законами - это не личные половые трудности производителя? И платите компенсации или еще как договаривайтесь. Можете регрессный иск подать брендинг агенству но это уже не проблемы Иннокентия с его дочкой а проблемы производителя водки.

Почему это должно поменяться?

Проблема в том, что эти данные зачастую принадлежат пользователям

Нет. Ни в одном лицензионном соглашении крупного Web 2.0 сервиса данные де-юре не принадлежат пользователю.

Вот представьте, жил-был некий Иннокентий

Приятно услышать что-то про себя.

записал как она рассказывает стихи собственного сочинения в ее уникальном стиле со сцены, и выложили на ютуб

Это ошибка. Зря.

обучалась незаконно на данных с ютуба, и в том числе конкретно и видео Иннокентия, хотя он такого разрешения не давал

Давал, когда начал пользоваться YouTube.

Ну, что вы, как дети малые, ей-богу... Ваши данные - где бы в интернете вы их ни опубликовали - почти никогда вам не принадлежат.

Давал, когда начал пользоваться YouTube.

И это может не значить ничего. При этом возможно в законах его страны есть жесткая норма что такие разрешения - недействительны в его случае (он в принципе недееспособный) либо у него есть право его отозвать по желанию (например у несовершеннолетних такое право обычно есть (voidable contract), контрактов по принуждению это тоже обычно касается).

Авторские права на эти данные, вроде ж в статья явно указали?

Главный вопрос - ЗАЧЕМ?

Оно мне надо?

Ожидание:

Как должен выглядеть мир с ИИ
Как должен выглядеть мир с ИИ

Реальность в том, что вы так удачно нагенерировали вот в этой картинке:

Молодец, буратинко, нагенерил.
Молодец, буратинко, нагенерил.

Если почитать, что делает Самсунг, например, https://account.samsung.com/membership/policy/privacy то тут только в пору ржать без остановки. Вам на телефоне предоставляется отличный сервис, который ИИ всё что угодно. Но по факту, это всё что угодно просто грузится в генеративные модели для обучения этих моделей.

А что они делают с этой информацией? Там дальше написано. Реклама и маркетинг.

Каждая аппка обзавелать новой кнопочкой "ИИ". Только толку от этого вообще никакого. Иногда я могу запихнуть что-то в ЧатГПТ и попросить выжимку. Или поискать в ГПТ вместо поисковика.

Иногда я генерю монотонный код на ГПТ, но особой помощи в дебаге он не приносит. Простые кейсы можно раздебажить самому, а сложные он дебажит через жопу.

Иногда запихиваю в него логи линуска, когда рушится какой-то драйвер, и иногда он мне говорит какой драйвер рухнул. Тогда я патчу.

Но, вот пример из реальной жизни. Жене надо прочитать документ в 100 страниц. Документ на английском. Я хочу его по-русски. Ура! Мы живём в мире помощников! "Щас всё устрою, дорогая" - говорю я и жёстко обламываюсь. Документ - это PDF. Надо сохранить разметку и картинки.

После 20 минут лазания в интернетах, я обнаружил, что ни платная подписка на ГПТ, ни Копайлот нисколько не помогают. Есть какие-то сайты, на них просят 10 баксов за 100 страниц перевода. И сайты зареганы в китае, непонятно что за модель они пользуют.

Когда я сижу на работе, я ищу ПО для распознавания инвойсов. Прям так я пошёл и нашёл что-то. Microsoft Document Intelligense как-бы работает, то в реале не больше 80% успеха. После гугления на целый день, я обнаружил, что какая-то контора готова со 100% вероятностью распознавать инвойсы за приличные деньги. Они просто используют Microsoft Document Intelligense для 80% распознаваний, а остальное пропускают через кучу индусов.

Собственно говоря, о том же и новости про Амазон и их автоматические магазины.

Все эти "Открытые" ИИ нихрена не открытые. Ими владеют те, у кого мощности и данные. У нас есть гугл, майкрософт, опенэйай, и ещё пара игроков. И всё. И никто из них не будет использовать ИИ для того, чтобы делать что-то, кроме зарабатывания денег.

Нас, как баннерами, облепят голосовыми помощниками и AI ассистентами, в которых развернётся ожесточённая борьба за первое место в поисковой выдаче. Ведь, в отличие от гугла, где у второго места будет хоть какая-то конверсия, то на "найди мне аптеку" мой ассистент будет отвечать только одним пунктом. Тебе не предложат выбор аптек. Тебя просто направят в аптеку.

Чего мы хотим - ИИ для чего-то крутого и полезного.

Что мы имеем - ИИ для продажи и повышения конверсии, и ничего особо другого.

ИИ никогда не захватит мир и не начнёт войну. Он будет просто ходить по пятам за человечеством и впаривать новую банку спама тому или другому.

Мне кажется, что вот этот древний ролик Монти Пайтона про Спам намного лучше отражает реальность ИИ.

Кратко: автор не смог найти программу для перевода PDFок с сохранением форматирования. Поэтому в мире уже ничего хорошего больше никогда не будет, всё пропало.

Хорошего и без подводных камней, пожалуй да, не будет. Ведь действительно, все скатится к ИИ продавцу, который к тому же четко знает все твои слабости и болевые точки и может втюхать любой товар с вероятностью в 98%, либо подкинуть в нужный момент товар который ты с вероятностью 100% купишь. Нихрена хорошего я в этом не вижу.

Как и в DeepFake технологиях. Уже сейчас политехнологи во всю это тестируют, вбрасывая фейки и замеряя настроения общества. А завтра какой-то политик что-то эдакое ляпнет, а если нужно откатится — свалят на deepfake.

Я уже молчу о том, что в первую очередь произойдет милитаризация ИИ технологий. Информационные войны, ИПСО различные, кража личностей и продаваны роботизируемые.

Но у меня складывается ощущение, будто никто не видит или не хочет видеть, к чему все это катится. Никто не будет вкладывать астрономические суммы в ИИ просто так. Гуглы, openai и прочие, не из любви к тех.прогрессу это делают.

Запретбук уже не раз прихватывали за причинные места за то, что соц.сеть манипулирует общественным мнением. За однобокую подачу информации, за двойные стандарты и т.д ИИ сделает это все еще эффективнее. И будут боты которые задают настроение в комментариях и другие ИИ приблуды, что бы ты видел все положительное про условного Байдена и не капли хорошего про условного Трампа. А это только начало.

Никто не создает ИИ из альтруизма, за этим стоят конкретные задача поставленные конкретными ведомствами. Манджорни и чат гпт просто открыли доступ к своим наработкам, ограниченным. Что бы люди дообучали эту фиговину, плюс сети учатся определять поведение людей, их характер и т.д Если ты что-то получаешь бесплатно — значит ты и есть товар.

Так что лично я совершенно никакого оптимизма не испытываю по отношению к ИИ.

ИИ это просто инструмент. Как его используют люди, дорвавшиеся до власти, это другой вопрос. Идеально людей вообще отлучить от власти. Власть ИИ точно хуже не будет.

В некотором смысле это не так уж и плохо. Мы по умолчанию привыкли доверять обзорам в интернете, комментариям на форумах, статьям в газетах и прочим проявлениям "разума толпы". В большинстве случаев это действительно работало, но эксплуатировать подобное доверие можно было тривиально.

Если же мы будем жить в мире, где все знают, что случайно взятая статья -- это продукт работы бота, а ролик -- дипфейк, то со временем выработается какой-никакой иммунитет. Ну вот вы говорите, "политик ляпнет". А когда он не ляпает -- он от себе говорит или спичрайтер написал, пояснив, что именно так выгодно сказать? Или в рекламе девушка в белом халате витамины показывает -- это типа медсестра или просто актриса, которую зачем-то в халат облачили?

Такого рода штуки используются десятилетиями, если не веками, и работают ровно потому, что они не являются частью нашей реальности в бытовом общении. Мы привыкли, что говорим то, что думаем сами (а не спичрайтер напел), а девушка в халате действительно медсестра. Вот давно пора учиться не хватать "Запретбук" за места, а просто игнорировать то, что там написано.

Хм, ну и кому же верить? Статьям в рецензируемых журналах? А если и там "заказуха"?
Свой опыт, к сожалению, очень ограничен...

Как вариант, в перспективе будет некое "доверие лейблу" за неимением лучшего. Вы идёте в книжный магазин и видите кучу белых книжек со зверюшками, и на всех большая надпись O'Reilly. А кто автор? Да так, мелким шрифтом в углу. Кого волнует. Есть логотип издателя и зверюшка, значит, примерно понимаем, что нас там ждёт.

Люди не замечают ничего потому что в той или иной степени являются эгоистами, к примеру есть у меня друг которому не важно какие там авторские права нарушаются и какие последствия за собой это повлечет, пока его это не касается (так он думает) и он может пользоваться чатгпт то ему абсолютно всеравно что там происходит в мире, и почему то я уверен что он такой далеко не один

ну попробуй у ИИ выпросить инструкцию к конкретной модели железа какого нибудь, не шибко распространенного. Я пытался к фаерволлу соник волл. Все что может ИИ дать общую инструкцию что делать, а то как реализовать конкретный запрос на конкретном по (потому что от версии к версии кнопки меняются, разделы меняются и .тд. а мануалов в интернете нет, а производитель все нужные шаги не описывает) то по итогу ИИ вообще ничего не может, а тем более сказать что делать если эта общая инструкция не совпадает. А если у тебя мультивендорная среда и у производителя А какая то функция названа АУ, а в производителя Б та же функция названа БУ, то ИИ вообще сойдет с ума т.к. для него это две разные вещи

То есть, если ИИ не может то, что не могут люди ("мануалов в интернете нет") - то ИИ вообще ничего не может?

Hidden text

да круто, найти инфу на сайте вендора же только ИИ может, хотя по сути то что говорит копилот это только компиляция той информации что содержится на выбранных им сайтах, на первых страницах поиска и никаких добавочных интеллктуальных данных не содержит. И, если другой человек не написал ранее пост по нужной тебе теме, то никакой ИИ новую информацию не принесет. конкретно в этом примере сложность была в том, что в мануале соник вол не было инфы о том что надо еще роуты настроить, а не только вкладку впн и объекты настраивать. И ИИ обладая "всеми знаниями о фаерволах" соотнести и дополнить ответ не смог

Ну ладно, я вот, например, специалист в NEC SV 9500. У меня есть сертификат. Попробуйте, выудите эту инфу из ГПТ.

Вот с клиентами вы общаетесь через какой нибудь облачный сервис(жира и тп), где описываете при каких ситуациях что настраивать. А потом раз, и какой-нибудь условный гугл(владелец сервиса), возьмёт и скормит вашу переписку. И будет потом ИИ выдавать аналогичные вашим советы, без сертификата :)

А мне вот надо было из pdf документа-справочника, который генерируют наши доблестные госорганы(ЦБ) в ручном режиме видимо, потому что формата там никакого нет, вытащить список данных ФИО, дата рождения, организация и тп с разделителями, чтобы сохранить в csv и затащить. И это даже получилось. Правда я использовал какой-то бесплатный софт и работал он через раз. Но, потенциал был действительно хорош для автоматизации процесса :)

Ну, веселье только начинается.

Ироничен вопрос с материалами, учитывая, что в гонке участвуют китайцы, которых такие мелочи часто не волнуют

Почему бы не предоставить возможность обучения на "контенте" общения с реальными пользователями? Была бы возможность, я бы лично влил новой информации.

Даже профессия такая есть ИИ тренер, специальные люди отвечают так, как надо отвечать и поправляют ИИ, но на самом это происходит и так, под каждым сообщением ИИ есть палец вверх и вниз, эти данные потом могут использоваться для файтюнинга моделей.

При прямом вопросе (речь идет о бесплатном copilot, который вроде как с gpt4), о том, что есть ли у него возможность обучения на пользователях или нет, заявляет - категорически нет. Типа все данные имеют актуальность на 21 год.

По косвенным признакам можно понять, что у ИИ-генераторов серьезные проблемы с сокрытием источников данных, которые пакуются в базу данных при обучении. Авторы часто узнают в "сгенерированных" творениях ИИ свои работы. Не получается изменить исходники настолько, чтобы при выдаче они стали неузнаваемыми авторами, но при этом не превращались в галлюцинации. Сэм Альтман придумал способ уйти от претензий - рассказать сказку о "синтетических данных". То есть о том, что ИИ совсем не использует сторонние данные, а весь контент для собственного обучения синтезирует сам, и все совпадения случайны.

"запасы ценной информации в интернете скоро иссякнут под натиском ИИ-компаний". "стали настоящей "цифровой кровью", питающей бурно развивающуюся индустрию искусственного интеллекта".
"Алгоритмы продолжали безнаказанно высасывать данные из YouTube, превращая видео в топливо для развития ИИ".

Можно человеческим языком написать, для чего конкретно этих данных недостаточно, и почему требуется еще больший объем, или даже постоянный поток?
Эти вычурные выражения - "кровь", "топливо", "иссякнут запасы информации", "высасывают данные" - ничего не объясняют, а только запутывают.

Данные нужны для создания еще более умного искусственного интеллекта. В статье есть ссылка на работу, в которой описана зависимость интеллекта ИИ от количества данных, на которых он обучался. Будет еще больше данных - будет еще более умный ИИ.

Но что эти данные дадут нового? Ведь по сути основные закономерности в самих языках такие модели давно выучили.(а если нет, то их алгоритм обучения надо признать не эффективным, т к правила любого языка по содержанию в них информации куда меньше всех этих террабайтов) Они умеют связно генерировать текст по любой теме. Пусть даже в форме галлюцинаций, но синтаксически и орфографически верный. Т е дополнительные данные могут дать только то, чего не было до этого в обучающей выборке - разные узкие области в науке, культуре или допустим, какой-то слэнг или языки программирования. Но обучать огромную модель, что бы загрузить в неё узкую тему - это путь в никуда. Во многом здесь лежат источники фаинтюнинга, когда основная модель "замораживается", а обучается только маленький слой поверх. Это конечно моё не авторитетное мнение, но набор данных надо скорее сокращать, чем увеличивать. Болтовня в соц сетях нового не содержит по определению. Как кстати и генерация самих моделей, если только их не перекроят так, что они наконец научатся делать индуктивные рассуждения и искать закономерности в данных по настоящему, как это делает человек. Но этого нельзя сделать оставаясь в рамках обычного трансформера. А пока движения в этой области очень мало. И я думаю, что корпорации не способны сделать этот шаг. Потому что жадность ослепляет. Если такое будет сделано, то на уровне исследователей из научной среды и не факт, что скоро. А включение данных самой модели в обучающую выборку, да ещё безконтрольно (это может произойти, если брать данные просто из интернета) точно прямой путь к переобучению. Включение же узкоспециализированных маленьких датасетов в общий "котёл" не даст нужного качества обучения. Уже слышал о подходе, когда моделе скармливают данные в определённой очерёдности и добиваются лучших результатов, чем просто в случайном порядке. Это на мой взгляд доказательство не верности подхода класть все данные в одну обучающую выборку. Наоборот, нужно сейчас оптимизировать полученные большие модели с точки зрения их потребления ресурсов и возможности дообучения. В идеале должна быть "растущая" сеть, которая увеличивает количество связей в ходе своего обучения, которое происходит постоянно. Начиная с маленького корпуса данных, сеть должна познавать новые данные и обобщать закономерности в них постепенно. Именно так происходит у человека. И пока даже концепции такой в современных архитектурах не просматривается. Обучить сеть на огромном корпусе за раз можно, но получится совершенно иное от желаемого - просто ещё один вид интеллектуальной поисковой машины. Это и видно на результатах, если отбросить хайп.

Насколько я понял из того, что я слышал от Альтмана и Суцкевера в различных интервью и подкастах OpenAI пробуют реально всё. Все стандартные подходы, подходы которые существуют только в теории, хаки, трюки, какие только можно придумать - если что-то показывает хоть какую-то полезность они это применяют. Поверьте всё, что Вы потенциально можете придумать или где-то слышали - они не только придумали и тоже слышали, но и, почти наверняка, попробовали. Думаю команда в Meta или Deepmind исповедуют похожую стратегия.

Иронично, что автор обвиняя корпорации во всех смертных грехах при обучении ИИ накидал в статью нейрокартинок :)

Не удивлюсь, что и сама статья - переработанная генерация. Я вообще подумал что это перевод.

Интересно, что почти одновременно опубликована статья на вполне уважаемом ресурсе, которая практически как близнец этой. Но всё-таки отличается и, в том числе, автором - кто у кого подрезал?

https://3dnews.ru/1102879/the-new-york-times-v-pogone-za-novimi-dannimi-razrabotchiki-ii-ne-gnushayutsya-perestupat-cherez-etiku-i-zakoni

Оба у New York Times. Только местный ссылку дал по тексту, а в конце попиарил себя.

Законы придуманы людьми, и зачастую они несут абсурдные бессмысленные ограничения, противоречащие здравому смыслу. Не нахожу ничего плохого в том, что для развития технологий обходятся мягко говоря не совсем технически рациональные законы, такие как авторское право. Ведь если копнуть поглубже, чел придумавший что-либо уникальное, учился и набирался опыта у разных людей. А закон почему-то не подразумевает поделиться с ними авторскими доходами. Если же это внедрить, то еще больше разрастется штат контролирующих и юридических органов, не участвующих в производстве материальных благ для человечества. Может лучше двигаться в сторону отказа от всякой непродуктивной дичи, без пользы прожигающей несметные ресурсы. Лучше законы привести в соответствие с техническими реалиями, чем усугублять ситуацию абсурдными попытками зарегулировать в изживших себя правилах.

Я не могу для себя определиться с авторским правом. Мне сложно представить капиталистическую страну совсем без авторского права - допустим я хочу продавать какую-ту штуку/результат моего труда. Допустим ценность именно в небольшой модификации/улучшении которое я внёс. Я начинаю продажи и на следующей неделе эту модификацию копируют крупные игроки на рынке. Теперь у меня нет перед ними никаких преимуществ, только недостатки связанные с маленьким размером моего предприятия. Довольно деморализующее для меня положение дел - вряд ли я вообще затею дело, если не будет никаких гарантий. Такое происходит и сейчас, но если ты всё сделал правильно у тебя есть возможность получить вознаграждение - через суд или лицензию. Это относиться не только к чисто материальным продуктам, но и к фильмам, книгам, коду и даже к фотографиям и изображениям.

Полное отсутствие авторского права оттолкнёт многих, но не всех. Наличие хотя бы программ с открытым исходным кодом подтверждает, что прогресс будет идти, даже несмотря на то, что люди способные к созданию инноваций не получат материального вознаграждения. Очевидно, однако, что скорость прогресса сильно замедлится. Если бы все страны одномоментно отошли бы от капиталистической модели - это могло бы сработать, однако одна или несколько стран принявшие законы уничтожающие авторское право - обречены на поражение в конкурентной борьбе - замедление скорости экономического роста прежде всего из-за отсутствия стимула/мотивации (лишь малый процент населения готов к по-настоящему бескорыстным поступкам) и отток мозгов и крупных предприятий из страны - если это разрешается законами страны. Т.е. наличие даже нескольких стран с капиталистической моделью и защитой авторского права способно отравить всю систему.

В идеальном мире, где основные блага производятся полностью автоматизированной цепочкой производств и где эти блага распределяются в объёмах не ниже, но и не выше определённых рамок для каждого индивида, может полностью отсутствовать понятие авторского права как мы его видим сейчас. Т.е. человек всё ещё может быть вознаграждён обществом за его вклад, но не может воспользоваться карающими институтами государства для того, чтобы ограничить других людей в возможности использовать результаты своего труда по их усмотрению. Т.е. нет и не может быть оправдания, что авторское право нужно тебе, чтобы выживать и кормить семью - всё это и гораздо более этого уже гарантированно планетарными системами производства и распределения.

А в настоящем я, пожалуй, больше за, чем против авторского права.

Капитализм себя изжил больше ста лет назад, существуя с тех пор только за счет грабежа колоний и эксплуатации народов в своих или других странах. Без притока материальных благ извне, он потерял способность развиваться и улучшать жизнь общества. По сути это глобальная паразитическая система, в которой меньшинство живут за счет отъема благ у большинства. И система авторских прав работает в том же ключе, в большинстве случаев препятствуя прогрессу.

Как разумная и полезная для развития общества альтернатива - автор конечно должен получать вознаграждение за рацухи, открытия, изобретения, гуманитарное творчество, и тд. Но это должно иметь хоть и крупную, но разумную и ограниченную во времени меру (скажем разовое вознаграждение), чтобы не становиться источником дальнейшего паразитического существования как отдельных лиц, так и целых корпораций. И не должно тянуть за собой слишком большую свиту чиновников, юристов, и прочих причастных лиц, по сути не производящих благ для общества, но пожирающих заметную их часть.

Так есть же законодательный срок, после которого результатом автора могут пользоваться все, без вознаграждения. Тут обычная бизнес модель. Прежде чем стать автором чего то, человек мог потратить много ресурсов для этого(научные исследования, например). Он же должен отбить расходы и что то заработать?

Думаю, что основной бедой станет гиперцентрализация капитала в руках основных ИТ гигантов, т.к. все подсядут на их сервисы и бабки всего мира будут оседать у них, а люди и целые экономические отрасли будут зависеть от их инструментов.

Ну борцы за авторское право на каждый чих в Интернете сейчас изо всех сил стараются сделать, чтобы было именно так.

Потом они поймут, что вокруг море информации - реальный мир, а начальным тренером нейросети может быть менее обученная нейросеть. Вот тогда всё и начнётся.

Ну, суть в том, что википедия, реддит и прочие цифровые медиа - поставщики мусорных данных, генерируемых косноязычными имбецилами.

Использование текстов любых произведений для обучения ИИ моделей, путём извлечения из текстов токенов (слов, сочетаний слов, т.п.) очень трудно назвать нарушеним авторских прав. В больших текстах двух любых аторов всегда можно найти совпадающие слова или сочетания слов. Никто не считает это нарушением авторских прав.

Ведь тексты авторов, которые боятся за свои права, используются не для создания другиз произведений, а совсем для других целей.

ТТогда почему бы не назвать нарушением аторских прав чтение книги и запоминание интересных мест читателем? Или ещё вариант - я взял книгу, поехал на дачу, стало холодно, дров не оказалось, и я сжег эту книгу в печке, стобы согрется. То есть полностью использовал это произведение. Нарушил ли я авторские права?

Короче, все стенания авторов о нарушении их прав - это просто желание содрать деньги с богатых компаний.

За ИИ будущее.Понятно что без жертв в науке ничего не получится.Делайте выводы,какими приложениями и браузерами пользоваться.И будет вам счастья;)

Чуток разочаровывает, как много хайпа люди, в первую очередь на хабре поднимают вокруг "за ИИ будушее". Блин, так проблема в том, что мегокорпы украдут все данные на свете, закроют все данные на свете и "ограничат ИИ для широкой публики" по требованиям правительств и без.

как было с системой поиска по лицу раньше, в какой-то момент компания продалась правительству и полностью закрыла функционал для сторонних юзеров

Два вопроса, один по поводу авторских прав, второй к создателям ИИ.

  1. Естественый селовеческий интеллект за всю свою жизнь способен принять на вход порядка 10^9 токенов. И этого вполне хватает чтобы базово обучиться и научиться добывать информацию. Может у тех кому всех книг мира не хватает проблемы м подходами?

  2. А почему никто не хосет предъявить какие-либо требования в нарушении естественному интелекту т.е. человеку за то что он обучается на данных созданных другими людьми, а не просто их потребляет?

Вообще-то раньше люди книги и журналы покупали. Таким образом, за "данные созданные другими людьми" было принято платить.

Библиотеки

Библиотеки книги приобретают. Так что в данном случае тоже оплата есть, только платит государство.

Васян, выложивший DVD на торренты, тоже не украл его, а честно приобрёл.

Только вот выложенным на торрент может пользоваться неограниченное число людей параллельно. А книгой в библиотеке - только один человек одновременно.

Аргумент, который тыщу раз разбирался. Допустим, делаем ПО "Цифровая библиотка", которое отслеживает, сколько пользователей одновременно смотрят фильм/читают книгу. Покупаем например 10 копий фильма, и пользователи смотрят их, занимая очередь, не более 10 одновременно. Думаете, у копирастов не будет претензий к этой схеме? Как бы не так.

Ну да, точка зрения копирастов не во всем совпадает со здравым смыслом.

Что не означает, что полностью противоположная точка зрения будет со здравым смыслом полностью совпадать.

Так, по здравому смыслу, сколько раз нужно платить автору?

Фиксированное число раз (в пределе - 1 раз, и экземпляр произведения пошёл по рукам), или за каждый просмотр каждым человеком платить заново (модель, когда купить произведение нельзя, но можно купить 1 просмотр)?

По здравому смыслу - автору востребованных произведений нужно платить столько, чтобы у него была возможность заниматься созданием таких произведений.

В текущей реальности - для видео уже полно вариантов с абонементом (библиотека, ага) , когда за каждый из просмотров платить не надо.

По сути, так сейчас и происходит. Копирасты 1 раз платят автору самый минимум, чтобы ему было интересно этим заниматься, а всю основную прибыль кладут себе в карман.

Были попытки искуственно реализовать схему с одним пользователем цифрового контента, вообщем копирастам показалось мало.

Ну и в библиотеках то может пользоваться один но вот только ксерокс там тоже обычно есть и вполне себе дают копировать и сотнями страниц (да - не бесплатно, тонер не бесплатный).

Вообще-то раньше люди книги и журналы покупали. Таким образом, за "данные созданные другими людьми" было принято платить

Но есть нюанс. Если раньше купил журнал, и учись по нему сколько хочешь, то сейчас правообладатели думают, как бы с обученных моделей слупить денег больше, чем стоит 1 раз прочитать произведение, а то и вовсе запретить обучение.

Есть ньюанс - базовая нейросеть настраивается эволюцией

Я, честно говоря, не понял сути истерики в статье... Точнее самой проблемы "нехватки" информации для обучения (я не беру сейчас тему авторских прав, как написали закон в одну сторону, так напишут и в другую).
Ок, китайцы обучили свою сетку на 3,6 триллионах токенов. И? Так плохо учили, что нужно еще?
Сравнение с кровью попахивает желтой прессой на мой вкус - информация не исчезает после ее потребления. В чем проблема-то? Эти 3.6 триллионов токенов никуда не делись. Или ИИ плохо учится и идет попытка объемом компенсировать кривость алгоритма? Или?
я надеюсь, понятно выразил свой вопрос.

Жизнь не стоит на месте. Появляется новый жизненный контент. Если остановить обучение ИИ, то через сто лет, оно будет выдавать перлы на "старорусском" о быте людей 100 лет назад. Наверное так :). Видимо ещё присутствует погоня за актуальностью данных, как у новостных каналов :)

Да, конечно, актуализацию данных - это мне понятно. Мне не понятно, почему такая гонка именно за объемом? Единственное приходящее мне на ум объяснение: берем не качеством, а количеством.
Но не только это. Ведь статья про то, что они именно книги которые еще не в паблик домейне начали загружать. А какую актуальную информацию может дать "Властелин колец"? Или "The True Meaning of Smekday" - книга 2007 года. У меня ок с английским, но она для меня была на грани - просто необходимо понимать культурный контекст, чтобы понять шутки. Мне приходилось гуглить фильмы 1960-х
Зачем ИИ понимать шутки, основанные на фильмах середины прошлого века? Или они-таки пытаются сделать эмуляцию современного человека чтобы он Твитер мог вести?
Но в таком случае - это больше похоже на безумие, чем на практический подход. Либо - опять же - статья желтая, и нам дали только пену, а под водой основная суть, про которую никто не говорит.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации