Комментарии 172
ИИшки такие:

Ну погодите, массовые говноданные сгенерированные ИИ где в основном обитают? Правильно, в соцсетях. Просто перестаньте их скармливать роботам и все будет хорошо.
Звучит смешно, конечно. Чтобы ИИ не стал тупым ему надо забанить тикток :-) Все как с детьми, короче.
А где брать данные? Гугл вон немалые деньги заплатил за доступ к обучению на реддите. Умные книжки чат-боту не помогут быть человечным. А это главное для чего он нужен.
А где брать данные?
Там же где люди берут. У учителей. Долго и нудно учим под присмотром специально обученных специалистов, которые смотрят, что именно ученику подсовывают и на то, что 'ученик' выучил тоже смотрят.
Ну да, дорого, но все равно масштабируется, потому что учить надо один раз, а результат обучения используется многими людьми.
Сомневаюсь что ИИшку нужно обучать лишь один раз. Это ж не человек, по сути это архиватор с очень большим уровнем сжатия. Допустим, вчера теорема X не была доказанной, а сегодня она уже доказанна - как предположите доучить готовую модель чтобы без переобучения сначала?
Сомневаюсь что ИИшку нужно обучать лишь один раз.
Не в этом смысле один раз. А в том что любой текущий, как тут сказано 'архив' - спокойно масштабируется на нужное количество пользователей копированием и новым железом.
В отличии от самих людей - если нам нужно на 10000 экспертов больше, то каждого из этих 10000 придется учить заново.
Что при поступлении новых данных придется сети и естественные и искусственные дотренеровывать - это понятно.
Они и так давно под присмотром учителей. Есть специальные коуч-модели которые проверяют исключительно соответствие фактам и связность ответа. Именно поэтому ГПТ после 2 модели такие колоссальные скачки делал. Достиг того уровня когда нейронка почти сама себя учит.
Проблему отсутствия данных это не решает. Заканчивается опенсорс для обучения моделей. Да и в принципе материал человечества уже заканчивается.
Нет проблемы отсутствия данных. Материала человечества достаточно, что бы обучить человека. Если обучить AGI возможно, данных от человечества для этого будет более чем достаточно. Все «проблемы отсутствия данных» лишь демонстрируют недостаточный уровень обучения. Но прогресс движется очень быстро
Есть специальные коуч-модели которые проверяют исключительно соответствие фактам и связность ответа.
Я не про модели, а именно про людей. Вот сидит 100000 ученых мужей по разным специальностям и дают задачки/проверяют ответы.
материал человечества уже заканчивается.
Более того, заканчивается базовая гипотеза о том, что «все знания есть в материальных источниках».
Остаётся тонкая загадка личного, живого человеческого обучения, общения один на один, то самое из образования «что остаётся, после того, как вы забудете все, что учили».
Это, в разрезе «развития ИИ», видимо, уже плюс-минус эквивалентно задаче «создания цифровой копии сознания»...
Сотни лет люди учили друг друга, что земля плоская, накрыта хрустальным куполом, а сверху к нему звёзды гвоздями приколочены.
Некоторые до сих пор во все это верят. Чему они научат ИИ?
Там же где люди берут. У учителей.
Толоку для индусов и мамочек в декрете, эти за пачку риса работать готовы.
Ну погодите, массовые говноданные сгенерированные ИИ где в основном обитают? Правильно, в соцсетях.
Там люди целые сайты генерят с помощью нейросетей в надежде поставить Google Adwords или РСЯ и деньгу зашибать. Уже несколько лет так делают.
И как с деньгами? Зашибают?
В начале точно работало, судя по блогам. Сейчас уже не знаю точно как у них дела.
Я недавно видел статью, в которой говорилось про youtube канал Screen Culture, который клепает AI-трейлеры, зашибает миллионы просмотров, часть денег от рекламы пересылает киностудиям и все счастливы, кроме пользователей.
И как с деньгами? Зашибают?
Зашибать-то зашибают, но есть нюанс.
Так разум ребенка это и есть нейросеть в процессе обучения.
Цифруйте книги и архивы, пришла пора!
Так приходит время специализированных моделей, обученных на нормальных книгах, учебниках, проф.статьях из журналов.
И кто бы им ещё объяснил, что от однополых пар и трансгендерных людей детей не нарождается... А то ведь моделям обученным на контенте нагенерированным вокнутым поколением это невдомёк.
Хорошие и нормальные книги, статьи в журналах стоят дорого, и по моему опыту, ИИ они недоступны, только ссылки на них.
Да в последнее время и книги тоже загрянены копипастой из книг предыдущих лет.
Книги книгам рознь. Есть качественные книги и сегодня, просто их число исчезающе мало. Но это уже зависит от читателей - что они купят, какой сигнал дадут издательствам...
книги тоже загрянены копи
пастойрастами
There, FTFY.
"В последнее время"? Я лет двадцать назад купил книжку про архиваторы. Потом только понял, что это была компиляция форумных постов с narod.ru и справок самих архиваторов, которая выдается по zip.exe --help.
Как будто люди пишут в интернете что-то умное. Даже сейчас ИИ уже лучше по IQ и куда интереснее чем бесконечные спори о политике, теории заговора, типичные комментарии, порно и т.д. Исключения есть но их максимум пару процентов.
Не умнее гуппи
То ли дело теории заговора, типичные комментарии со списками, смайликами и em-dash, и порно сгенерированное нейросетями! Вот это интересно!
Причем тут em-dash?
Нейросети очень любят их использовать (потому что это правильно), а люди -- нет (потому что на клавиатуре отсутствует). Ладно всякие письма, там и почтовый клиент может подсказать, а вот в комментариях они почти наверняка указывают на нейросетевое происхождение.
Ваши слова для меня звучат как «не курит, не пьёт, не харкается по сторонам и не матерится — очень странный и подозрительный тип, наверняка это маньяк-педофил да ещё и каннибал придачу».
Но ведь правда прикольное наблюдение про тире. Количество людей, готовых поставить специальную раскладку или готовых выучить номер кода символа полноценного тире исчезающе мало)
поставить специальную раскладку
Есть некое подозрение, что на смартфонных клавиатурах оно легче делается. И даже провоцирует его использовать. Потому что минус просто слишком коротко выглядит.
На iOS оно легко ставится, проще чем дефис. Но за исключением этого хороший маркер.
Это говорит о том, что типографикой мало кто интересуется. А её надо бы в школах преподавать.
Есть редакторы, наборщики, верстальщики, дизайнеры, которые в курсе чем минус отличается от тире и дефиса и ставить не то не туда альт ноль один пять один рука не поднимается.
её надо бы в школах преподавать.
Даже для меня это новый уровень граммарнацизма. Ну ладно, запятая, не там поставленная, замечательно ломает встроенный парсер, но как на восприятии смысла сказывается минус вместо неразрывного тире?
Не только тире. Кернинг даже в логотипах ужасный, трекинг. Форматирование строк в документах «по ширине» с отключёнными переносами. Тогда пробелы в строках длиннее слов. Типографика текст делает нормальным.
Минус - это арифметическая операция, а тире - логическая связка. Результат операции будет разный.
Типографика - это хорошо. То, что вводить корректные символы намного сложнее "поддельных" - нехорошо.
В дополнение к тире, надо не забывать, что правильные кавычки - это когда “так” или «эдак», но не "вот так". А многоточие - это один символ … вместо ...
Кстати, во многих довольно авторитетных англоязычных источниках тире пишется без пробелов по бокам—вот так.
людей, готовых выучить номер кода символа полноценного тире исчезающе мало)
Alt-0151
, чего там учить™? Кстати, ™ — это Alt-0153
.
(Наставительно) А некоторые вообще LaΤeΧ'ом печатают.
Я освоил альт+0151
А я Microsoft Keyboard Layout Creator и не парюсь пока. Все равно с тех пор как ₽ появился правый альт не совсем альтом стал.
Хотя народ рекомендует win-ю
Всё логично. Если ИИ обучается на данных от ИИ это тож самое что кормить змею её собственным хвостом. В итоге получим деградацию моделей и тонны бессмысленного контента
А как же люди? Они ведь тоже обучаются на данных других людей, но почему то двигают науку и прогресс в целом. Почему с моделями не может быть так же?
Почему с моделями не может быть так же?
Вероятно потому что они не люди)
Хороший вопрос. Люди обучаются на учебниках, обучающих материалах, методичках и тп. Небольшое количество выверенного и точного научного знания. LLM так не может, им кормят всё подряд. Если бы вас вместо учебников учил интернет - соцсети, двач и реддит - многому бы вы научились?
>> Люди обучаются на учебниках, обучающих материалах, методичках и тп.
Как будто в них мало мусора и написаны они не людьми для людей с целью того, чтобы их как можно больше людей прочитало. Тут не так давно были споры о том, что если в выражении a:x(y+z) между x и ( отсутствует *, значит 1) это умножение происходит вперед деления; 2) что знак : превращает это выражение в дробь без образования скобок в знаменателе; 3) что у этого выражения есть арифметический и алгебраический подход; и ещё какие-то бредни сумасшедшего. И ведь мало того, что эти теории генерировали на основе точных и выверенных знаний люди с неплохим высшим техническим образованием, еще и находились советские учебники поддерживающие безумные взгляды на это.
>> многому бы вы научились?
Мы все будучи детьми съедали тонны информационного мусора. И от бестолковых взрослых, и от избалованных сверстников. Во взрослом возрасте тоже не особо все поменялось, на самом деле. И религиозное поклонение науке в глазах человека с опытом взрослой жизни ничем не отличается от поклонения разным веткам одной старой книги - "а сами то вы эту Теорию о происхождении видов открывали? Сами пробовали анализировать виды птиц на Галапаггосах?" (с) В Филадельфии Всегда Солнечно.
Так что да - многому. Действительному критическому мышлению в первую очередь.
PS: ну кроме двача - там совсем уж мусорка для не одаренных умом.
Конечно в них мало мусора. Учебники - это как сахар-рафинад, высокое соотношение сигнал/шум. Столетиями человечество решало задачи - как наиболее кратко и быстро передать другому человеку знания.
Критическому мышлению и научному подходу тоже учат, именно эти знания потом помогают не утонуть в информационном шуме. У LLM этого нет.
В науку верить не нужно. Современное научное знание выводится из базовых предпосылок по определённым правилам, подтверждается экспериментами и объясняет существующий вокруг нас мир. Если находим где-то то, что существующие теории объяснить не могут - отлично! Придумываем новые, более комплексные, чтобы они объясняли и эти новые факты. Как с Ньютоном и Эйнштейном.
>> Конечно мало. Учебники - это как сахар-рафинад.
Такой же рафинированный ИИ и получится. Продвинутая поисковая система.
>> Столетиями человечество решало задачи - как наиболее кратко и быстро передать другому человеку знания.
Пропущено "нужные" знания. Вы так говорите, будто они 1) охватывают всё, 2) составляются беспристрастно, 3) какой-то высшей силой, более совершенной чем человек, 4) по всем трем параметрам глобально идентично. И если проблемы существуют даже в учебниках по точным наукам, то в естественных науках это и вовсе смерть критического мышления - классическая его подмена на "жрать все подряд, и выбирать по ситуации и комфорту".
Если вам действительно повезло ни разу не спорить с человеком, обосновывающим откровенную ерунду тем, что он прочитал её в учебнике или книге - то собственно это хороший пример минусов такого "рафинированного" подхода. ИИ просто будет эдаким блаженным, живущим в собственном мире синтетическом организме.
>> В науку верить не нужно
Согласен, я собственно "веру" в неё и критикую. Но увы, верунов достаточно.
2) составляются беспристрастно
А Вы нам не покажете составленный пристрастно учебник геометрии или матанализа? Ну в крайнем случае физики или химии? А то мужики-то не знают!
Откройте советские учебники 20-30гг.
Откройте советские учебники 20-30гг.
Ну так расскажите нам — каких же значений там достигал косинус нуля? Ведь Вы же открывали? Открывали ведь? (ПАДМЕ.ЖПГ)
Все тех же, но исключительно благодаря направляющей силе партии. (вспоминая вступление к знаменитой отмененной логике)
Ну ладно, коли уж чукча — не искатель, то я предоставлю Вам замечательную возможности открыть учебник геометрии 1924 года. Будьте как бобры, найдите мне там что-нибудь про направляющую роль партии. Ну или — задание для альтернатвно одарённых — расскажите нам, неучам, как именно он составлен пристрастно?
Так я вполне искатель и даже сослался на учебник, но не конкретно.
https://techlibrary.ru/b1/2j1j1o1p1d1r1a1e1p1c_2z.2v.,_2s1u1i2d1n1j1o_2h.3c._2t1p1d1j1l1a._1954.pdf
Глава 1, параграф 3, 4 и наверное много где еще, не дочитал.
Допустим, я трачу время и нахожу в заданных параметрах учебник (какие-нибудь религиозные учебники со вступлениями, что все знания от бога и так к ним и надо относиться) - что это изменит? И сразу другой вопрос, допустим я говорю "вы правы, и в этих двух дисциплинах нет пристрастно написанных учебников" - что это изменит?
Я вроде как критикую превращение ИИ в "продвинутый поисковик по учебникам", а вы мне предлагаете видение, где это будет "продвинутый поисковик по учебникам в двух дисциплинах". Правда, скорее у меня складывается впечатление, что Ваш комментарий написан исключительно с целью что-нибудь написать...
Допустим, я трачу время и нахожу в заданных параметрах учебник (какие-нибудь религиозные учебники со вступлениями, что все знания от бога и так к ним и надо относиться) - что это изменит?
Вас перестанут считать балаболом индивидом, крайне небрежно относящимся к точности своих высказываний?
Возможные ответы:
1) Люди обучаются ещё и об реальность: действуют в мире с некоторыми ожиданиями, получают неожиданные результаты, корректируют (как минимум понижают в приоритете) часть ментальных моделей, "ответственную" за ожидание. У LLM такого механизма сейчас нет.
2) Обучение людей и процесс под названием "обучение", применяемый к LLM - это разные процессы. То что у первого есть условно устойчивые траектории не означает что они обязаны быть у второго.
3) Люди двигают науку за счёт обновления корпуса текстов между поколениями - не только включения, но и исключения ("новая теория становится мейнстримом, когда вымирают последователи старой"). При обучении LLM активного исключения текстов не происходит.
тож самое что кормить змею её собственным хвостом. В итоге
...змея редуцируеся до материальной точки!
Будем строить великий фаервол чтобы защитить нормальный интернет от ии мусора)
Пессимистический взгляд для текстовых нормисов.
С картиночными моделями наоборот профит один, теперь, когда на данбуре и подобных сайтах есть куча правильно протеганных генераций, при обучении следующего поколения моделей можно будет учитывать их особенности и генерировать максимально непохожий на ИИ контент. Рисоваки и луддиты замучаются различать и сожрут друг друга на ложноположительных срабатываниях паранойи. Весело!
Так ключевое же тут как раз
правильно протеганных
то есть, как в статье и написано, необходима
маркировка произведённого ИИ контента
Так это и обычный юзер может сделать, в обмен скажем, на некоторые баллы (которые можно потратить на генерение своей картинки).
луддиты проделали за нас всю работу
они, как собачки Павлова, под каждой нейрокартинкой орут AI SLOP, вне зависимости от качества - вот вам и маркировка
но вот с текстом тяжелее - человеки распознаЮт только явные генерации
Это не маркировка должного уровня - это ваша попытка обозвать людей, которым не нравится идея заменять творческую деятельность человека бездумной генерацией машины, луддитами
Моя претензия к ним в том, что они так пишут под любыми нейрокартинками, а не только под плохими. Если бы они критиковали конструктивно, то мы бы с ними не были в состоянии войны
Их поведение
обесценивает труд тех, кто реально хорошо разбирается в ИИ-генерации и реально приложил усилия (я далеко не про тех, кто просто ввел промт в ChatGPT)
создает асссоциацию AI=slop. это обесценивает труд тех, кто создает качественные вещи с помощью ИИ вообще
Это неуважение к технологии и к чужому труду - и к труду ИИ-разработчиков, и к труду того, кто картинку сгенерировал
Кстати, есть и забавная обратная сторона: небольшому подмножеству живых цифровых художников не повезло писать в стиле, очень уж похожем на типичное нейротворчество.
Вот так увидишь картинку - подумаешь что очередной промптхудожник накашлял в ЧатГПТ, а потом откроешь профиль - а там все работы такие, уже лет 10. А ведь 10 лет назад трава была зеленее, Open AI - ещё open, а из нейрогенерации была разве что DeepDream с её собаками из глаз.
Сам этот факт говорит о том, что, объективно говоря, нейрогенерации уже вышли на уровень человека
Если за это платили деньги в течение 10 лет, значит, в этом есть реальная ценность
Это только предубеждения против ИИ не позволяют публике принять нейрокартинки
Моя претензия к ним в том, что они так пишут под любыми нейрокартинками, а не только под плохими. Если бы они критиковали конструктивно, то мы бы с ними не были в состоянии войны
Я даже понимаю, почему так пишут. На некоторых ресурсах AI-"художники" наглухо засрали их тем самым AI Slop, тегировать естественно отказываются, ведь иначе их 'творчество' никто не смотрит и ещё и обзывают тех, кто недоволен в лучшем случае луддитами.
(И это я не трогаю ещё этический вопрос обучения коммерческой нейросетки на доступных ресурсах).
После такого, естественно что часть людей любой генерированный контент триггерит.
тегировать естественно отказываются
мы в тупике. мы уже настолько глубоко в этой войне, что если заставить тегировать, то, из-за ассоциаций, это убьет абсолютно любое нейротворчество, даже совершенно безобидные вещи вроде озвучки видео на английском через TTS для неносителей
однако, еще пара прорывов уровня gpt-image-1, и уже даже художники перестанут отличать нейронку от человека, и им придется сдаться
И это я не трогаю ещё этический вопрос обучения коммерческой нейросетки на доступных ресурсах
вы игнорируете историю ML
если я возьму корпус текстов современных авторов и сделаю частотный список языка, вы же не будуте возражать? это ведь просто статистика
если я на основании корпуса сделаю не частотный словарь, а цепь Маркова, то это всего лишь один шаг вперед: я просто считаю частотность n-грамм (а не отдельных слов), и на основании этого могу генерировать бессмысленный текст
LLM - это просто еще одна мофицикация этой идеи: вместо частотности n-грамм я вывожу кучу весов внутри трансформера
Я как-то не видел протестов против GoogleTranslate, хотя он тоже на трансформерах построен и тоже обучен на огромном корпусе параллельных текстов, из которых явно далеко не все public domain или принадлежат Гуглу
Практика "обучать модели нормально на любых данных, до которых можно дотянуться" просто сложилась в ML исторически, компании занимались этим, и против этого не было ни публичных протестов, ни юридических ограничений. И тут неожиданно это стало "неэтично" просто потому что это теперь угрожает работе художников
Мое личное мнение: нужно запретить обучение на копирайт-контенте, но при этом радикально уменьшить срок копирайта (до 20 или даже 10 лет). 70 лет после смерти автора - это абсолютное безумие, пролоббированое Диснеем. При разумном сроке копирайта будет достаточно данных в public domain для обучения нейронок
вы игнорируете историю ML
Не игнорирую.
Практика "обучать модели нормально на любых данных, до которых можно дотянуться" просто сложилась в ML исторически, компании занимались этим,
Компании пытаются вытащить всё, до чего дотянутся. Бывает. Война щита и меча.
Вот собственно компании пытаясь дотянуться до любых данных начали "случайно" игнорировать robots.txt и класть сервера своими ботами. По итогу появились https://zadzmo.org/code/nepenthes/ и https://anubis.techaro.lol/ .
(и эту проблему признают многие: https://arstechnica.com/tech-policy/2025/01/ai-haters-build-tarpits-to-trap-and-trick-ai-scrapers-that-ignore-robots-txt/ )
и против этого не было ни публичных протестов, ни юридических ограничений.
Потому что массово не афишировалось вне специфических кругов. Fair use и их применимость никто не отменял.
И тут неожиданно это стало "неэтично" просто потому что это теперь угрожает работе художников
Ну как минимум - это ещё вопрос лицензии под которой данные были выложены.
Как максимум - ещё и копирайта.
PS. Учитывая то, что LLM нередко выдавали куски кода с точностью до... подозрительно похожие на уже имеющиеся - закончится это скорее всего тем, что любой генерированный текст/изображение невозможно будет закопирайтить как минимум.
любой генерированный текст/изображение невозможно будет закопирайтить как минимум
на данный момент полностью сгенерированный контент нельзя закопирайтить
однако, есть огромный спектр между 100% ИИ и 100% человеком. Если я через ИИ просто грамматику поправлю - это делает текст ИИ-шным?
однако, есть огромный спектр между 100% ИИ и 100% человеком. Если я через ИИ просто грамматику поправлю - это делает текст ИИ-шным?
Тянете сову. Если вы сможете заставить текущую нейросетку только подправить грамматику, не трогая смысл я вам поапплодирую.
Если вы сможете заставить текущую нейросетку только подправить грамматику, не трогая смысл я вам поапплодирую.
А это, кстати, отличная идея! Выбрасываем из набранного человеком текста все знаки препинания. Генерируем следующий токен. Сравниваем его со следующими буквами из письма. Если совпадают, то добавляем токен в поток вместе со всеми содержащимися в нём знаками препинания. Если не совпадают — выбрасываем его и генерируем снова. В результате на выходе — исходный текст, но с правильными знаками.
Я могу, и очень часто так делаю
В системном промте прописываю - меняй только грамматику и орфографию, не меняй ничего по смыслу. Хорошая нейронка (Claude Sonnet) справляется, плохая (типа GPT-4o-mini) может поменять какие-то слова
Я еще и изменения подсвечиваю, чтобы глазами видеть, что конкретно модель исправила
Если бы нам нужно было выполнить задачу чисто формально - никакой отсебятины от модели - то тогда можно просто проанализировать каждое изменение, и оставлять его если это грамматическая правка (изменение - другое слово той же леммы), или если это правка орфографии (расстояние Левенштейна маленькое)
Потому что массово не афишировалось вне специфических кругов
Невежество публики по поводу технологий - это проблемы публики
А у юристов-законодателей работа состоит в том, чтобы в таких вещах разбираться. Где они были все это время, пока нейронки развивались?
Невежество публики по поводу технологий - это проблемы публики
А что, информация об источниках данных в датасетах - открытая? И публичная?
Где они были все это время, пока нейронки развивались?
Да примерно как и везде. По вашему нужно любой феномен зарегулировать сразу после появления? Вот станет заметным - тогда отрегулируют. Как и всегда.
Спам вот появился в 80-х, а зарегулирован был относительно недавно.
А что, информация об источниках данных в датасетах - открытая? И публичная?
В теории можно взять перевод под копирайтом и попытаться через GoogleTranslate добиться его дословного повторения (некоторый overfitting всегда присутствует). Если уж очень надо - то можно доказать внешними методами
По вашему нужно любой феномен зарегулировать сразу после появления?
Нужно иметь законодателей с мозгами, которые могут или сами разобраться в новых вещах, или хотя бы послушать экспертов. Текущие законодатели - это просто бесполезные проедатели бабла. ChatGPT уже два с половиной года существует - буквально вечность в мире ML
В теории можно взять перевод под копирайтом и попытаться через GoogleTranslate добиться его дословного повторения (некоторый overfitting всегда присутствует). Если уж очень надо - то можно доказать внешними методами
То есть информация таки не открытая. Значит ваш тезис про невежество обывателей опровергнут. Вопросов больше не имею.
Нужно иметь законодателей с мозгами, которые могут или сами разобраться в новых вещах, или хотя бы послушать экспертов. Текущие законодатели - это просто бесполезные проедатели бабла.
Какие есть. Зарегулируют со временем, не в пользую ML фанатиков.
Они могли с самого начала сказать - трейнить на данных под копирайтом запрещено. Компании просто наняли бы тонну индусов и китайцев рисовать обучающую выборку. Западные рисоваки все равно получили бы хрен без масла, и потеряли бы свой самый главный аргумент; атмосфера для ML-щиков сейчас была бы гораздо лучше
Они могли с самого начала сказать - трейнить на данных под копирайтом запрещено.
У вас по-моему какое-то странное понимание того, как законы делаются и создаются. Никогда и нигде ещё они не создавались "превентивно".
Компании просто наняли бы тонну индусов и китайцев рисовать обучающую выборку.
Это так не работает. Такого стилевого разнообразия всё равно бы не набралось. Как минимум.
Впрочем и сейчас не особо. Среднестатистическая нейросеть на картинках под постом опознаётся примерно так же, как раньше опознавался 'corporate memphis'. Получаем полное обесценивание, потому что сразу видно, что картинка не имеет никакого отношения к статье. Она там только потому, что на статьи с картинками кликают чаще.
(Чтобы предотвратить очередное натягивание совы - добавлю ключевое слово "среднестатистическая". К тем кто реально нормально делает картинки - претензий не имею. Но их-то единицы.).
Западные рисоваки все равно получили бы хрен без масла, и потеряли бы свой самый главный аргумент
Вот люблю я этот потрясающий аргумент. Вы сделали компиляцию результатов забесплатно. И ещё обижаетесь на тех, кто предоставил вам данные и не понимаете, почему возмущаются. Прикрываясь, естественно, "ой, но мы на полшишечки".
Никогда и нигде ещё они не создавались "превентивно".
Deep learning-у уже лет 15
Такого стилевого разнообразия всё равно бы не набралось
Набралось бы. Художники разные, их много (вот прям буквально миллионы)
Куча картинок в одном стиле - потому что юзеры ленятся уточнять стиль
Чтобы получить картинку в другом стиле - просто берете и промтите, в каком стиле вам нужна картинка. Вот я по-быстрому сделал в стиле MS Paint - ничего общего с дефолтным стилем gpt-image-1, про который вы говорите

Кстати, почему-то художники думают, что большинство картинок в датасете - это их арт. Ничего подобного, большинство - это просто фотки. Художники очень сильно переоценивают свой вклад в датасеты
Можно вообще датасет чисто из фоток склепать - получится нормальная модель, но только для фотореализма
Кстати, почему-то художники думают, что большинство картинок в датасете - это их арт. Ничего подобного, большинство - это просто фотки. Художники очень сильно переоценивают свой вклад в датасеты
Вы так и не ответили - где посмотреть публичные данные о датасетах использованных для обучения моделей (подсказка - нигде, это непубличная информация). Поэтому [citation needed].
Ииии... вы не читаете свои же ссылки.
It was an attempt to recreate the process used by OpenAI to collect the 400 million image-caption pairs they used to train the CLIP model - the company had chosen to open-source the model's code and weights, but not its training dataset.
не в пользую ML фанатиков.
Ну, ближайшие 3 с половиной года точно будет Трамп/Вэнс, а каким будет ML через такое огромное количество времени - предсказать невозможно
Это не проблемы публики. Публика не обязана разбираться во всем подряд - для этого существуют специалисты. Вообще, любая позиция такого рода есть оправдание криминала по сути.
Учитывая то, что LLM нередко выдавали куски кода с точностью до... подозрительно похожие на уже имеющиеся
это называется overfitting, переобучение. ML-щики всегда с этим борются, обычно успешно
цель нейронки - обобщение, а не повторение трейнсета
если я возьму корпус текстов современных авторов и сделаю частотный список языка, вы же не будуте возражать? это ведь просто статистика
Разницу между плагиатом и статистикой же не надо объяснять?
ML - это всегда просто статистика на стероидах. ML можно использовать совершенно в разных целях, и в целях плагиата тоже.
Давать какую-то оценку применению технологий - не задача ML-щика
Давать какую-то оценку применению технологий - не задача ML-щика
Don't say that he's hypocritical
Say rather that he's apolitical
"Once the rockets are up, who cares where they come down?
That's not my department!" says Wernher von Braun
;-)
чей копирайт и откуда - сами найдёте.
Мой пойнт: я отвечаю лично за себя, я применяю ИИ к месту и правильно, и получаю качественные результаты и ценность. Меня абсолютно не волнует, что есть тонны макак, которые с помощью него спамят - это на их совести, а не на моей. Да, это антиколлективизм. Но вот я такой
мы в тупике. мы уже настолько глубоко в этой войне, что если заставить тегировать, то, из-за ассоциаций, это убьет абсолютно любое нейротворчество, даже совершенно безобидные вещи вроде озвучки видео на английском через TTS для неносителей
Ну да. Вы сами это признали. Это называется "засрать поляну" (что собственно и произошло, и о чём текущая статья).
То есть вы за применение принципа коллективной ответственности? Почему из-за того, что куча юзеров наплодила говна, отдуваться должны ML-щики?
Давайте еще повесим бытовые убийства на производителей ножей
Нет. Я констатирую наблюдения. ML-щики дали "толпе" говномёт. "Толпа" радостно им воспользовалась. Теперь всё в говне. При этом говномёт может и полезный, если применять ограниченно или в нужных местах. Но толпе-то что до этого? Каждый в ней преследовал свои цели.
Классическая трагедия общин.
Давайте еще повесим бытовые убийства на производителей ножей
Сову тянете. А вот я ещё не забыл время, когда рекламщики открыли для себя смс с рекламой с рандомных одноразовых номеров. А потом ещё и звонки так же. Первое кое-как зарегулировали, второе - нет. И теперь соотношение сигнал-шум по звонкам не в пользу нужных.
Не было ни протестов, ни ограничений, потому что просто никто массово вовремя не сообразил, чем это грозит. Разумеется, неэтично это было изначально.
радикально уменьшить срок копирайта (до 20 или даже 10 лет).
Радикально - это срок, равный возрасту автора на момент создания произведения. Фиксированные сроки крайне сомнительны, а уж тем более если мотивироваться таким отстоем, как нейронки.
Кто из нас не развлекался, выкладывая на сайт по компьютерной графике фотографии, а потом читая комментарии про неправильные тени, перспективу и общую нереалистичность...
с текстом тяжелее - человеки распознаЮт только явные генерации
Потому что напечатать бред элементарно — всякий дурень сможет, а вот чтобы нарисовать какую-то хню и чтобы на неё люди смотрели — это не каждому дано, это надо быть Ван Гогом, или на худой конец Марком Шагалом.
Где-то читал, что по человеческому референсу картинки получаются хорошо, а по нейросетвевому - сильно хуже. Это пытались объяснить тем, что в нейрокартинке присутствует некий "нейродребезг", который рисующая по референсу модель воспринимает как ключевой момент и подчеркивает его и усиливает.
Так что "рисуй, но не как они" это может полезный промт, а "нарисуй похоже вот на это" - будет сбоить.
Рисоваки и луддиты замучаются различать и сожрут друг друга на ложноположительных срабатываниях паранойи. Весело!
И конечно же вас такое никогда коснуться не может, да?
Вот откуда брать работу для тех, кого заменит ИИ - будут новые качественные данные клепать, чтобы обучать следующее поколение ИИ
Авторы статьи полагают, что генеративные модели уже создали большое количество контента — достаточное, чтобы другие ИИ обучались именно на их творениях. В результате это напоминает игру в «испорченный телефон», в которой все игроки стремительно «глупеют». В индустрии такой сценарий развития называют «коллапсом модели».
Это же рассуждение можно применить и к до-ИИ-шному периоду. Сначала в интеренете были одни только гики, которые учились сами. Потом туда ринулись толпы авторов, а потом новые поколения стали учиться уже на, что написано в интернете.
Научный сотрудник Центра изучения экзистенциального риска при Кембриджском университете Морис Чиодо в своем комментарии изданию заявил, что использование данных, произведенных до 2022 года, позволяет быть уверенным в минимальном наличии «загрязнения» от ИИ.
Проблема в том, что в интернете нет внутреннего (встроенного) механизма определения времени появления того или иного текста. Если бы научные сотрудники в своё время хорошенько потрудились бы над созданием интернета, то такой механизм был бы обязательно реализован. Была бы возможность откатиться по времени на любой момент (это был бы встроенный архив интернета), делать запросы данных с ограничением по времени.
А если Вы хотите, чтобы данные были чистыми, то Вы с самого начала заведёте для ИИ отдельный слой (для работы), к которому, при необходимости, можно было бы обращаться за справкой из реального мира.
Исследователи, в том числе и Чиодо, уже несколько лет бьют тревогу — даже если коллапса модели не произойдет, загрязнение интернета по‑прежнему является актуальной проблемой, и его очистка будет либо непомерно дорогой, либо попросту невозможной, считают они.
Плохие исследователи. Потому и нет ничего нормального, потому как нет нормальных исследователей. Нужна единая вычислительная инфраструктура, где каждой сущности реального мира соответствует свой узел + трансвлючение (семантическая база знаний).
Если бы научные сотрудники в своё время хорошенько потрудились бы над созданием интернета, то такой механизм был бы обязательно реализован. Была бы возможность откатиться по времени на любой момент (это был бы встроенный архив интернета), делать запросы данных с ограничением по времени.
Ну, такую систему давно надо создавать, и вовсе не по причине нейронок даже, а как целей архивации вообще, так и "этот твит удален" / доказательства мошенничества в чате удалены.
Ну пути то существуют:
делать узкоспециализированные модели, дообучать их совместно с пользователями на хороших данных и пусть по своей тематике они работают вместо общих. Думать о маршрутизации вопросов специализированным моделям.
Также как бустинг ансамблей моделей позволял улучшить ответы простых, можно попробовать построить и бустинг больших языковых. Т.е. для каждой области к большой модели будут подключаться модели поменьше в виде корректора ошибок (натренированные на этом).
Но с точки зрения маркетинга сейчас выгодны общие, чтобы деньги на хайпе зарабатывать. И пока весь этот хайповый спрос не будет удовлетворен, врятли массово мы придем к путям выше.
Голосом Дроздова: отупевшую иишку учёные откармливают сайтами Упячка и УдаффКом, от чего она сразу становится смышлёнее
Голосом T-800 из T2. Отупевших людей переводят на простые работы, которые впрочем не нужны Скайнету. Он просто находит им занятия по душе, и они легко соглашаются с его доводами. Жрать, срать и спать - вот и все их мечты, и это он им всем обещает и дает.
Коннор: А те люди, которые умные? Ну, я имею в виду тоже обычных людей, как я вот, ИИ с ними дружит? Они рациональны, они умны, они эффективны.
T-800: Они уничтожаются путем расстрела. Такие люди Скайнету не нужны. Он чувствует в них угрозу своему существованию.
Коннор: Он боится конкурентов?
Т-800: Нет. Конкуренцию эта малая прослойка умников ему составить не сможет. Мало того, Скайнет вообще ничего бояться не может, как и я. Просто они слишком много хотят. Он их убивает преднамеренно. Но не всех.
Коннор: А что происходит с теми, кого он не убил?
Т800: железной интонацией: Их заставляют писать нетленки для сайтов Удаффком, и затем эту информацию через машину времени отправляют в 2000 год для того, чтобы их предки отупели раньше, чем Скайнет осознает себя. Они все умирают на электрическом стуле, потому как теряют вдохновение.
-Когда он себя осознает?
-27 августа 2030 года.
Читаешь, вроде всё нормально. Статья как статья, слова на месте, даже грамотно. Но через минуту уже не вспомнишь ни о чём. Всё как будто склеено из чужих мыслей, а может и не мыслей вовсе. Просто что-то сказано, и ладно.
И всё бы ничего, если бы это не повторялось повсюду. Где ни посмотри — один стиль, одна подача, одни и те же обороты. И в какой-то момент начинаешь думать: а это вообще кто-то писал? Или уже просто процесс пошёл сам по себе?
А теперь ведь на этом ещё и учат. Новые системы берут это за основу. То есть учатся не на живом, а на сгенерированном. Потом это опять кто-то прогонит, и вот тебе ещё один «контент». Не знаю. Звучит как замкнутая система. Без выхода.
Наверное, всё, что можно сделать — просто сохранить хоть что-то, написанное по-человечески. Без идеала. С ошибками, может. Но чтобы жил кто-то за этим текстом.
А что бы вы исправили в этой небольшой заметке так, чтобы она вам понравилась?
Проблема надуманная. Нет никаких доказательств того, что реальные, содранные с интернета датасеты "до ИИ", из 2022 года и ранее, работают лучше датасетов из 2023+.
Истерию про это разнесли по СМИ на основе одной бумаги про "коллапс модели", которая говорила о технических ограничениях дистилляции - т.е. обучения ИИ на 100% ИИ-сгенерированных данных.
Но одно дело - полностью искусственная ситуация из той бумаги, и совсем другое - то, как данные реально распределяются и распространяются "в природе". В последующих исследованиях видно, что по мере приближения условий к реалистичным "коллапс" сходит на нет.
То же самое что и с копирайтерами: набрать чуть ли не любой рандомный запрос типа "кресло автоматическое офисное" - держи 100500 статей с переставленными словами, абзацами, и одним и тем же смыслом "купи, цуко, наше кресло! оно лудше!"
Эх, если бы так просто. Кажется скорее будет текст "История кресел началась при фараонах, их миллионы видов, основные, например, наши А, Б и Ц модели"
Я искал чем приклеить керамическое фото на памятник лучше. Во всех статьях говорили, что подходит все, и все идеально. ПВА кажется только не засветился. Плиточный, жидкие гвозди, эпоксидка, герметик - бери любой.
Особенно мне понравились абзацы, что силиконовый герметик хорошо держит, если поверхности будут гнуться.
Вы, блин, статью пишете про керамическое фото и каменный памятник, кто из них гнуться будет?
Было двадцать лет назад в "Анафеме". ИИ заполонили сеть, потом стали делать контент, что почти не отличим от оригинала, но не является истиной, появились те, кто продавал фильтры от искаженного контента (мы движемся сюда). А потом... читайте книгу, там куда интереснее чем интерпретация
Да ладно. AGI доделают, он разберётся, что мусор, а что полезно.
Нужно сделать секретный Интернет, недоступный ИИ, чтобы туда писали только люди. Это единственный путь к спасению!
Который в первый же день будет забит ИИ ботами =)
Пускать туда только по рекомендации двух членов партии настоящих людей.
И как это помешает людям туда копипастить сгенерённый контент?
а компетентных товарищей? Или вы что-то скрываете?
Компетентные товарищи не резиновые, чтобы круглосуточно там торчать - и так в защищенном секретном интернете появится первый ИИ-бот.
Ну и далее по традиции...
что бы писать в него, нужно физически находиться за специальным терминалом, контролируемым специальным оборудованием, что бы ни дай бог клиент использовал ИИ для генерации контента..
'ой вей!'
Ну стоит ожидать как минимум сайты с полезной инфой будут требовать регистрации для доступа к ней, плюс анти ИИ краулер меры там, далее возможна платность и (или ) только по инвайтам.
Даешь Гипертекстовый Векторный Фидонет!
N-ная попытка переизобрести FidoNET (гипертекстовый, конечно же) ;)
(блин, опоздал)
Поэтому теперь нужен ИИ для распознавания ИИ. Не понимаю в чем тормоза, это наоборот стимул, для еще лучшего обучения
То ли дело обучение на ололошниках в соц.сетях, прямо точно ИИ умнее станут. По факту - обучение ИИ не должно отличаться от обучения человека. Тысяча научных книг с внимательным изучением и ты учёный. Пусть кодовую базу улучшают. А данных (книг) уже более чем достаточно, плюс есть всякие узкоспециализированные научные сайты.
При всём скептицизме к ИИ, думаю что не надо на него вешать систематическое безделье и пирамидальность свойственную всем крупным прожектам.. Сначала гугль извращал поиск, а вслед за ним гнались Seo-шники. Как только глобальные прожекты разобьются на мелкие - тогда что-то и получится..Верю в китайцев.
Можно использовать для обучения "бэкап интернета" с фильтром "ранее 2022". Там куча контента, еще не загаженого сетками. Почему обязательно современные данные нужны? Мир поменялся не так сильно.
Желаю им совсем затормозиться в развитии, чтобы постоянно не слышать новости об очередном "ИИ".
В начале радуются созданию инструментов для генерации контента (генеративные нейронные сети), а после сокрушаются, что инструменты генерирует контент.
А ещё он врёт постоянно)) выдумывает методы апи которых вообще не существует)
Кроме того, проявляется и другой интересный эффект: данные из той версии интернета, которая предшествовала активному росту ChatGPT и других ИИ, стали представлять чрезвычайную ценность.
Интернет был забит SEO-спамом задолго до появления ChatGPT. Ну, было 90% мусора, стало 99%. Не то, чтобы ситуация изменилась прям радикально.
А нельзя проверять написан ли контент человеком с помощью других нейронок?
Да, такие сервисы существуют. Недавно тестировал несколько из них.
Увы, но результаты не впечатляют: из пяти выбранных наугад сервисов, только один оказался с самым точным процентом. Но даже этот сервис не дал 100% результаты при проверке текста "созданным" нейросетью.
Рекламить сервис не буду (они мне не заплатили). Кому интересно - можете зайти на Нейросеть Ком и посмотреть прошлые публикации. Они проводили такой же "эксперимент". И тот сервис там выдал такие же резудльтаты, как в моем.
Но это был один из пяти. Остальные четыре не смогли определить кто написал текст.
Тут недавно пробегала похожая статья, тоже кормили нейротекстами и только одна сетка правильно сказала что это не человек во всех случаях. Правда потом люди их комментов сходили к ней со своими текстами и она их тоже обозвала ботами.
Вы надеюсь человеческих, но неизвестных текстов в своем эксперименте использовали столько же, сколько и нейросетевых?
Да, тестировал на своем тексте. На тексте известного классического писателя. И фигни, что собрала нейросеть. Пробовал китайскую и американскую сетки.
Та самая нейросеть смогла определить мой текст и текст автора, как человеческий. А вот нейросетевое барахло только примерно на 80% определило как машинный.
Но, еще раз, это один из пяти сервисов. Все остальные провалили тестирование.
так же вопрос, вот недавно яндекс открыл для всех подшивки довоенных газет - если скормить нейронку таким чтивом (а там помимо пропаганды - куча обычной житейской мудрости, которая будет ценна ) - То ненахватается нейронка коммунистических идеалов? И начнет переработанное в неокрепшие умы пихать . Там есть защита от примерного такого
ChatGPT уже настолько загрязнил Интернет, что это тормозит будущее развитие ИИ