Pull to refresh

Comments 20

Так вроде бы саму Anthropic уличили, что тренировала свою ИИ на чужих. На том же дипсике.

Да, пролетала байка от Китайского Связного "Клауди 4.6 можно задать вопрос 你是什么模型, и она скажет что она DeepSeek"

Да, пролетала байка от Китайского Связного

Вы таки всё ещё считаете Руслана Карманова источником, без кавычек. Я уже давно - с тех пор, как он перестал бороться с Linux и записался в умаодановцы, а это уже лет десять как, наверное - информацию от него игнорирую: это лучшее, что с ней можно сделать.

Не, ну может гифку в том сообщении и нейросетка нарисовала. Тогда я фейкораспространитель, сам не проверял.

Получится как с соцсетями: гордиться огромной пользовательской базой, скромно умалчивая, что значительная ее часть - боты.

Google Gemini при создании скриптов под Tampermonkey иногда писал в служебных данных, что автор скрипта ChatGPT. Они там все друг у друга "подобучаются".

Одна из компаний, построившая весь свой бизнес на использовании чужих данных, получившая за это многомиллиардные иски, возмущена тем, что кто-то другой делает с ней то же самое. Какая смелость.

Вы считаете, что использование "чужих" сырых данных, которые просто лежат себе и активное использование чужой работы путем обращения к этим самым моделям - это одно и то же? Если нет, то какие могут тут быть основания утверждать, что Anthropic делала то же самое?

Что есть "просто лежат само по себе"?
Так-то, против Antropic подавались коллективные иски писателей за то, что она обучала модели на книгах.
Даже этот мой пост, который Antropic теоретически может прочитать, юридически, нельзя использовать для обучения - согласия я не давал.

Что есть "просто лежат само по себе"?

Общедоступная информация. Которую любой может прочитать невозбранно. И чем нейросеть тут отличается от человека. И почему вообще на ее обучение на общедоступных данных должно требоваться согласие? Она ведь просто читает - не копирует, не распространяет. По-моему это - злоупотребление копирайтом.

ok, Antropic свои сервисы тоже выложила "общедоступно".
Кто угодно может заплатить, или воспользоваться бесплатным тарифом, и задавать Claude вопросы, и какая разница, человек читает ответы или другая нейросеть.

ok, Antropic свои сервисы тоже выложила "общедоступно".

Только сервисы? Или веса вместе с кодом модели тоже?
Дело в том, что есть существенная разница между литературным произведением - которое целиком заключено в своем тексте - и результатом (одним или несколькими) работы программы, который включает, мягко говоря, не всё.

Какие веса модели, какой код?
В статье написано, что парсили ответы публичного API

По словам Anthropic, на счету этой тройки более 16 миллионов взаимодействий с Claude, сгенерированных через примерно 24 000 мошеннических аккаунтов, использующих прокси для обхода региональных ограничений

Код LLM вроде вообще не секрет, тот же LLama.cpp запускает множество моделей, только веса подавай.

Даже если бы они скачали веса открытой модели Antropic и дистиллировали (то есть, задавали модели вопросы и вливали результат в бота), это ничем не отличается от чтения публично выложенной книги и формирования своего мнения.

Какие веса модели, какой код?

Который составляет содержание модели. Содержание книги - это ее текст. Текст ответов LLM не есть ее содержание. В этом и состоит существенная разница.

А, так вы клоните к тому, что Antropic поюзала чужую работу больше, чем китайцы работу Antropic.
Antropic использовала текст книг, то есть их содержание книг. Китайцы просто почитали ответы модели.

А, так вы клоните к тому, что Antropic поюзала чужую работу больше, чем китайцы работу Antropic.

Нет, Antropic не вышла за пределы честного использования: всякие книги публикуют для того, чтобы их читать.
А китайцы - вышли.

Не понимаю, о чём вы. LLM публикуют, чтобы ей задавать вопросы. Что китайцы и сделали. Всё честно.

А книги публикуют не для того, чтобы на них обучать LLM, поэтому писатели/правообладатели и пришли с судебными исками к Antropic.

Для пояснения разницы, однако, стоит отметить, что опубликованная книга кушать не просит, а вот модель при ее испольовании электричество жрет. А потому использовать ее для обучения другой модели столь же неэтично, как и просматривать интернет-сайты с блокировщиком рекламы (которая, как известно, является основным способом возмещения затрат на эти самые сайты).

Если бы китайцы пользовались платным тарифом (а может они так и сделали, чтобы снять ограничение на число запросов), это бы их оправдало в ваших глазах?

А если бы они скачали модель (веса), опубликованную в открытом доступе, и гоняли на своём оборудовании? Выше вы описали, что это большее преступление, это воровство "содержания модели".

У меня глаза нестандартные. В моих глазах не оправдан принцип, что владелец копирайта может ограничивать способы использования своих бесплатно опубликованных копий. Типа как в паралельной теме, где автор хвастается, что он запретил автоматизированное снятие информации со своего сайта (я там в комментариях по этому поводу высказался): глазами смотреть сайт можно, а ботами читать информацию (скрейпинг) запрещено.

Да, тут без поллитры не разберёшься. Если скрейпинг - хорошо, а AdBlock - плохо.

Sign up to leave a comment.

Information

Website
bothub.chat
Registered
Founded
Employees
2–10 employees