Комментарии 8
Доказать я этом не могу, но я уверен они тырят закрытый исходный код своих клиентов поэтому и работать с кодом они стали чуть лучше это вписывается в их картину мира. Исходники из инета они скормили на самом первом этапе когда учили модели на данных из интернет архива. Потом они стырили книги и это их улучшило в тексте что то же улучшило их недавно в коде ) Поэтому я думаю они скоро могут уперется в стену. Их качество росло за счёт качества ворованного контента, они уже все спёрли . Качественного контента для обучения больше нет.
Довольно интересное лицензионное соглашение
Нашел там такое у опенаи
Учитывая вероятностную природу машинного обучения, использование наших Сервисов в некоторых ситуациях может привести к Выходным данным, которые неточно отражают реальных людей, места или факты.
А некоторые доказывают что это уже давно не предсказательной механизм. Кому верить.
У антропика воистину шикарное соглашение самая гуманная компания. Они запрещают использовать их иишечку для разработки чего бы то ни было конкурирующего с любыми их продуктами.
Да, лицензионные соглашения AI-компаний отдельный жанр корпоративной поэзии. OpenAI честно признаётся что их модель может "неточно отражать реальных людей", то есть галлюцинировать, прямо в пользовательском соглашении. Это как производитель лекарства пишет в инструкции "иногда не работает".
Антропик, как в том анекдоте, "мы пойдем другим путём". Они позиционируют себя как самую этичную компанию, но при этом запрещают использовать Claude для конкурентных разработок. Классика: "мы за открытость, но только в одну сторону."
Что касается "предсказательный механизм или нет", тут скорее вопрос маркетинга чем технологии. Называть это как угодно, суть не меняется: система предсказывает следующий токен на основе статистики. Остальное развод для приезжих нарратив для инвесторов.
Они не могут поставить DRM на свою книгу после того, как она вышла в бумаге.
Потому что права на бумажную книгу (обычно) принадлежат не автору, а издателю.
Они не могут заставить ChatGPT верифицировать лицензию перед тем, как скормить туда «Войну и мир».
Права на ВиМ не могут быть лицензированы, потому что вообще не существуют.
AI-компании требуют для себя максимальной свободы (fair use для всего подряд) и максимальной защиты (никакого тренинга на наших выходных данных).
Именно по этой схеме всегда работали СМИ, научные и учебные издательства. Пришлось специально вводить в закон статью, которая окоротит их.
История повторяется с удивительной точностью. Каждая новая индустрия сначала захватывает чужое под флагом "прогресса и общественного блага", а потом выстраивает крепостные стены вокруг своего.
Издательства десятилетиями переиздавали народные сказки, фольклор и общественное достояние и при этом яростно защищали собственный копирайт. Теперь AI-компании обучаются на всём что создало человечество за тысячи лет и называют это fair use.
Разница только в масштабе и скорости. То, что у издательств занимало десятилетия, здесь происходит за годы.
Успеет ли законодательство на этот раз, вопрос, конечно, риторический.

Двойные стандарты AI: «Мы возьмем ваши книги, а вы не трогайте наши токены»