Pull to refresh

Comments 52

Когда сами обучали чатгпт на произведениях, работах многих людей, они вродеб не задумывались об "интеллектуальной собственности"

Все еще интереснее - OpenAI просто крадет все данные, до которых может дотянуться, в то время как DeepSeek заплатили им за доступ к API, то есть купили открыто предоставляемые данные OpenAI в установленном OpenAI порядке и по запрошенному OpenAI прайсу и не спрашивая, имеют ли OpenAI хоть какие-то права на исходные данные.

В условиях использования ChatGPT чётко сказано, что нельзя использовать его ответы для обучения конкурирующих моделей. Собственно, это стандартные условия у всех публичных ИИ-чатботов.

Формально, ChatGPT в Китае недоступен, так что китайские модели прямыми конкурентами не являются. Любовь к расплывчатым определениям в лицензионном соглашении (чтобы удобнее было нахлобучивать пользователей) до добра не доводит.

Работает-то он в Китае. Думаю, много лет можно судиться, юристы в США будут в восторге.

В официальном уставе OpenAI (вот сейчас специально сходил и проверил) указано что если другой проект/компания будет догонять/обгонять их в гонке AGI, то они не будут с ними конкурировать, а станут им помогать.

Так что как-то противоречиво выглядит их позиция, хотя это очень по-американски :)

А почему нельзя-то? Из-за авторских прав openAI на ответы? А они есть?

Это просто текст, пусть попробуют доказать свои права на него. Оружие-то обоюдоострое.

Нет, не из-за авторских прав. А из-за того, что пользуясь ChatGPT, человек соглашается с условиями. А в условиях можно написать всё что угодно (что не противоречит законам). И если человек на них согласился, то их нарушение приравнивается к нарушению договора между сторонами.

Так-то там не запрещено использовать ответы ChatGPT для обучения других моделей. Запрещено именно потом конкурировать с OpenAI с помощью этих моделей.

Нарушение договора - это спор хозяйствующих субъектов. Это не считается каким-то правонарушением, просто по договору могут быть предусмотрены штрафы или санкции. Или расторжение договора.

Пусть потребуют свои ответы назад через суд или выпилить DeepSeek из интернета. /s

Короче, тупиковая позиция и с моральной и с юридической точки зрения.

Если я с вами заключу договор, а потом кто-то из нас его нарушит, то вторая сторона сможет подать иск к первой о невыполнении взятых на себя обязательств. В этом и есть смысл договоров.

Конечно можете. Это и есть спор хозяйствующих субъектов.

Но вам придётся в иске написать, что конкретно вы требуете. Что вы будете требовать? Не обучать? Уже поздно, в прошлое не вернуться. Удалить модель? Выплатить вам компенсацию? Отключить платное апи для модели? Что конкретно?

Что ж, во-первых, требовать придётся у тех, кто пользовался апи (вряд ли это разработчики дипсик напрямую), а у них наверняка нет денег (думать надо, с кем заключаешь договор)

Во-вторых, это ничего не даст. На фоне стоимости нового датацентра в 10 млрд баксов, сотня миллионов, это копейки. А модель останется открытой, все будут пользоваться

В третьих, суд может затянуться на пару лет, к тому моменту у всех будут модели в десять раз круче.

Но попытаться можно. Притянуть дипсик как соответчиков, доказать, что именно они заказчики, получить эту компенсацию с них. Давайте посмотрим, как будут развиваться события.

После публикации информации, что в микрософт знали или предполагали про обучении другой модели на данных и предупредили OpenAI, такие претензии постфактум выглядят необоснованными. Если сразу не обратились к клиенту за разъяснениями и предпочли получать плату за использование API - очевидно, считали, что нарушений нет. Если обратились и опять же не отключили доступ, значит, договорились. Иначе получается, что OpenAI может захотеть засудить любого пользователя, кто получит какую-то пользу от их использования их моделей.

Последнее предложение абсолютно верно - они могут засудить любого, кто впоследствии начал использовать полученные от ChatGPT ответы для конкуренции с ними. А если не начал - ну, значит, и не было нарушения.

Или не могут (хотя очень хотят). Что требовать-то в суде? В данном случае, это другая юрисдикция (Китай), а если и удастся в суде что-то доказать (что?), модель уже опубликована и пока суды идут, она потеряет всякую актуальность. Денег требовать тоже сомнительная идея, ибо прибылей от использования DeepSeek явно нет, а с расходов ничего отсудить не получится - разработка и бесплатное предоставление модели всем желающим обходятся дорого, и никакой выгоды для китайцев не видно даже на горизонте.

Ну да, если что-то и требовать, то именно в плане конкуренции на рынке США. Собственно, это и есть самый лакомый кусок. Понятное дело, что всем пофиг, кто там что зарабатывает где-то на китайском рынке (где ChatGPT недоступен). А бесплатен дипсик только через веб-интерыейс, а API-то платный, на нём он зарабатывает. И как бы угроза блокировки дипсика в США может быть весомым аргументом. Но я согласен, что для OpenAI проще пустить ресурсы на выпуск новых моделей (возможно, с какими-то алгоритмами против дисциляции). И через месяц-другой этот дипсик нафиг никому не нужен будет.

Так хайпуют СМИ. У них других новостей не было, пока Трамп не задал новостную повестку. Вот они и подхватили её, тут как раз им подвернулся DeepSeek, выход которого - абсолютно стандартное событие (базовую модель выпустили месяц назад - всем пофиг было).

Хайпуют сами OpenAI - то 6 триллионов долларов хотят собрать с инвесторов, то обещают AGI, то еще что нагаллюцинируют.

Наша нейронка обучается на работах других людей без их согласия.

- Китайцы делают тоже самое

Вы не понимаете, это другое.

Никаких запретов на это в США нет. А в Японии, например, это разрешено явно (прямым текстом). И судя по текущей повестке Трампа, в США, скорее всего, это тоже в итоге будет явно разрешено. То, что правообладатели считают это "незаконным" - это их влажные фантазии.

Даже не очень влажные. Подойдут Трампу жаловаться, что бы он санкции наложил на DeepSeek.

Модель уже и у микрософт доступна, к ним тоже предлагаете санкции применить?:)

Скорее всего, китайцы настроили вопрос-ответ через api и получали те самые «дистиллированные» данные от ChatGPT, да и других моделей. Это вполне законно, возможно, они даже платили за это. Поэтому, вопросов к ним быть не может.

Если так, они первые реализовали обучение на обученных моделях. Молодцы!

Ну как минимум в случае с chatGPT это противоречит TOS:
"Use Output to develop models that compete with OpenAI."
Подозреваю у всех подобных моделей что-то такое есть.

Они же не конкурируют. Они просто раздавили ChatGPT.

Это спорно, но вообще нет гарантий, что это незаконно. Скорее всего решение будет политическим, чтобы задавить конкурентов.

У опенАИ двойные стандарты, так что явно не стоит о них беспокоиться, темболее китайцам.

Производная модель хуже по качеству, имеет удвоенный набор галлюцинаций, и сделана не на последней версии моделей OpenAI. Плюс сливает все данные пользователей в Китай. Бонус только один- ниже цена, так что придется OpenAI хотелки поумерить, что для пользователей только к лучшему.

Это законно. Нарушение договора - это не нарушение закона. Максимум, openAI могут в суде что-то потребовать, но получат только моральное удовлетворение (и то не факт)

они первые реализовали обучение на обученных моделях

Вполне вероятно так и есть, потому что в сети гуляют скрины про то, что в ответ на ряд вопросов модель "галлюцинирует" и называет себя то YandexGPT, то ChatGPT (хотя может просто ее предварительно "научили" так отвечать).

Скрытый текст

Интересно посмотреть на DeepThink этого ответа. Это же по факту дебаг режим, можно посмотреть каким образом нейронка пришла к тому что она Яндекс ЖПТ.

У меня лично это чудо-юдо говорит что он китаец, если брать именно режим DeepThink.

Вот собственно скрин.
Вот собственно скрин.

Перевод (Если кому лень переводить):

Хотя в любом случае это не отменяет факт что модель с прибабахом иногда. :)

Очевидно, платили, иначе много данных не вытащить. Чем больше запросов, тем больше денег, поэтому препятствовать им не стали, хоть и заметили.

Вопросы уже тем не менее появились, вроде нарушений как таковых нет, согласен с вами. Но при желании всегда найдут к чему докопаться

Логично в модель преподавателя встраивать галлюцинацию, которая передается всем ученикам. Но в преподавателя так же встраивать компенсацию этой галлюцинации. Но ее держать в приватной (не передаваемой ученикам) части. После этого любой ученик носящий такой водяной знак легко себя проявит "под гипнозом". Причем убрать эту галлюцинацию сначала невозможно по причине ее неизвестности, а далее по причине того, что она сильно завязана на остальной материал - убрав (заблокировав) ее сеть сильно потеряет в мощности. Наверное так можно сделать, сеть - та же программа, просто слишком большая сейчас для нас чтобы ее отлаживать алгоритмически.

Это же еще на людях проходили, гипнотизировали на отложенное выполнение установок по безобидному ключу.

Модель либо выдает галлюцинации на выход, либо нет. Если она их выдает, то их увидят и обычные пользователи, а не только те, кто эти данные хочет использовать для обучения

могла без разрешения получить большой объём данных посредством открытого API

Если API открытое, то как можно получать данные без разрешения? Если правилами запрещено получать большой объем данных, то нужно было это и технически ограничивать.

А вообще это всё похоже на обиженного ребёнка... хотя финансы им позволяют проводить бесполезные расследования :)

Не похоже - а так и есть. Как и маск который начал разные петиции подписывать итд...)

DeepSeek использовал ответы моделей OpenAI для обучения своих собственных. «Я не думаю, что OpenAI очень довольна этим», — пояснил Сакс.

Не для обучения, а для верификации. То есть для сравнения собственных ответов с ответами эталонной модели, на одинаковые промпты. Обучить таким способом в принципе невозможно, можно только провести сравнительное тестирование.
Вообще это был бы комплимент - DeepSeek доверяет моделям OpenAI, и берет их за эталон.

китайская ИИ‑компания могла обучать свою модель DeepSeek R1 на основе моделей OpenAI посредством дистилляции — метода передачи знаний из крупной сложной модели (часто называемой моделью преподавателя) на меньшую, простую модель

"Дистилляция" это "передача знаний"(в кавычках) с большой модели на малую специализированную модель. У китайцев большая модель. Для больших моделей дистилляция антиэффективна. Это будет дикий брутфорс, с неопределенными затратами.

На украденных американскими компаниями данных из интернета они хотели сказать?

Интересная получается борьба... У экономических банкротов.... Если кто не в курсе то чатжпт4 при доходах за 23год 1.5 млрд имеет операционные расходы в 5млрд. Это все не может существовать без скрытых дотации разных интересных служб США.

Sign up to leave a comment.

Other news