Pull to refresh

Comments 21

Не очень понятно, как они собираются что-то кому-то запрещать качать. Контент там идёт под CC-BY-SA, и никаких прав на изменение лицензии у администрации ресурса нет.

Если даже они что-нибудь придумают в духе "контент-то да, а вот распространение контента это отдельный сервис, вы же провайдеру тоже за доступ к stackoverflow платите", то те, кому надо, всё равно уже всё выкачали ранее и без проблем накраулят ещё, а вот для простых разработчиков доступ к бекапам будет затруднён. В точности наоборот к заявленному, получаем ещё один фактор удержания монополии компаний, создающих LLM.

TLDR очередной случай, когда погоню за наживой прикрыли красивыми словами.

Не очень понятно, как они собираются что-то кому-то запрещать качать.

В статье же написано "которые используют API". То есть не факт что будут что-то запрещать.

Но вот если хочешь использовать API, то надо будет платить. И я подозреваю будет дешевле заплатить чем парсить всю информацию самому.

И что там внутри? HTML?

Xtml большим файлом, формат вполне простой (давно есть библиотеки для его парсинга на большинстве популярных языков)

Ну то есть даже если всё с дампом так и останется, то всё равно надо будет платить кому-то кто распарсит. Почему сразу не заплатить за это Stackoverflow?

А гарантии что всё так и останется тоже нет. Ну если Stackoverflow в погоне за деньгами начнёт "гадить" в этом плане.

Во-первых, данные через api тоже нужно получить и большой вопрос как удобнее. Я когда парсил SO — предпочел делать это через локальный дамп, так как на мой взгляд у этого подхода больше преимуществ.


Во-вторых, парсер SO вам на upwork'е легко напишут за сотню-другую долларов, вряд ли SO все это затеял ради таких денег и суммы за доступ будут на несколько порядков выше.


В-третьих, сейчас SO выкладывает дамп в Internet Archive, этот фарш не повернуть назад и что-то с уже выложенными (последний был в конце прошлого года) SO вряд ли сделать сможет.


Он, конечно, может перестать это делать, но ценность новых сообщения все-таки пока меньше, чем все то что создано за десятки лет до этого (в основном сейчас в SO 95% контента — дубликаты старых вопросов и ответов).


В целом, все будет зависит от цены за полный доступ, если это будут смешные деньги это одно, если нет — совсем другое.

Во-вторых, парсер SO вам на upwork'е легко напишут за сотню-другую долларов, вряд ли SO все это затеял ради таких денег и суммы за доступ будут на несколько порядков выше.

Ну да, вам напишут парсер, а Stackoverflow что-то у себя поменяет и вам надо будет писать новый.


Он, конечно, может перестать это делать, но ценность новых сообщения все-таки пока меньше, чем все то что создано за десятки лет до этого

Это очень быстро станет востребовано. Кому нужен "копилот", которые не умеет в новые фичи языка? В новые фреймворки? В новые языки?


В целом, все будет зависит от цены за полный доступ, если это будут смешные деньги это одно, если нет — совсем другое.

И я как раз таки сомневаюсь что доступ будет стоить сильно много. То есть сейчас набежит толпа фирм, которые захотят что-то делать с ИИ. И совсем не обязательно требовать с них миллионы чтобы на этом зарабатывать.

Во-первых, распарсить xml и html может любой школьник за полчаса, это не какая-то сверхсложная наука.


Во-вторых, я не очень понял, почему вы вообще решили, что Stackoverflow будет что-то за кого-то парсить? В том бесплатном API, который я нашёл, отдаётся тот же самый html. Вы где-то вычитали, что платный API будет чем-то принципиально отличаться, или о чём речь?

Если ты берешь что-то под CC-BY-SA, то ты должен отставить те же условия, а не "код мы не покажем, но с вас 10 баксов в месяц)))0".

То есть почитав стэковерфлоу и написав основываясь на этом код, вы и его должны выложить под CC-BY-SA?

CC-BY-SA вроде не запрещает линковку - так что засовываете код со stackoverflow в отдельные файлы (библиотеки) с минимальной обвязкой и их и выкладываете под CC-BY-SA.

CC-BY-SA создавалась не для кода и в ней нет понятия "линковка". При этом у меня есть подозрение, что при линковке получится нечто, что можно будет назвать производной работой — а буковки "SA" требуют, чтобы производая работа использовала ту же или совместимую лицензию

В цивилизованном мире и с крупными корпорациями это решается не техническими, а юридическими средствами.
Под CC-BY-SA идёт непосредственно дамп, а не содержимое форумов, так что по API и другим каналам они могут использовать разные лицензии.
Как мы видим не одна LLM не заявляет источники, потому что там все ворованное с нарушениями. Череда исков ещё впереди.

Собственно, именно об этом писал неоднократно - коммерческий "бум" нейросетей будет продолжаться до тех пор, пока не закончится период "халявного корма" для их тренировки. Когда всё это было какбэ исключительно "ради науки и двигать прогресс", никто особо не обращал внимания на источники обучения. Как только - внезапно! - замаячили "доступ по подписке" и миллиардные инвестиции, тут же появились вопросы :) Теперь нужно ожидать очень интересного момента, в какой именно точке наступит некий баланс между размерами ожидаемой прибыли и затратами на лицензирование новых "учебников" плюс возможными издержками на судебные выплаты по использованию предыдущих материалов.

Сейчас главная задача сообщества -- побить все бутылки с джиннами. Например StableDiffusion уже создана и ушла в народ. LLaMA тоже, весьма оригинальным способом была фактически выпущена в народ. Чем больше будет применений и больше интеграции в сервисы -- тем больше проблем копиистам будет откатить все назад :-) .

Для начала давайте дождёмся, чем закончится юридический замес StableDiffusion и Getty Images

Интегрировать вытекший LLaMA в свои сервисы — это надо быть богатым донкихотом.

Самое время создать фирму с кучей юристов и одним прогером. Прогер выпарсит всё до чего дотянутся руки, а юристы обложат это правильными лицензиями для продаж владельцам нейронок и защитят от посягательств фирм вроде SO.

Всё это осложняется невозможностью достоверно проверить, использовались ли закопирайченные материалы при обучении данной конкретной нейронки. Особенно если её веса не опубликованы (коммерческая тайна!) и крутится она где-то на серверах корпорации.
Просто все будут делать вид, что учат только на public domian, а сами втихаря будут скармливать сети всё, до чего дотянутся.

Ну вообще, если сетка возвращает результат, который мог был взят только из закрытых материалов, и этот результат будет использоваться это будет повод для исков.


Условно, можно добавить водяные знаки в материалы, а потом когда к результатам сетки будет публичный доступ, спросить "чем равен глококуздревый дискриминат по вогнутой гипотенузе", если та ответит "123 с половиной смурзика" — идти в суд.


Так вроде делают для всяких баз данных, вроде адресов фирм — несколько сознательных небольших ошибок легко покажет кто у кого воровал.

Sign up to leave a comment.

Other news