Comments 21
Не очень понятно, как они собираются что-то кому-то запрещать качать. Контент там идёт под CC-BY-SA, и никаких прав на изменение лицензии у администрации ресурса нет.
Если даже они что-нибудь придумают в духе "контент-то да, а вот распространение контента это отдельный сервис, вы же провайдеру тоже за доступ к stackoverflow платите", то те, кому надо, всё равно уже всё выкачали ранее и без проблем накраулят ещё, а вот для простых разработчиков доступ к бекапам будет затруднён. В точности наоборот к заявленному, получаем ещё один фактор удержания монополии компаний, создающих LLM.
TLDR очередной случай, когда погоню за наживой прикрыли красивыми словами.
Не очень понятно, как они собираются что-то кому-то запрещать качать.
В статье же написано "которые используют API". То есть не факт что будут что-то запрещать.
Но вот если хочешь использовать API, то надо будет платить. И я подозреваю будет дешевле заплатить чем парсить всю информацию самому.
А ничего парсить не надо, можно скачать архивы содержимого всех сайтов в один клик https://archive.org/details/stack-exchange-data-dump-2023-03-08
И что там внутри? HTML?
Xtml большим файлом, формат вполне простой (давно есть библиотеки для его парсинга на большинстве популярных языков)
Ну то есть даже если всё с дампом так и останется, то всё равно надо будет платить кому-то кто распарсит. Почему сразу не заплатить за это Stackoverflow?
А гарантии что всё так и останется тоже нет. Ну если Stackoverflow в погоне за деньгами начнёт "гадить" в этом плане.
Во-первых, данные через api тоже нужно получить и большой вопрос как удобнее. Я когда парсил SO — предпочел делать это через локальный дамп, так как на мой взгляд у этого подхода больше преимуществ.
Во-вторых, парсер SO вам на upwork'е легко напишут за сотню-другую долларов, вряд ли SO все это затеял ради таких денег и суммы за доступ будут на несколько порядков выше.
В-третьих, сейчас SO выкладывает дамп в Internet Archive, этот фарш не повернуть назад и что-то с уже выложенными (последний был в конце прошлого года) SO вряд ли сделать сможет.
Он, конечно, может перестать это делать, но ценность новых сообщения все-таки пока меньше, чем все то что создано за десятки лет до этого (в основном сейчас в SO 95% контента — дубликаты старых вопросов и ответов).
В целом, все будет зависит от цены за полный доступ, если это будут смешные деньги это одно, если нет — совсем другое.
Во-вторых, парсер SO вам на upwork'е легко напишут за сотню-другую долларов, вряд ли SO все это затеял ради таких денег и суммы за доступ будут на несколько порядков выше.
Ну да, вам напишут парсер, а Stackoverflow что-то у себя поменяет и вам надо будет писать новый.
Он, конечно, может перестать это делать, но ценность новых сообщения все-таки пока меньше, чем все то что создано за десятки лет до этого
Это очень быстро станет востребовано. Кому нужен "копилот", которые не умеет в новые фичи языка? В новые фреймворки? В новые языки?
В целом, все будет зависит от цены за полный доступ, если это будут смешные деньги это одно, если нет — совсем другое.
И я как раз таки сомневаюсь что доступ будет стоить сильно много. То есть сейчас набежит толпа фирм, которые захотят что-то делать с ИИ. И совсем не обязательно требовать с них миллионы чтобы на этом зарабатывать.
Во-первых, распарсить xml и html может любой школьник за полчаса, это не какая-то сверхсложная наука.
Во-вторых, я не очень понял, почему вы вообще решили, что Stackoverflow будет что-то за кого-то парсить? В том бесплатном API, который я нашёл, отдаётся тот же самый html. Вы где-то вычитали, что платный API будет чем-то принципиально отличаться, или о чём речь?
Если ты берешь что-то под CC-BY-SA, то ты должен отставить те же условия, а не "код мы не покажем, но с вас 10 баксов в месяц)))0".
То есть почитав стэковерфлоу и написав основываясь на этом код, вы и его должны выложить под CC-BY-SA?
CC-BY-SA вроде не запрещает линковку - так что засовываете код со stackoverflow в отдельные файлы (библиотеки) с минимальной обвязкой и их и выкладываете под CC-BY-SA.
В цивилизованном мире и с крупными корпорациями это решается не техническими, а юридическими средствами.
Под CC-BY-SA идёт непосредственно дамп, а не содержимое форумов, так что по API и другим каналам они могут использовать разные лицензии.
Как мы видим не одна LLM не заявляет источники, потому что там все ворованное с нарушениями. Череда исков ещё впереди.
Собственно, именно об этом писал неоднократно - коммерческий "бум" нейросетей будет продолжаться до тех пор, пока не закончится период "халявного корма" для их тренировки. Когда всё это было какбэ исключительно "ради науки и двигать прогресс", никто особо не обращал внимания на источники обучения. Как только - внезапно! - замаячили "доступ по подписке" и миллиардные инвестиции, тут же появились вопросы :) Теперь нужно ожидать очень интересного момента, в какой именно точке наступит некий баланс между размерами ожидаемой прибыли и затратами на лицензирование новых "учебников" плюс возможными издержками на судебные выплаты по использованию предыдущих материалов.
Сейчас главная задача сообщества -- побить все бутылки с джиннами. Например StableDiffusion уже создана и ушла в народ. LLaMA тоже, весьма оригинальным способом была фактически выпущена в народ. Чем больше будет применений и больше интеграции в сервисы -- тем больше проблем копиистам будет откатить все назад :-) .
Самое время создать фирму с кучей юристов и одним прогером. Прогер выпарсит всё до чего дотянутся руки, а юристы обложат это правильными лицензиями для продаж владельцам нейронок и защитят от посягательств фирм вроде SO.
Всё это осложняется невозможностью достоверно проверить, использовались ли закопирайченные материалы при обучении данной конкретной нейронки. Особенно если её веса не опубликованы (коммерческая тайна!) и крутится она где-то на серверах корпорации.
Просто все будут делать вид, что учат только на public domian, а сами втихаря будут скармливать сети всё, до чего дотянутся.
Ну вообще, если сетка возвращает результат, который мог был взят только из закрытых материалов, и этот результат будет использоваться это будет повод для исков.
Условно, можно добавить водяные знаки в материалы, а потом когда к результатам сетки будет публичный доступ, спросить "чем равен глококуздревый дискриминат по вогнутой гипотенузе", если та ответит "123 с половиной смурзика" — идти в суд.
Так вроде делают для всяких баз данных, вроде адресов фирм — несколько сознательных небольших ошибок легко покажет кто у кого воровал.
Stack Overflow начнёт брать деньги с компаний, которые обучают свои нейросети на данных форума