Comments 19
Все материалы, используемые в дата-сете, уже перешли в публичный доступ
Это 50+ летняя давность? А не будет ли потом LLM выдавать что-то подобное? ;)

Не понял, а в чём проблема? В смысле какое отношение Google Books имеют к книгам, которые не они публиковали? Это как если бы я пытался запретить Васе цитировать Пушкина на том основании, что книги Пушкина стоят у меня на полке.
Мне кажется, Google потратил ресурсы в свое время чтобы оцифровать эти старые книги, а тут приходят другие монополисты и типа давайте скормим просто это все.
Ну и сервис Google лишается пользы потому что кто то другой прикинулся альтуристом.
Во-первых, гугля можно послать лесом, и закон этого не запрещает (в отличие от закона о АП); во-вторых, эти книги можно взять откуда угодно (например, взять в библиотеке и отсканировать самому), и никакой гугль Вам этого запретить не может.
Вот если брать файлы из коллекции гугля, то было бы справедливо ему немного башлянуть. Однако гугль раз гугль сам их выложил в открытый доступ (на страницах books.google.com), то сдать назад и выкатывать претензии постфактум он уже не может.
во-вторых, эти книги можно взять откуда угодно
Можно, но этого не было сделано (по понятной причине - никому не захотелось повторно разыскивать и сканировать такую уйму книг).
Ну так повторюсь: закон — не запрещает, а гугль запретить не может, ибо публичная оферта.
Я делаю копию картины. Потом приходите вы и говорите : "А давайте её отдадим бесплатно людям."
Мне становится обидно и я начинаю с вами судиться.
Это не совсем так. В штатах есть закон о добросовестном использовании произведений, защищённых авторским правом. И лавировать там непросто
https://chatgpt.com/share/675cb50f-e334-8010-b3d3-e28d5a78065b
Чатгпт расписал положняк по этому закону
В штатах есть закон о добросовестном использовании произведений, защищённых авторским правом.
Осталось понять, каким он тут боком, с учётом того, что
Все материалы, используемые в дата-сете, уже перешли в публичный доступ
Конечно Гарвард с Микрософтом могут отсканировать их сами, но на сканирование пол миллиона книг надо время и ресурсы, а Гуголь это уже сделал, просто делиться результатом своих затрат не хочет.
И какие именно книги выложены на books.google.com? Поискал там то, на что явно авторские права истекли, вроде Гамлета, он инфу о книжке показывает, а скачать не дает, посылает покупать в книжных магазинах.
Прикольно, спасибо, потыкался подольше в интерфейсе, в итоге нашел как добраться до книг у которых есть скачивание:
Зашел на https://books.google.com/ в строке поиска написал Hamlet, он выдал список книг, самая первая то, что нужно, вот-эта: https://www.google.com/books/edition/Hamlet/A7lfjgEACAAJ?hl=en дальше идет что-то странное.
Зашел в эту книгу, ее можно только купить, но еще есть кнопка Other editions, тыкаю в нее, получаю длинный список книг, причем книги с первой страницы скачивать нельзя, только купить. Но если в списке фильтра нажать на кнопку "More", то можно будет выбрать фильтр "Download available" и тогда уже можно попасть на книжки с этой вот вашей кнопкой :)
И опять,-же, это фотографии книжных страниц сшитые в pdf-ку, которые надо распознавать. Они наверняка есть в текстовом формате у всех издательств, интересно, а у гугла они может тоже есть, и, возможно, Гарвард с Микрософтом именно их просили? Еще вариант, что добраться до pdf-ок даже в ручную надо тыкать много в кнопки, возможно, что жадный гуголь максимально защитился от всяких краулеров, которые автоматически скачивают по списку, поэтому и стали у него просить так отдать.
Пол миллиона книг из почти что 130 миллионов, согласно тому же Google Books:
Гарвард при поддержке Microsoft собрал открытый дата-сет из ~500 000 книг, но Google не дает его опубликовать