ITSumma Dec 12 2024 at 10:37

Гарвард при поддержке Microsoft собрал открытый дата-сет из ~500 000 книг, но Google не дает его опубликовать

3 min

8.1K

ITSumma corporate blogBig Data*Open source*Artificial IntelligenceMachine learning*

Comments 19

YMA Dec 12 2024 at 10:54

Все материалы, используемые в дата-сете, уже перешли в публичный доступ

Это 50+ летняя давность? А не будет ли потом LLM выдавать что-то подобное? ;)

Wesha Dec 12 2024 at 11:00

Как-то так

PNSpasskiy Dec 13 2024 at 10:44

Хрен с ним со стилем. По медицине там книги есть? Не начнёт ли советовать лечиться корой дуба и подорожником.

Wesha Dec 12 2024 at 10:56

Не понял, а в чём проблема? В смысле какое отношение Google Books имеют к книгам, которые не они публиковали? Это как если бы я пытался запретить Васе цитировать Пушкина на том основании, что книги Пушкина стоят у меня на полке.

zartdinov Dec 12 2024 at 11:12

Мне кажется, Google потратил ресурсы в свое время чтобы оцифровать эти старые книги, а тут приходят другие монополисты и типа давайте скормим просто это все.

Ну и сервис Google лишается пользы потому что кто то другой прикинулся альтуристом.

Wesha Dec 12 2024 at 11:38

Во-первых, гугля можно послать лесом, и закон этого не запрещает (в отличие от закона о АП); во-вторых, эти книги можно взять откуда угодно (например, взять в библиотеке и отсканировать самому), и никакой гугль Вам этого запретить не может.

Вот если брать файлы из коллекции гугля, то было бы справедливо ему немного башлянуть. Однако гугль раз гугль сам их выложил в открытый доступ (на страницах books.google.com), то сдать назад и выкатывать претензии постфактум он уже не может.

dartraiden Dec 12 2024 at 12:21

во-вторых, эти книги можно взять откуда угодно

Можно, но этого не было сделано (по понятной причине - никому не захотелось повторно разыскивать и сканировать такую уйму книг).

Wesha Dec 12 2024 at 15:19

Ну так повторюсь: закон — не запрещает, а гугль запретить не может, ибо публичная оферта.

PNSpasskiy Dec 13 2024 at 10:46

Я делаю копию картины. Потом приходите вы и говорите : "А давайте её отдадим бесплатно людям."

Мне становится обидно и я начинаю с вами судиться.

Wesha Dec 13 2024 at 19:16

Именно так: судиться — можно, а запрещать — увы и ах.

siv237 Dec 14 2024 at 13:04

не ее саму а цифровую копию

Kejma Dec 13 2024 at 22:24

Это не совсем так. В штатах есть закон о добросовестном использовании произведений, защищённых авторским правом. И лавировать там непросто

Kejma Dec 13 2024 at 22:29

https://chatgpt.com/share/675cb50f-e334-8010-b3d3-e28d5a78065b

Чатгпт расписал положняк по этому закону

Wesha Dec 13 2024 at 23:09

В штатах есть закон о добросовестном использовании произведений, защищённых авторским правом.

Осталось понять, каким он тут боком, с учётом того, что

Все материалы, используемые в дата-сете, уже перешли в публичный доступ

Politura Dec 12 2024 at 21:08

Конечно Гарвард с Микрософтом могут отсканировать их сами, но на сканирование пол миллиона книг надо время и ресурсы, а Гуголь это уже сделал, просто делиться результатом своих затрат не хочет.

И какие именно книги выложены на books.google.com? Поискал там то, на что явно авторские права истекли, вроде Гамлета, он инфу о книжке показывает, а скачать не дает, посылает покупать в книжных магазинах.

Wesha Dec 13 2024 at 01:23

вроде Гамлета, он инфу о книжке показывает, а скачать не дает,

Эй Гугель! Два Гамлета этому господину!

(жмякать на вот эту кнопоську)

Politura Dec 13 2024 at 18:47

Эй Гугель! Два Гамлета этому господину!

Прикольно, спасибо, потыкался подольше в интерфейсе, в итоге нашел как добраться до книг у которых есть скачивание:

Зашел на https://books.google.com/ в строке поиска написал Hamlet, он выдал список книг, самая первая то, что нужно, вот-эта: https://www.google.com/books/edition/Hamlet/A7lfjgEACAAJ?hl=en дальше идет что-то странное.
Зашел в эту книгу, ее можно только купить, но еще есть кнопка Other editions, тыкаю в нее, получаю длинный список книг, причем книги с первой страницы скачивать нельзя, только купить. Но если в списке фильтра нажать на кнопку "More", то можно будет выбрать фильтр "Download available" и тогда уже можно попасть на книжки с этой вот вашей кнопкой :)

И опять,-же, это фотографии книжных страниц сшитые в pdf-ку, которые надо распознавать. Они наверняка есть в текстовом формате у всех издательств, интересно, а у гугла они может тоже есть, и, возможно, Гарвард с Микрософтом именно их просили? Еще вариант, что добраться до pdf-ок даже в ручную надо тыкать много в кнопки, возможно, что жадный гуголь максимально защитился от всяких краулеров, которые автоматически скачивают по списку, поэтому и стали у него просить так отдать.

Wesha Dec 13 2024 at 19:19

Так на первой странице книга 2010 года — там под копирайтом не сам текст "Гамлета", а комментарии и визуальное оформление.

Больше чтения по теме.

aart3 Dec 12 2024 at 11:11

Пол миллиона книг из почти что 130 миллионов, согласно тому же Google Books:

https://habr.com/ru/amp/publications/101160/