Как стать автором
Обновить

Комментарии 2

К слову недавно обратил внимание, что у изображений на commons.wikimedia.org есть поле "Items portrayed in this file". Появилось подозрение, что это для создания датасета на основе их изображений.

Вроде как это не совсем дампы википедии, это уже предобработанные XML выгрузки данных. Настоящий дамп википедии лежит в json.gz. И прочитать про него информацию и скачать можно здесь

https://www.wikidata.org/wiki/Wikidata:Database_download

Вот хотелось бы из него данные повыдергивать, в удобном виде.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий