Парсим Википедию для задач NLP в 4 команды
Суть
Оказывается для этого достаточно запуcтить всего лишь такой набор команд:
git clone https://github.com/attardi/wikiextractor.git
cd wikiextractor
wget http://dumps.wikimedia.org/ruwiki/latest/ruwiki-latest-pages-articles.xml.bz2
python3 WikiExtractor.py -o ../data/wiki/ --no-templates --processes 8 ../data/ruwiki-latest-pages-articles.xml.bz2
и потом немного отполировать скриптом для пост-процессинга
python3 process_wikipedia.py
Результат — готовый .csv
файл с вашим корпусом.