Jessy_James11 мая 2022 в 17:15

Экспорт статей Хабра в html, markdown

2 мин

16K

HabrPython *

+34

Комментарии 30

MentalBlood 11 мая 2022 в 20:09

Отличная идея

Если решите развивать, было бы круто добавить многопоточность и оформить в виде питоновского пакета (чтобы можно было pip install habrArticleSrcDownloader)

Jessy_James 11 мая 2022 в 20:17

Спасибо. Многопоточность из головы выпала. Добавлю ваши замечания.

Jessy_James 12 мая 2022 в 11:30

Многопоточность добавил, теперь все зависит от кол-ва ваших процессоров.

Ploni 11 мая 2022 в 21:51

А вот чтоб еще и с комментами - можно такое?

Jessy_James 11 мая 2022 в 21:51

Да, доработаю.

Jessy_James 12 мая 2022 в 15:02

Добавил, пока кривовато. Не придумал как их красиво сохранять (а главное вытащить).

Ploni 15 мая 2022 в 04:34

Спасибо! Вообще, идея супер.

rapatar 1 ноя 2024 в 08:03

До сих пор пытаюсь найти скрипт, который будет сохранять статьи из списка ссылок на хабр и отдельно комментарии выше определенного рейтинга, в отдельные маркдаун файлы, например выше +2. В идеале вообще, скрипт добавлял бы ссылки на комментарий во фронтматтер.

kt97679 12 мая 2022 в 04:39

Можно попросить вас добавить возможность скачать только одну статью по айди?

dot22 12 мая 2022 в 05:22

Если нужна только одна статья именно в формате md и прямо сейчас, то можно использовать плагин (работает в хроме и опере (через прокладку) https://chrome.google.com/webstore/detail/markdownload-markdown-web/pcmpcfapbekmbjjkdalcgopdkipoggdi
А так - да, действительно было бы замечательно - иметь возможность скачивать не все статьи пользователя сразу, а только какую-то одну конкретную. Ну, и как выше уже писали - если бы еще вместе с комментариями - было бы еще лучше.

Обсидиан - который работает с файлами в формате md, - в таком случае вообще можно было бы сделать что-то типа локальной базы знаний избранных статей с хабра - с поиском, тегами, пометками, графами и всякими другими плюшками.

kt97679 12 мая 2022 в 07:22

Прошу прощения, надо было точнее сформулировать вопрос. Я ищу решение для скачивания набора статей разных авторов. Хочу заархивировать статьи из своего трекера.

dot22 12 мая 2022 в 10:15

Хотелось бы уточнить по поводу трекера. Не совсем понимаю, что Вы имеете в виду?

Из Вашего комментария - "возможность скачать только одну статью по айди"

Как я понимаю, т.е. уже есть какой-то подготовленный список статей, которые Вам интересны, с url-ами, содержащими ID статьи?, как, например, обсуждаемая статья
https://habr.com/ru/post/665254/
Если есть список - почему бы не использовать специализированные инструменты, именно и предназначенные для скачивания файлов любого типа из интернета - первое, что приходит на ум - wget или curl.

Если же интересует именно формат md, то после (или даже во время загрузки по пайпу) файлы в формате html уже локально можно переконвертировать в md (вроде как pandoc это умеет искаропки)

Или я опять делаю поспешные выводы?

kt97679 12 мая 2022 в 16:24

Можно попросить вас уточнить как вы предлагаете использовать wget? Спрашиваю потому, что если сделать wget -r -np https://habr.com/ru/post/665254/, то скачиваются 2 файла: с содержимым статьи и с комментариями:

$ find . -type f

./habr.com/ru/post/665254/index.html

./habr.com/ru/post/665254/comments/index.html

./habr.com/robots.txt

$

В результате я вижу 2 проблемы: как скачать прочие ресурсы, например картинки, не выкачивая весь хабр. И как склеить тело статьи с комментариями.

Jessy_James 12 мая 2022 в 11:32

Добавил возможность скачивать свои закладки.

Скачиваем статьи пользователя:

./src/main.py -u jessy_james

Скачиваем закладки пользователя:

./src/main.py -f jessy_james

kt97679 12 мая 2022 в 16:24

Огромное спасибо!

rapatar 14 мая 2022 в 21:46

Интересно а это можно как то оформить в формате плагина для обсидиан?

kuaniv 12 мая 2022 в 13:58

Спасибо! Отличный скрипт! Скачал уже 2 Гб статей.

Столкнулся с такой особенностью. Если заголовок статьи содержит, например, знак вопроса, то имя папки и файлов будут включать экранированный знак вопроса '/?'. Если эти файлы потом перенести в Win, то их имена не читаются. Можно добавить в скрипт игнорирование спецсимволов при создании файлов/папок?

Jessy_James 12 мая 2022 в 14:19

Да, есть такая проблема. Не все спец. символы которые запрещены в использовании имен папок убираю. Поправлю в ближайшее время.

Jessy_James 13 мая 2022 в 17:42

Убираю спец. символы, если какие не учел напишите, или поправьте и pull request мне.

arboozof 12 мая 2022 в 19:36

Великолепный инструмент! Jessy_James, спасибо вам!

AquariusStar 12 мая 2022 в 20:19

Хороший инструмент! Я обычно сохраняю в pdf. Но это не всегда удобно. Если есть анимированные картинки, то уже совсем грустно становится. Кстати, в некоторых статьях есть картинки с форматом jpeg и с форматом PNG. Вот jpeg почему-то портит картинку в браузере и VS Code. Только отдельным просмотрщиком можно смотреть. А вот PNG уже нормально. Есть ли возможность указать на принудительное сохранение картинок в нужном формате? А также сделать сохранение только конкретной статьи, а не всех?

Jessy_James 13 мая 2022 в 17:45

Принудительный формат картинок не укажешь, картинка скачивается по ссылке которая указана в статье (Что автор поставил, то и будет.).

arboozof 13 мая 2022 в 11:08

Есть предложение использовать в именовании каталогов 3-значную порядковую нумерацию, дополняя слева незначащими нулями (например, 001 — каталог с публикацией #1, 078 — каталог с публикацией #78). Дабы на выходе, при отображении каталогов в файловом менеджере, была сортировка, как вы и задумывали — от последней написанной к первой (хотя при загрузке своих публикаций я получил обратную сортировку, которая как мне кажется и правильная — от первой написанной к последней).

Jessy_James 13 мая 2022 в 13:26

Я писал, что скачивается от последней статьи к первой. Нумерация же как раз шла от первой написанной к последней. Сейчас же из за многопоточности порядок скачивания как получится.

arboozof 13 мая 2022 в 14:24

В моем случае они скачались ровно по порядку от старой к новой, с соответствующей нумерацией. По трехзначной нумерации, эстетики ради, подумайте...

Jessy_James 13 мая 2022 в 17:43

Сделал нумерацию.

arboozof 13 мая 2022 в 22:46

Супер. Отдельное спасибо за реализацию пожеланий!

Jessy_James 13 мая 2022 в 20:01

Добавил возможность скачивания одиночной статьи:

./src/main.py -s 665634

JerryI 27 мар 2025 в 09:55

А поддержку в OSX имеется?

У меня не вышло :(

/Library/Developer/CommandLineTools/Library/Frameworks/Python3.framework/Versions/3.9/lib/python3.9/multiprocessing/resource_tracker.py:216: UserWarning: resource_tracker: There appear to be 4 leaked semaphore objects to clean up at shutdown

Jessy_James 30 мар 2025 в 20:08

Нет, т.к. у меня нет mac-ка.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий