Как стать автором
Обновить

Комментарии 15

Один мой друг интересуется, нет ли такого же, но для порнолаба и с сохранением скриншотов?
Нету, подправить скрипт не сильно сложно, но:
1) Из-за более низкого числа сидеров, раздачи, удаленные с сайта, будут быстрее умирать.
2) В текущей версии с сайта тянется только исходный код описания, ссылки на внешние хостинги останутся ссылками и их (пока они не умрут) можно будет посмотреть из просмотрщика.
3) Если вы хотите сохранять все скриншоты с внешних сервисов, вам понадобится уметь парсить еще и их.
Просто видеть html страницы as is было бы достаточно ;)
В общем я посмотрел, спарсить порнолаб можно, нужна минимальная переделка скрипта.
Основная выявленная проблема: на странице не публикуется хэш раздачи, необходимо качать torrent-файл и вытаскивать из него.
Для нового пользователя ограничение — 5 торрентов в сутки. А без хэшей база и не особо нужна.
Положим, пользователь не новый )
Максимум 100 торрентов в день: pornolab.net/forum/viewtopic.php?t=980552#4
Даже с такой скоростью всю базу выкачивать сильно затратно по времени.
Можно выкачивать только определенные разделы, или только наиболее популярные раздачи.
Например, сейчас только 400 раздач имеют > 200 сидов.
Для одного моего знакомого делал функцию для телеграм-бота, чтобы по определенному запросу боту он отвечал случайной ссылкой с порнолаба, но не осилил отделить ссылки именно на раздачи от ссылок на разделы и прочих ссылок. Нет мыслей как там всё это реализовано? В каких диапазонах лежат айди раздач?
Идентификатор просто икрементируется, разделения по типам нет. Для такой задачи нужно пройти по всем id и сохранить тип.
То есть нельзя без предварительного парсинга сделать рабочий алгоритм?
Можно случайно перебирать, пока не попадешь на раздачу, для этого даже логиниться не надо.
А номера, где нет раздач, например, запоминать, чтобы больше их не дергать.
>>На момент начала работы над скриптом, rutracker еще не выкладывал свою базу
А можно др.линк на базу или MD5 от файла?
magnet-hash: 628F28C998A79D780455DC1B60892DD721EE44D1 (от 15.01.2016)
Кхм, простите не сведущего в этих делах, но зачем всё-таки это было сделано? Нет, я прочитал секцию «зачем» и всё равно не понял, зачем это делать при работающем сайте.
В первую очередь писалось для себя, чтобы поднять свой уровень Python.
Даже в таком простеньком GUI мне удобнее искать, чем на сайте: для примера попробуйте на сайте найти топ популярных аудиокниг.
В моей программе достаточно в поле категорий ввести «аудиокниги».

Пытался починить parser, но все равно не хочет. Выдает free cookie not available, хотя ссылки и пути верные...видимо. что еще мешает.

Тем не менее, удалось починить viewer.py (см. github проекта) в issues.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории