strayge 26 янв 2016 в 11:37

Оффлайн база rutracker с описаниями раздач и возможость поиска по категориям

4 мин

23K

Open source*

Из песочницы

+20

Комментарии 15

forgotten 26 янв 2016 в 12:29

Один мой друг интересуется, нет ли такого же, но для порнолаба и с сохранением скриншотов?

+19

strayge 26 янв 2016 в 12:35

Нету, подправить скрипт не сильно сложно, но:
1) Из-за более низкого числа сидеров, раздачи, удаленные с сайта, будут быстрее умирать.
2) В текущей версии с сайта тянется только исходный код описания, ссылки на внешние хостинги останутся ссылками и их (пока они не умрут) можно будет посмотреть из просмотрщика.
3) Если вы хотите сохранять все скриншоты с внешних сервисов, вам понадобится уметь парсить еще и их.

forgotten 26 янв 2016 в 13:50

Просто видеть html страницы as is было бы достаточно ;)

strayge 26 янв 2016 в 20:17

В общем я посмотрел, спарсить порнолаб можно, нужна минимальная переделка скрипта.
Основная выявленная проблема: на странице не публикуется хэш раздачи, необходимо качать torrent-файл и вытаскивать из него.
Для нового пользователя ограничение — 5 торрентов в сутки. А без хэшей база и не особо нужна.

forgotten 26 янв 2016 в 21:12

Положим, пользователь не новый )

strayge 26 янв 2016 в 21:30

Максимум 100 торрентов в день: pornolab.net/forum/viewtopic.php?t=980552#4
Даже с такой скоростью всю базу выкачивать сильно затратно по времени.
Можно выкачивать только определенные разделы, или только наиболее популярные раздачи.
Например, сейчас только 400 раздач имеют > 200 сидов.

dmitry_dvm 27 янв 2016 в 18:42

Для одного моего знакомого делал функцию для телеграм-бота, чтобы по определенному запросу боту он отвечал случайной ссылкой с порнолаба, но не осилил отделить ссылки именно на раздачи от ссылок на разделы и прочих ссылок. Нет мыслей как там всё это реализовано? В каких диапазонах лежат айди раздач?

strayge 27 янв 2016 в 18:43

Идентификатор просто икрементируется, разделения по типам нет. Для такой задачи нужно пройти по всем id и сохранить тип.

dmitry_dvm 27 янв 2016 в 19:41

То есть нельзя без предварительного парсинга сделать рабочий алгоритм?

strayge 27 янв 2016 в 19:53

Можно случайно перебирать, пока не попадешь на раздачу, для этого даже логиниться не надо.
А номера, где нет раздач, например, запоминать, чтобы больше их не дергать.

EvilsInterrupt 26 янв 2016 в 14:10

>>На момент начала работы над скриптом, rutracker еще не выкладывал свою базу
А можно др.линк на базу или MD5 от файла?

strayge 26 янв 2016 в 14:27

magnet-hash: 628F28C998A79D780455DC1B60892DD721EE44D1 (от 15.01.2016)

devcor 28 янв 2016 в 12:09

Кхм, простите не сведущего в этих делах, но зачем всё-таки это было сделано? Нет, я прочитал секцию «зачем» и всё равно не понял, зачем это делать при работающем сайте.

strayge 28 янв 2016 в 12:16

В первую очередь писалось для себя, чтобы поднять свой уровень Python.
Даже в таком простеньком GUI мне удобнее искать, чем на сайте: для примера попробуйте на сайте найти топ популярных аудиокниг.
В моей программе достаточно в поле категорий ввести «аудиокниги».

zoldaten 21 окт 2021 в 14:27

Пытался починить parser, но все равно не хочет. Выдает free cookie not available, хотя ссылки и пути верные...видимо. что еще мешает.

Тем не менее, удалось починить viewer.py (см. github проекта) в issues.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Показать лучшие за всё время

Оффлайн база rutracker с описаниями раздач и возможость поиска по категориям

Комментарии 15

Публикации

Истории