Pull to refresh
0
0
Send message
Стоит ли спасать и что именно — сложный вопрос. Гибель редких раздач — это беда torrent в целом. Конечно, это не касается новинок кино и музыки. Чем более редкая раздача, тем сложнее её скачать через торрент — получается зависимость с прямой обратной связью. Вполне достойные раздачи уникального контента могут пропадать. В первую очередь в зону риска попадают старые авторские раздачи, автор которых неактивен. Бывает, находишь раздачу какой-нибудь интересной книги или старой игры, а скачать не можешь.
если N раздач наугад качают M независимых пауков со скоростью X раздач в сутки, то через какое время (ожидаемое) они выкачают долю Y всех раздач?

Антон получил численное решение задачи по теорверу из поста.
image
Рассмотрен случай 10 пауков, 1 500 000 раздач, каждый скачивает 1000 раздач в день. По абсциссе отложено время в днях, по ординате — доля загруженных раздач. Допущения: раздачи не создаются и не обновляются за это время, пауки запоминают список всех загруженных ими раздач, но не обмениваются этими списками друг с другом.

Пояснение к решению: каждый паук запоминает номера всех загруженныех раздач, чтобы не загружать их повторно, однако между собой они списками загруженных раздач не обмениваются. Добавление нового паука приведет к тому, что от суммы его вклада с остальными пауками нужно будет отнять произведение их вкладов — это раздачи, независимо загруженные обоими пауками.

Как выяснилось, новые и измененные раздачи рутрекера можно отслеживать через Atom, поэтому перебор раздач наугад становится неактуальным для rutracker. Но решение все равно интересное и может пригодиться для других трекеров, у которых нет возможности отслеживать обновления.
А для спасения медиатеки рутрекера нужно парочку защищенных датацентов с дисковыми массивами в разных концах планеты.

Чем больше будет отдельных узлов, тем будет надежнее. Поэтому лучше много малых сидбоксов, чем мало больших (размером с целый датацентр, к примеру). И чтобы админило их несколько людей, которые не знают реальных имен друг друга.

Кстати, не раз замечал, что мои раздачи выкачивают боты (судя по user agent) из разных уголков Земли. Раздачу с базой рутрекера, к примеру, уже парочка выкачала. Видимо, кто-то уже делает бекапы раздач. Боюсь, что только популярных. А надо делать бекапы редких раздач в первую очередь. Популярные раздачи не пропадут, если только кое-кто их не удалит.

Вы не могли бы дать сидбоксы или средства для их приобретения? Это и будет подстраховка. Можно вручную настроить сидбоксы или купить готовые (цены). Пример: 50 гигабайт, 6 раздач, неограниченный трафик, $50 в год. Хороший вариант, но число раздач маловато. Думаю, это далеко не самый дешевый вариант. Если будут сидбоксы или деньги для их покупки, то желающие спасать редкие раздачи найдутся.

Вы готовы выделить средства?
А почему бы и вам и другим трекерам не дописывать глобальные ретрекеры (openbittorrent, publicbt, ccc.de)? Ещё помогает технология обмена трекерами между пирами. Ятестировал наугад многие хеши их базы на предмет нахождения пиров исключительно через DHT и во всех случаях пиры нашлись.
Я думаю, имелась в виду децентрализованная модерация, при которой каждый мог бы «голосовать» за или против раздачи, возможен вес голоса в зависимости от количества отданного, к примеру. Раздачи сортировались бы в выдаче согласно оценкам пользователей. На хабре много раз обсуждали, как это правильно сделать. Что важно, ни у кого технически не должно быть возможности повлиять на результаты «голосования» и ни одна раздача не была бы удалена полностью.

Хочу провести аналогию. Сравните обычный банк и bitcoin. В первом случае власти могут лишить человека его денег, во втором случае это невозможно и есть возможности для дальнейшего усложнения, например шифрование кошелька и использование bitcoin через прокси. Разница между нынешней системой модерации rutracker и желаемым вариантом такая же: на rutracker могут нагрянуть копирастеры (аналог властей в случае с банком из примера выше), а с распределенной системой голосования они ничего сделать не смогут. Кроме того, голосование никогда не сможет уничтожить раздачу, оно упустит её в самый конец выдачи. Поэтому различные маргиналы, хотя и будут висеть в конце списка, но не будут удалены по крайней мере.
Приглашаю заинтересованных в конференцию torrents-database@conference.jabber.no
Спасибо! Ещё можно для этой цели использовать сайты вроде tomeko.net/online_tools/base32.php
Я думаю, скрипт, выполняющий роль клиента, будет хоститься отдельно от контента. Контент будет хоститься в самой сети, в которой будет возможен поиск по названию раздачи, чтобы опять не назначать эту задачу трекерам, делая их уязвимым звеном. И заодно встроить обязательное проксирование минимум через 1 участника сети и обязательное шифрование, чтобы копирастеры не могли приставать к сидам. Будет падение производительности сети в 2 раза, но расходы копирастеров на борьбу с такой сетью вырастут намного больше и борьба с файлообменом прекратится.
Я думаю, это не потянет на статью. Перебирались все раздачи, скачивали (нужна кука, чтобы выдавался торрент-хеш), отбирались живые (те, в которых присутствовал torrent-hash), остальные значения выдергивались регекспом и записывались в таблицу, описание сохранялось в файл. В названии раздачи HTML-конструкции заменялись на символы юникода. Файлы с описаниями добавлялись по несколько в архивы. (Добавлять каждый отдельный файл в архив будет медленно, а всё сразу архивировать в конце — будет слишком много файлов на диске к этому моменту.) Потом таблицу отсортировали по ID, нашли «пробелы» в 100 и более несуществующих раздач и все они перекачались ещё раз, на случай если трекер был недоступен, когда они первый раз скачивались, к примеру. Потом пересортировали таблицу по числу скачиваний. Всё, кажется. Если интересны скрипты, которые всё это делали, могу выложить.
1. Наша база не шифрованная. Видимо, это сообщение предназначалось rutracker.
2. Конфиденциальной информации нет ни у нас, ни в предыдущей раздаче нет. В том числе паролей.
3, 4. Уже есть клоны, но рутрекер живет.
5. Обновление базы планируется.
Заблокировать ресурс, хостящий такой скрипт, — это как заблокировать сайт загрузки uTorrent. А если это и сделают, то будет написано расширение для браузеров, включающее этот скрипт.
Спасибо за вопросы! Я частично повторю то, что писал J_o_k_e_R

1. Нужно. Лично я это понял, когда внезапно не нашел там любимых раздач, которые до этого висели и никому не мешали.

Как долго собираются потакать копирастерам? Если будет выбор между блокировкой сайта или удалением 10% раздач, кто знает, что выберут админы рутрекера. Не факт, что после удаления раздач получится вытрясти хотя бы их хеши. А если верховная власть объявит войну не только хентаю, но и аниме вообще? На чьей стороне тогда будет руководство трекера? Ни продвинутым, ни простым пользователям не придёт в голову скачивать с завирусованных сайтов то, что лежит на рутрекере.

2. Не уверен, так как бекап они зашифровали.

А вдруг там действительно белый шум? Открытое решение для такого важного бекапа лучше подходит. Лучше бы не шифровали, а подписали электронной подписью, чтобы можно было отличить поддельную таблицу от подлинной. Да и кто бы стал качать поддельную, если бы подлинная была официально выложена на самом рутрекере?

Сейчас наша база выложена у них, посмотрим за дальнейшей судьбой раздачи. Статус официальной она не получит, как было сказано выше rutracker.

После поломки один популярный вики-сайт восстанавливали из кеша гугла, потому что админы не умели делать бекапы. Надо подстраховать эту возможность в отношении рутрекера.

3. Актуализация планируется (раздел «Дальнейшие планы»).

Пост про аналогичную раздачу всей пиратской бухты. Не знаю, сколько именно людей скачали, но в данный момент на раздаче 78 сидов и это без учета DHT, как я понимаю. Если всё хорошо пойдет, их раздачу тоже обновим.
DLL-файлы Qt и kdelibs и их зависимости включены в архив с бинарниками и в раздачи на трекерах. Если Вы запускаете программу из папки с DLL-файлами, то дополнительный софт ставить не требуется.
dbanet собрал программу для поиска под мак (бинарник). Из-за проблем с kdelibs не поддерживается отображение описаний раздач и работа с сжатым final.txt. Над чтением сжатых файлов идет работа.

Данный файл мной никак не проверялся, используйте на свой страх и риск!
Обновил архив с бинарниками на bitbucket.org/ratnik/dump_viewer/downloads
Приложил к архиву ssleay32.dll, libeay32.dll и libssl32.dll.

init0, спасибо за инвайт!
Во время поиска на месте кнопки «Найти» отображается «Стоп». Во время поиска программа не реагирует на кнопку Enter в поле названия раздачи. Можно вместо этого прерывать старый поиск и начинать новый или делать окно ввода названия неактивным во время поиска.

Information

Rating
Does not participate
Registered
Activity