difiso Sep 1 2012 at 12:31

Возвращаемся на раздачу или как сделать невозможное

14 min

78K

Decentralized networks *

+121

Comments 77

BorisPlus Sep 1 2012 at 12:54

Круто. Молодчина.

lllypyn Sep 1 2012 at 12:58

Мне вообще кажется, что подобный функционал должен быть в самом клиенте.

difiso Sep 1 2012 at 13:10

Должна быть! Но мое кунгфу не настолько сильное, чтобы с ним лезть в исходники трансмиссии или рторрента.

Askell Sep 2 2012 at 07:34

Зато есть к чему стремиться.

iFrolov Sep 1 2012 at 16:41

Функционал вам ничего не должен. Берите и пишите.

petrovnn Sep 3 2012 at 19:08

Как альтернативный вариант — интегрировать в клиент примитивный файл-менеджер, при перемещении файла в котором линки обновляются ИЛИ написать плагин для тотал-коммандера который будет обновлять эти линки

Ice_venom Sep 1 2012 at 13:07

Здорово! Чтобы форма не подвисала во время сканирования можно использовать BackgroundWorker

StrangeAttractor Sep 1 2012 at 13:27

Чтобы форма не подвисала во время сканирования можно использовать BackgroundWorker

Я бы даже сказал нужно. Вообще делать работу в том же потоке, что работает UI — очень дурной тон и годиться только для «quick&dirty» прототипов. На крайняк, если лень писать нормально, но хочется придать поделке товарный вид, есть такая альтернатива как явный вызов обработки сообщений внутри тела рабочего цикла.

iFrolov Sep 1 2012 at 16:43

Совершенно верно. На месте автора я бы сделал консольное приложение, а эксперты по UI могут все написать сами, по своим вкусам и желаниям. Ссылка на репозиторий в самом посте.

tangro Sep 2 2012 at 08:30

По-хорошему, нужно делать не GUI-приложение и не консоль, а класс в библиотеке, который потом уже лентяи используют в пару строк в консольной программе, а эстеты напишут UI на каких-нибудь модных WPF и многопоточности.

iFrolov Sep 2 2012 at 09:45

Тогда бы автору пришлось еще писать консольный фронтенд

tangro Sep 2 2012 at 12:11

Зачем? Точно так же написал бы то, что написал.

iFrolov Sep 2 2012 at 12:14

Как минимум, весь софт пишется для себя любимого. Надо же как-то это дело запускать самому? А если это оформлять в виде либы, то нужно еще и пускалку делать. Нет, консольное приложение писать всяко проще.

Nashev Sep 4 2012 at 17:16

самому — из под отладчика, как же ещё! ;)

KvanTTT Sep 2 2012 at 19:44

Да, а еще хорошо бы прогресс-бар использовать.

StrangeAttractor Sep 1 2012 at 13:19

явно не менял расширения файлов. Имя мог поменять, а вот расширение вряд ли

Если расширение было в верхнем регистре — поменяю его на нижний практически обязательно.

difiso Sep 1 2012 at 13:28

Хм… Виноват. Хотя мне кажется, что .net возвращает какой-то один вид. Проверю как будет возможность.

StrangeAttractor Sep 1 2012 at 13:44

Вообще лично для себя я вижу эту задачу немного иначе.

Когда-то я имел отдельные папки по разным трекерам, хранил все torrent-файлы и не переименовывал и не перемещал сами файлы. Сейчас всё уже не так — практически всё скачанное переименовано, пересортировано, и расползлось по разным жёстким дискам. И я, разумеется, не помню сколько-нибудь полного списка того, что и откуда я качал.

Соответственно задача в идеальном случае (не знаю на сколько это возможно — может быть это заняло бы дохренища времени):

Скачать ВСЕ (ну или хотя бы из определённых разделов, исключив некоторые разделы по нехарактерным для меня темам) torrent-файлы с нескольких трэкеров и просканировать примерно 3 терабайта «файлопомойки» на предмет соответствия искомым хэшам.

При этом есть и вовсе нерешаемые проблемы: некоторые файлы шли в архивах и я их разархивировал, некоторые наоборот заархивировал, а в некоторых музыкальных файлах поменял теги так что хоть контент и имеется, это уже другие файлы с другими хэшами.

iFrolov Sep 1 2012 at 16:44

частичная проверка хешей поможет от измененных тегов, особенно если размер пайсов небольшой.

StrangeAttractor Sep 1 2012 at 18:40

Умнó. Не подумал такой возможности. Спасибо.

iFrolov Sep 1 2012 at 18:52

На самом деле все очень натянуто. К примеру, если поменяется размер тега в начале файла, то будет сдвиг всех данных файла. В этом случае посчитать хеш конечно можно, но с какой позиции его считать? Что уже скорее невозможно.

iFrolov Sep 1 2012 at 18:54

А вот поменяется ли размер от изменения тегов — опять непонятно. Будет ли приложение добавлять паддинг тегу или сразу запишет данные — зависит только от него. Будет ли сохранен паддинг, или нет — опять не ясно. Все зависит от конкретных реализаций.

Zyamilon Sep 2 2012 at 11:47

Я пришел к такому выводу — музыку не раздавать вообще. Ну, почти.
Т.е. есть две папки:
.../music — здесь музыкальная коллекция. Всё красиво, организованно
.../INBOX/music — сюда попадает новая музыка. Она лежит какое-то время, раздаётся, а потом, когда руки доходят и файлы меняются, с раздачи снимается.

Всё потому что крайне мало треков, где что-нибудь не изменено.

difiso Sep 2 2012 at 11:54

Размер поменяется, а вот раздавать все равно можно будет, но только те части файлов в которых находится непоследственно музыка. Те части, в которых находятся теги, будут, естественно, признаны негодными для раздавания.

iFrolov Sep 2 2012 at 11:59

Как будешь их искать?

difiso Sep 2 2012 at 12:26

Сейчас проверяется только первый кусок, и, если его хеш совпадает, то он считается нашим. Можно проверять все куски, которые есть в этом файле (это есть, отлажу и запилю), но тут возникает вопрос, как считать правильность? Можно считать подходящим только тот файл, у которого совпал хеш всех проверенных кусков. А можно выставить «порог доверия», то есть говорить, что файл наш, если совпали, скажем, 75% кусков, независимо от их положения в файле.

iFrolov Sep 2 2012 at 12:29

А если данные сдвинуты на 1 байт? Будешь считать 2м хешей?

difiso Sep 2 2012 at 12:40

Если данные сдвинуты на байт, то ни один хеш уже не совпадет. В этом и проблема, из-за которой я пока не хочу использовать этот «порог». Сейчас хочу сделать проверку всего файла, но при первом несовпадении считать «не тем» и поиск продолжать дальше.

ve1m Sep 1 2012 at 13:46

«Найти в куче файлов тот, который соответствует описанному в .torrent, и переместить его в папку, соответствующую пути в .torrent.»
На мой взгляд, было бы логичнее оставить файл где есть, а изменить путь к нему в торренте. Например, если у меня расползется по папкам с кривыми путями та же тщательно отструктурированная и проименованная Бондиада (напр. Nekogda.ne.govori.nekogda, как написал недавно безызвестный автор), я буду недоволен.

difiso Sep 1 2012 at 16:42

Обязательно попробую поковырять в этом направлении. Создайте issue на github, а то могу забыть.

ve1m Sep 1 2012 at 17:01

Меня на гитхабе нет ввиду отсутствия необходимости, извините.

ve1m Sep 1 2012 at 19:28

О как. За отсутствие учетки на гитхабе нынче минусуют? А если у меня реально нет необходимости в его использовании — я недочеловек?

tangro Sep 2 2012 at 08:32

>За отсутствие учетки на гитхабе нынче минусуют?

А скоро вообще морду бить будут! Останавливают тебя на районе, и так «Есть учетка на Гитхабе? А ну ка дай по-быстрому одну issue зарепортить?»

Dyr Sep 2 2012 at 10:16

«А если найду?» )

ve1m Sep 2 2012 at 10:24

«Дай аккаунт на хабре, коммент написать, да не боись, я не про линукс»

Mithgol Sep 2 2012 at 10:26

Вами описанное скорее не «за отсутствие», а «за наличие», то есть в духе «до тех пор, пока не даст issue зарепортить, а заодно и учётку угнать».

difiso Sep 2 2012 at 11:10

— Ну зачем хамишь? У тебя просят на Github, а ты мне на Bitbucket пихаешь Нехорошо!

iFrolov Sep 1 2012 at 16:45

такое раздавать в прежней раздаче уже нельзя

ve1m Sep 1 2012 at 16:55

Да ну?
habrastorage.org/storage2/b9f/e5c/85c/b9fe5c85cfb3f438a191320ed1272836.png

iFrolov Sep 1 2012 at 17:01

Щито? Переместить файл в торрент-клиенте — это одно. Переместить его в торрент-файле — совершенно другое. Информация о имени/пути лежит внутри info-чанка. Идентификационный хеш считается на основе info-чанка. Поменяв 1 букву в имени, мы получим уже другой торрент, о прежней раздачи говорить уже нельзя.

ve1m Sep 1 2012 at 17:06

В таком случае затея практически лишена смысла. Подозреваю, что мало кто хранит файлы в оригинальных названиях после завершения закачки, как правило они неудобоваримы или принципом наименования противоречат замыслу пользователя.

iFrolov Sep 1 2012 at 17:12

В таком случае предлагаю расстрелять автора за то, что написал никому не нужное изделие, создал никому не нужный тред, потратил время уважаемые посетителей уважаемого ресурса, да и вообще из-за него идет снижение ВВП.

ve1m Sep 1 2012 at 17:28

Воля Ваша, Иосиф Виссарионыч :)

Kassandr Sep 1 2012 at 19:37

«Оригинальные названия» действительно в подавляющем большинстве случаев меня не устраивают. Приходится не лениться и изменять название в процессе добавления торрента в список закачек клиента. В «Мюторренте» (по-моему и в Делюге тоже такое делал) это приводит к тому, что в списке закачек клиента у раздачи остаётся «оригинальное название», а на винте — то, которое было указано при добавлении торрента.
Сори, сонный, пишется темно и вяло. Но думаю, всем понятно, что я подразумеваю.

ve1m Sep 1 2012 at 19:43

Раздачу в процессе также можно переименовать, если планируется оставить ее надолго, чтобы глаз не резала. По крайней мере в мюторренте.
А так да, изменение названия в процессе выбора места закачки файла — крайне удобная и приятная возможность.

Athari Sep 1 2012 at 21:56

Так в клиенте перемещать и надо. У мюторрента в нутрях конфигов примерно тот же формат берётся за основу, что и у торрентов, вроде. Привязка к клиенту, конечно, но, думаю, его популярность очень высока.

Dyr Sep 2 2012 at 10:18

Если бы все трекеры оперировали расширением BitTorrent, которое добавляет magnet-ссылку, всё было бы гораздо, гораздо прощею

iFrolov Sep 2 2012 at 11:43

Магнеты не имеют отношения к трекерам

Nashev Sep 1 2012 at 14:00

Да… А ведь хотелось бы просто в клиенте указать — найди файлы этих раздач вон в той папке и раздавай… чтоб он сам все это сделал, никуда не копируя их.

fanex Sep 1 2012 at 14:01

Причина этого ограничения — использование при сканировании директорий параметра `SearchOption.AllDirectories`, что приводит к вылету при попытке прочитать закрытые директории типа корзины или `System Volume Information` (если знающие люди подскажут как это обойти, то буду весьма признателен).

Я не сильно знающий человек, но может просто проверять аттрибуты и не искать среди скрытых и системных файлов?

difiso Sep 1 2012 at 16:46

Параметр SearchOption есть либо AllDirectories, либо TopDirectoryOnly. Это можно обойти ручным перебором директорий. Мне этот вариант не нравится, поэтому если не найду ничего лучше, то сделаю его.

mgyk Sep 1 2012 at 14:52

А зачем перемещать, может прости симлинк сделать на каждый фаил? Мне кажется это более логичным. На linux/osx лучше даже хардлинки сделать.

Athari Sep 1 2012 at 21:59

Хардлинки и на винде есть. Давно. :)

iFrolov Sep 1 2012 at 15:00

Хорошая работа, однако было бы хорошо добавить решим «кандидатов». К примеру, есть у нас торрент с мелкими файлами, части файлов нет, как следствие хеш проверить мы не можем. Однако, используя данные о размере файлов можно попробовать найти все файлы данного размера и поместить их в директорию «кандидаты», а что делать с ними дальше — пусть решает человек.

Но это наверное особого смысла не имеет, торренты с мелкими файлами можно зачастую перекачать, хотя недавно по интернету ходил торрент-файл с 80к мелких картинок.

Еще фича: файлы «частично похожие», когда мы имеем сегменты для проверки хеша, но все хеши не совпадают. Такое может случиться из-за повреждения данных на диске/изначальной недокачанности.

difiso Sep 1 2012 at 16:51

Для каждого файла складывать кандидатов в отдельную папку — сильно затратно. К тому же если реальный файл поврежден, то его там может не быть.

Мелкие файлы, даже если их много, перекачать проще, чем искать кандидатов на их место.

iFrolov Sep 1 2012 at 16:58

Ну дело твое, я просто предложил. Можешь их просто проиндексировать и по размеру попробовать подобрать цепь, при каждой попытке считая хеш. Но это просто идея, а не призыв к действию.

Riateche Sep 1 2012 at 18:36

Можно попробовать вместо перемещения и переименования файлов создавать для них симлинки с правильными именами в отдельной папке.

vkupriyanov Sep 2 2012 at 07:37

Григорий, выше уже поднималась несколько раз просьба. Повторю применительно к своей проблеме (думаю она есть у многих):
Есть библиотека электронных книг, скаченных из разных мест Интернета. С другой стороны эти книги присутствуют во многих раздачах на рутрекере и часто дублируются. Очень хочется встать со своим складом на все раздачи.
Переместить файлы, как Вы реализовали, не получиться по 2м причинам:
1. Они расположены на диске в порядке, удобным для работы
2. На рутрекере файлы многократно повторяются в раздачах, боюсь винчестера не хватит.

спасибо

iFrolov Sep 2 2012 at 09:53

Только писать/патчить торрент-клиент, достаточно интересная затея. Правда неприменимо для мелких файлов, так как фактически будут раздаваться только части этих самых файлов.

К примеру: есть книга размером в 5 мегабайт, эта же книга есть в 10 раздачах. Если раздача начинается с этой книги, то мы уверенно можем раздать ее начало. Конец — только при условии, что ее размер кратен размеру пайса, или у нас есть книга, которая лежит дальше в торренте. К примеру, пусть размер пайса будет равен 2 метрам, тогда мы сможем раздать 4 метра этой книги. Если книга внутри торрента расположена не в начале, то мы не можем раздать и начало, в первых 2 метрах (минус 1 байт) может быть что-то у нас отсутствующее, равно как и в конце. Следовательно, на такой раздаче мы можем раздать только кусочек в 2 метра, хотя у нас все 5 есть.

Еще недостаток — трекеры, которые не дают скачивать метадату в больших количествах (те самые торренты), вы просто не найдете все раздачи со своей книжкой, особенно если она переименована. Я нечто подобное просил сделать на рутрекере, но меня очень сильно замодерировали.

А так штука была бы интересной и полезной.

Dyr Sep 2 2012 at 10:20

Я бы зашёл со стороны дедупликации в файловой системе.

iFrolov Sep 2 2012 at 11:42

дубли в файловой системе и в торрентах — две большие разницы. Дубли на ФС (и даже на уровне секторов) найти проще.

difiso Sep 2 2012 at 11:51

Скорее всего имеется в виду такая ситуация: есть два .torrent-файла раздач, в которых присутствует один или несколько одинаковых файлов. Если мы будем копировать найденные на диске файлы, то получится как раз избыточность данных на диске. Это можно решить с помощью хардлинков.

iFrolov Sep 2 2012 at 12:00

Ты можешь найти 2 одинаковых файла в разных торрентах? Как?

difiso Sep 2 2012 at 12:35

Нет. Пример того, что я имел в виду.

Нашли два .torrent-файла, в которых есть один одинаковый файл. Мы их скачали, отсортировали для удобства пользования, и у нас на диске остался только один файл (ну в коллекции книг, например, нет смысла держать две одинаковых). И тут мы захотели вернуться на ОБЕ раздачи. Мы, немного изменив код программы, вернули все как было и получили, что файлов одинаковых снова два, и они оба занимают место.

И вот тут-то хороша система хардлинков.

А про поиск двух одинаковых файлов в .torrent — не такая большая проблема, если немного изучить строение фалов и переосмыслить статью в контексеt поиска не файлов на диске, а описания файлов в другом файле.

iFrolov Sep 2 2012 at 12:48

«Нашли два .torrent-файла, в которых есть один одинаковый файл» — как нашли? Даже если они уже скачаны.

difiso Sep 2 2012 at 13:17

Виноват. Ошибся. «Нашли две раздачи».

iFrolov Sep 2 2012 at 14:59

Как нашли? Я могу повторять этот вопрос долго.

difiso Sep 2 2012 at 15:12

Когда ползали по трекеру. Нашли две раздачи. Скачали их .torrent-файлы. Закинули их (.torrent-файлы) в клиент, который вытянул раздачи. Каждую в свою папку. Мы, по завершению загрузки, эти две папки взяли и отсортировали как нам надо. НО. У нас в первой раздаче был файл, который есть и в другой (получилось после скачивания два одинаковых файла в разных папках). Мы это спалили и при сортировке один из них удалили.

Это предыстория. Теперь мы хотим вернуться на раздачу. Запускаем программу, речь о которой в статье. Она читает эти два .torrent-файла в папке, которую мы ей скормили. И копирует файл дважды — для первого и для второго прочитанных .torrent-файлов.

Получилось дублирование файлов, что нам очень не нравится — места много не бывает. Тут как раз на помощь приходит механизм хардлинков.

Так понятней?

iFrolov Sep 2 2012 at 15:17

У нас в первой раздаче был файл, который есть и в другой (получилось после скачивания два одинаковых файла в разных папках). Мы это спалили и при сортировке один из них удалили.

Как нашли, как палили, при пожаре никто не пострадал? Я могу представить, что идет индексация КАЖДОГО файла, сравнение хешей (и даже побайтное сравнение), но это несколько долго. Но это я представляю.

Она читает эти два .torrent-файла в папке, которую мы ей скормили. И копирует файл дважды — для первого и для второго прочитанных .torrent-файлов.

А вот этого я не понимаю, ибо файлы могут начинаться с разных позиций пайса, все хеши будут другими. Внимание, как найти, что вот этот вот файл есть в обеих раздачах? КАК?

Что такое симлинки/хардлинки я прекрасно знаю, про них писать не надо.

Nashev Sep 4 2012 at 17:24

Глазками видимо нашли, своими… Или даже искалкой дублей в файловой системе…

difiso Sep 2 2012 at 11:20

Все движется в сторону создания хардлинков.

vkupriyanov Sep 2 2012 at 14:54

Ваше имя впишется золотыми буквами в книжные разделы на трекерах. И в каком то смысле добавит порядка (увеличит количество раздающих) в текущий хаос этих разделов.

qw1 Sep 2 2012 at 17:04

С хардлинками есть проблема: я удалил файлы из коллекции (они мне больше не интересны), а место не освобождается. Может, лучше симлинки?

difiso Sep 2 2012 at 17:10

А висячий симлинк, это нормально? К тому же, в случае жесткой ссылки мы сможем продолжить раздачу.

qw1 Sep 3 2012 at 03:32

симлинк получается даже хуже. при продолжении раздачи торрент-клиент создаст файл в папке коллекции, откуда файл удалили. значит, хардлинк — меньшее неудобство.

difiso Sep 3 2012 at 05:07

Хардлинк не меньшее неудобство, а нормальное решение. Надоело раздавать — удали раздачу. Надоело слушать/смотреть/читать — удали коллекцию. При таком подходе не надо думать, что удалив одно похеришь другое.

OCTAGRAM Dec 5 2012 at 05:09

Для того, чтобы подобных проблем не возникало, существуют опциональные хеши и вроде бы можно иногда встретить пофайловый SHA1, хотя больше всего хотелось бы TTH.

Как видно в таблице на том же сайте, .torrent метафайлы, богатые TTH'ем, умеют создавать не все создавалки, но EAD TorrentBuild умеет. У TorrentBuild есть проблемы с иностранными символами в именах (он пишет их в ANSI), но есть open source версия, там это может быть исправлено.

Чтобы прекратить этот кошмар, желательно создавать только метафайлы, богатые TTH, а трекерам желательно ругаться на метафайлы, не богатые TTH, и предлагать пересоздать .torrent другой программой.