Ага, когда имеется библиотека научная и художественная, на пол тб где-нито, а проще найти и слить в интернете, становится как то грустно. Распознование конечно хорошо, но думаю если умудрится для pdf/djvu, которые сканы привязать isbn, то дальше можно где нибудь автоматически задампить описание и оглавление, думаю этого уже хватит.
Проблема с бешеной базой конечно имеет место быть. Помнится во времена Google Desktop считалось адекватным индекс порядка 30-50% от объема текстовых данный, это была одна из причин почему у меня оно не прижилось, несколько терабайт винтов требуют просто хамских объемов индексов. (я грохнул Google Desktop после того как он отожрал более 20 гигов на индексы, теперь то я понимаю что в принципе это было не так уж и страшно)
Конечно всякие фильмы, картинки и музыка занимающие обычно заметно часть в локальных помойках потребуют очень малый процент на индексацию метатегов, и всякой сопустствующей инфы типа дат, размеров, разрешений, источников. Но вот текстовые данные оторвутся на все. Поэтому полтерабайта книжек выдаст гигов 150 полнотекстовых индексов в случае оптимистичного подхода, поэтому полнотекстовый поиск несмотря на все свои плюсы тут думаю не приживется.
Скорость поиска по такой базе имхо тоже должна учитываться. Поэтому приходим к тому что для начала нужно наплодить сущностей в бд. А файлы так, привязка к ним, ведь никому не нужны файлы. Ищут книгу, статью, песню, фильм, факт, а не файл с фильмом и т.д.
А можно поподробней про индексатор, по какому принципу он связывает файлы и лог? (к сожалению нет под рукой винды, чтобы посмотреть как выглядит вывод nmcap'a, гугление не помогло). А то это кажется более менее нормальным способ определять, хотя бы какие файлы и откуда были скачаны.
Займусь ссылко-постингом, поскольку подобные обсуждения уже не раз всплывали на хабре, и возможно в спорах дня прошлого получится найти что нибудь интересное для дня нынешнего.
Для начала касательно спора теги против иерархии. ^_^
Вообще с переходомо на Mac мне понравилось что браузеры сами пишут в метаданные откуда взялся файл. (не понравилось что они делают это используя скрытые файлы, в итоге при просмотре из консоли видно море всякого мусора), к сожалению торрентокачалка почему то так не делает, чего я не понимаю, возможно причина в том что utorrent не шибко нативен?
В подходе f2 — save, ctrl+f2 — commit существует громадный минус, он требует переписывания софта. Те же яблочники внедрили версионность для документов в Lion, но к сожалению не весь софт это поддерживает, да и работа с предыдущими вариантами не всегда удобно. (например я хочу оставить только последнюю копию, и удалить все предыдущии, у меня нет нормального способа это сделать, или я хочу версионность только в отдельных приложениях).
По сути тут два пути либо это все каким то чудом работает автоматически, либо же необходимо переписывать по.
Автоматический путь может быть из разряда делаем автоматические коммиты файлов при изменение, пока не будет занять n%, затем например все файлы больше m% или x мегабайт. Но это все равно будет создавать кучу ненужных копий, можно плюнуть на репликацию всех файлов больше x мегабайт, но те кто работают с видео, могут не оценить наш юмор ;)
При этом не надо забывать про всякие редакторы с автосохранение каждые n минут, и торренты, и если вся история редактирования файла, вплоть до нажатия Save еще может пригодится, то каждые n минут реплицировать загружающийся торрент имхо плохая идея.
Таким образом идеальной будет система, которая будет изначально спроектированна для этого, ось, софт, фс, это очень сложно сделать по отдельности. Если же это будет полностью готовая система, мы получим светлое будущее, а также мертворожденный проект, так как софта нет, а писать его никто не будет :) А портировать готовый это шаманство, ибо кто будет сохранять мета-данные? То есть идем на компромиссы, в итоге пользователь получает, что часть файлов у него пишется с кучей мета-данных, часть просто валяется, часть индексируется хорошо, часть нереально найти и непонятно где оно лежит. Результат закономерен, большинство пользователей этим пользоваться не будет.
В KDE Nepomuk великолепная идея. Но они не учитывают что такая система пользователю нужна как что то цельное. А не как эта программа работает с метаданными, эта нет, зато она не тормозит и красивее, ну и на кой мне эти метаданные? :)
Вообще на самом деле концепция файла само по себе никому не нужна, ну файл и файл, какая разница как оно хранится, но нам всем будет очень сложно переходить на концепцию сущностей, когда это не mp3 файл, а песня, не mp3 файл — а запись разговора, не текстовый файл, а субтитры привязанные к фильму. Имхо такая концепция имеет больше прав на жизнь, и она скорей всего придет, правда вероятно всего не для нас.
Эта концепция налагает некоторые ограничения в плане каталогизация, но имхо даст гораздо больше гибкости и удобства, но вот не могу я представить нынешние программы в этом интерфейсе, это нужно также все переделывать, а соответственно пока что это не жизнеспособно. :(
Кстати у вас указано 8к затрат на хостинг, это за какое время? за все, или просто за день выборов? а то как то маловато получается для трех серверов то.
Ну когда же все наконец-то поймут что большинство патентов это абсурд, патентовать надо реализации, а не идеи.
Сколько новостей про патенты не читай, просто волосы дыбом встают, запатентовали unlock движение пальца, запантентовали мультитач, запатентовали возможность хранить по ссылке длинное имя файла. В итоге все ближе и ближе к стагнации. Больше патентов, больше ограничений(при чем часто перекрывающим всю область — квадратный девайс с экраном и кнопкой) и соответственно меньше развития. Больше отчислений за то что кому то когда то пришла идея, и он решил ее запатентовать, (а то что это почти единственный/или самый удобный способ что то делать никого не волнует.) так платить приходится потребителям.
Ведь всем же понятно что патентное право в том виде в котором оно есть уже не служит первоначальной цели, давать возможность кулибиным бороться против того чтобы их изделия свободно копировались большими фабриками, поощрять изобретательство. Теперь мы имеем наоборот невозможность маленьких людей проникнуть в некоторые области, потому что на одну их новую революционную идею, мы получим полсотни чужих патентов, и хорошо если изобретателя пристроят к себе, а не просто воспользуются этой идеей, засудив его за нарушение своих патентов.
В патентное войне, как и в любой войне, нет правых и не правых, все заморали руки.
Да поведение тройки — Яблоки, мс, циско — двулично.
Да поведение гугла логично, но с точки зрения того что он говорил для этого про абсурдность патентных войн, тоже выглядит в дурном свете.
Единственная надежда на то что если все обладатели всех по настоящему базовых патентов в сотовой связи, компьютерном по и железе устроят тотальную войну на уничтожение. Иски всех ко всем, отзывы лицензий на все еще продающиеся продукты, то может быть это повлечет за собой пересмотрение патентного права, чтобы оно опять помогало изобретательству. А каким образом это будет сделано, отменой базовых патентов, уменьшением срока действий, фиксированностью выплат, ограничением на то к кому они могут применяться, а к кому нет уже не так важно, главное чтобы оно изменилось, и помогало толкать мир в лучшее будущее, а не стопорило все что можно.
Видно влияние стиля WP, правда есть ощущение что оно не слишком впишется в интерфейс андроида, разве что 4-ки, iOS версия сделана в стиле iOS, интересно с чего это такая несправедливость.
Да я и сам так делаю :)
Просто на мой взгляд в плане уникальности на одном наборе данных несколько хэш алгоритмов может быть гораздо выгодней чем любой один. Разве только он не имеет коллизий на блоке одного размера, в этом случае вторый параметром для определения уникальности будет размер.
p.s. мне для уникальности файлов пока хватает md5+sha1+file size, но есть предположение что в рамках больших чисел в конце концов эта система все равно может дать сбой, пометив два разных файла как один. ^_^
А если использовать сразу два быстрых хэш алгоритма(sha1 и md5 например). И хранить соответственно два хэша.
Хоть и там и там есть коллизии, думаю подобрать набор данных который будет выдавать коллизии для обоих алгоритмов будет в разы сложнее.
Небольшие наборы Technic'a китайцы во всю клонируют, а вот с теми где моторы и прочие плюшки да, не клонируют, предполагаю что в этом случае как процент брака возврастет, так и себестоимость, а оно им надо? их и так неплохо кормят :D
Предполагаю что видели вы как раз коллекционные пакетики. У них ценники в диапозоне 75р-90р обычно. Их сейчас 5 серий выпущенно, но в магазинах реально встретить последнии три (3-4-5). Там в каждой серии по 16 фигурок. В пакетике одна случайная. Вполне находятся на ощупь. Сильно помогают разнообразить жителей самоделок :)
Ну если наезжать на плагиат, то брик еще не так уж и плох, вы banbao не видели, они копируют и текущие наборы, при этом качестве просто ужас. Хотя некоторые китайцы с руссификацией наглеют по полной. Причем ценники стоят на уровне 1к, то есть качество гораздо хуже, явный плагиат, и ценники всего в два раза ниже, как не стыдно.
Brick хоть и копирует старые наборы, у них достаточно много самобытных, правда к нам их почему то не особо возят, видать у продавцев ностальгия :D
А он и до сих пор процветает, китайцем же на патенты как то плевать, причем за последние лет 10 он заметно подрос в качестве, сравнивал наборчики в 2008 и в 1999, разница разительная :) Но LEGO все равно лучше. Но я бы не сказал что разница в цене так оправданно, но ведь всегда разница в качестве обычно стоит не пропорционально. Да и лучшее детям.
Поправочка, продаются, есть например коллекционные минифигурки, они есть и в россии, цена правда кусается 89р, правда мегаблоковоские коллекционные минифигурки в пакетике в детском мире стоят под 100р, так что тут еще вопрос.
Кстати цифры 6-7 рублей это средняя температура по больнице, в случа с дупло цифры будут больше, где-нибудь 50р за деталь, для лицензионных серий 9-15р. для Creator'а основной серии где много кубиков за немного денег, соотношение будет 2-3р. А вообще лего чаще всего стоит покупать по распродажам, там вообще постоянно распродажи в разных магазинах по 50%, а иногда и с 75% скидкой урвать получается. Хотя конечно до того как было у американцев, когда наборы серии Prince of Persia продавались по 1$-2$ за любой набор серии, а у нас самый маленький набор стоял 700р (правда потом почти год держались скидки в 50%).
Ой чую заминусуют меня. Есть у меня небольшой проект посвященный LEGO — Bricker. На правах хобби. Так что если кому интересно могут глянуть.
Да давайте введем еще один HTTP код ошибки, и подождем пока все нынешние браузеры устареют чтобы мы могли его нормально использовать :) А то ведь старые, внезапно, о нем и не догадываются.
Ага, тоже видел эту версию, на первых порах было прикольно, ну как же, все дети, ругаться нельзя, а тут матюгаются постоянно, да и играть в такое родители не разрешают, а раз запрещают значит интересно. А потом все равно в скором времени опять вернулись к обычной версии, ибо мат на самом деле скучен.
Проблема с бешеной базой конечно имеет место быть. Помнится во времена Google Desktop считалось адекватным индекс порядка 30-50% от объема текстовых данный, это была одна из причин почему у меня оно не прижилось, несколько терабайт винтов требуют просто хамских объемов индексов. (я грохнул Google Desktop после того как он отожрал более 20 гигов на индексы, теперь то я понимаю что в принципе это было не так уж и страшно)
Конечно всякие фильмы, картинки и музыка занимающие обычно заметно часть в локальных помойках потребуют очень малый процент на индексацию метатегов, и всякой сопустствующей инфы типа дат, размеров, разрешений, источников. Но вот текстовые данные оторвутся на все. Поэтому полтерабайта книжек выдаст гигов 150 полнотекстовых индексов в случае оптимистичного подхода, поэтому полнотекстовый поиск несмотря на все свои плюсы тут думаю не приживется.
Скорость поиска по такой базе имхо тоже должна учитываться. Поэтому приходим к тому что для начала нужно наплодить сущностей в бд. А файлы так, привязка к ним, ведь никому не нужны файлы. Ищут книгу, статью, песню, фильм, факт, а не файл с фильмом и т.д.
Для начала касательно спора теги против иерархии. ^_^
Построение иерархических классификаторов на основе тщательно спроектированной системы тегов
Проблемы, подстерегающие любого создателя рубрикаторов
А теперь немного ссылок на предыдущие комменты чтобы не перепостивать их раз за разом :)
Мой коммент к статье Проблемы, подстерегающие любого создателя рубрикаторов
Подборка ссылок касательно разных хитрых фс тут
(там правда отсутствует ссылка на теговую файловую систему (TFS))
Вообще с переходомо на Mac мне понравилось что браузеры сами пишут в метаданные откуда взялся файл. (не понравилось что они делают это используя скрытые файлы, в итоге при просмотре из консоли видно море всякого мусора), к сожалению торрентокачалка почему то так не делает, чего я не понимаю, возможно причина в том что utorrent не шибко нативен?
В подходе f2 — save, ctrl+f2 — commit существует громадный минус, он требует переписывания софта. Те же яблочники внедрили версионность для документов в Lion, но к сожалению не весь софт это поддерживает, да и работа с предыдущими вариантами не всегда удобно. (например я хочу оставить только последнюю копию, и удалить все предыдущии, у меня нет нормального способа это сделать, или я хочу версионность только в отдельных приложениях).
По сути тут два пути либо это все каким то чудом работает автоматически, либо же необходимо переписывать по.
Автоматический путь может быть из разряда делаем автоматические коммиты файлов при изменение, пока не будет занять n%, затем например все файлы больше m% или x мегабайт. Но это все равно будет создавать кучу ненужных копий, можно плюнуть на репликацию всех файлов больше x мегабайт, но те кто работают с видео, могут не оценить наш юмор ;)
При этом не надо забывать про всякие редакторы с автосохранение каждые n минут, и торренты, и если вся история редактирования файла, вплоть до нажатия Save еще может пригодится, то каждые n минут реплицировать загружающийся торрент имхо плохая идея.
Таким образом идеальной будет система, которая будет изначально спроектированна для этого, ось, софт, фс, это очень сложно сделать по отдельности. Если же это будет полностью готовая система, мы получим светлое будущее, а также мертворожденный проект, так как софта нет, а писать его никто не будет :) А портировать готовый это шаманство, ибо кто будет сохранять мета-данные? То есть идем на компромиссы, в итоге пользователь получает, что часть файлов у него пишется с кучей мета-данных, часть просто валяется, часть индексируется хорошо, часть нереально найти и непонятно где оно лежит. Результат закономерен, большинство пользователей этим пользоваться не будет.
В KDE Nepomuk великолепная идея. Но они не учитывают что такая система пользователю нужна как что то цельное. А не как эта программа работает с метаданными, эта нет, зато она не тормозит и красивее, ну и на кой мне эти метаданные? :)
Вообще на самом деле концепция файла само по себе никому не нужна, ну файл и файл, какая разница как оно хранится, но нам всем будет очень сложно переходить на концепцию сущностей, когда это не mp3 файл, а песня, не mp3 файл — а запись разговора, не текстовый файл, а субтитры привязанные к фильму. Имхо такая концепция имеет больше прав на жизнь, и она скорей всего придет, правда вероятно всего не для нас.
Эта концепция налагает некоторые ограничения в плане каталогизация, но имхо даст гораздо больше гибкости и удобства, но вот не могу я представить нынешние программы в этом интерфейсе, это нужно также все переделывать, а соответственно пока что это не жизнеспособно. :(
Сколько новостей про патенты не читай, просто волосы дыбом встают, запатентовали unlock движение пальца, запантентовали мультитач, запатентовали возможность хранить по ссылке длинное имя файла. В итоге все ближе и ближе к стагнации. Больше патентов, больше ограничений(при чем часто перекрывающим всю область — квадратный девайс с экраном и кнопкой) и соответственно меньше развития. Больше отчислений за то что кому то когда то пришла идея, и он решил ее запатентовать, (а то что это почти единственный/или самый удобный способ что то делать никого не волнует.) так платить приходится потребителям.
Ведь всем же понятно что патентное право в том виде в котором оно есть уже не служит первоначальной цели, давать возможность кулибиным бороться против того чтобы их изделия свободно копировались большими фабриками, поощрять изобретательство. Теперь мы имеем наоборот невозможность маленьких людей проникнуть в некоторые области, потому что на одну их новую революционную идею, мы получим полсотни чужих патентов, и хорошо если изобретателя пристроят к себе, а не просто воспользуются этой идеей, засудив его за нарушение своих патентов.
В патентное войне, как и в любой войне, нет правых и не правых, все заморали руки.
Да поведение тройки — Яблоки, мс, циско — двулично.
Да поведение гугла логично, но с точки зрения того что он говорил для этого про абсурдность патентных войн, тоже выглядит в дурном свете.
Единственная надежда на то что если все обладатели всех по настоящему базовых патентов в сотовой связи, компьютерном по и железе устроят тотальную войну на уничтожение. Иски всех ко всем, отзывы лицензий на все еще продающиеся продукты, то может быть это повлечет за собой пересмотрение патентного права, чтобы оно опять помогало изобретательству. А каким образом это будет сделано, отменой базовых патентов, уменьшением срока действий, фиксированностью выплат, ограничением на то к кому они могут применяться, а к кому нет уже не так важно, главное чтобы оно изменилось, и помогало толкать мир в лучшее будущее, а не стопорило все что можно.
Видно влияние стиля WP, правда есть ощущение что оно не слишком впишется в интерфейс андроида, разве что 4-ки, iOS версия сделана в стиле iOS, интересно с чего это такая несправедливость.
Просто на мой взгляд в плане уникальности на одном наборе данных несколько хэш алгоритмов может быть гораздо выгодней чем любой один. Разве только он не имеет коллизий на блоке одного размера, в этом случае вторый параметром для определения уникальности будет размер.
p.s. мне для уникальности файлов пока хватает md5+sha1+file size, но есть предположение что в рамках больших чисел в конце концов эта система все равно может дать сбой, пометив два разных файла как один. ^_^
Хоть и там и там есть коллизии, думаю подобрать набор данных который будет выдавать коллизии для обоих алгоритмов будет в разы сложнее.
Brick хоть и копирует старые наборы, у них достаточно много самобытных, правда к нам их почему то не особо возят, видать у продавцев ностальгия :D
Кстати цифры 6-7 рублей это средняя температура по больнице, в случа с дупло цифры будут больше, где-нибудь 50р за деталь, для лицензионных серий 9-15р. для Creator'а основной серии где много кубиков за немного денег, соотношение будет 2-3р. А вообще лего чаще всего стоит покупать по распродажам, там вообще постоянно распродажи в разных магазинах по 50%, а иногда и с 75% скидкой урвать получается. Хотя конечно до того как было у американцев, когда наборы серии Prince of Persia продавались по 1$-2$ за любой набор серии, а у нас самый маленький набор стоял 700р (правда потом почти год держались скидки в 50%).
Ой чую заминусуют меня. Есть у меня небольшой проект посвященный LEGO — Bricker. На правах хобби. Так что если кому интересно могут глянуть.
или имелось ввиду что то от Troika Games.