Comments 60
В последние пару недель некоторые пользователи стали сообщать, что в их аккаунтах начали появляться прежде удалённые файлы и папки.
Намного неприятнее было бы, если произошло бы наоборот — с исчезновением живых и нужных файлов.
Да и любому, знакомому с самыми основами БД известно, что операция удаления записи — это пометка ее как удаленной. Очистка БД от удаленных записей — это совсем другая команда и, в случаи большого размера базы — очень затратная по процессорному времени.
Что такое — один CD содержащий всю-всю-всю информацию о студенте из статьи? Это примерно одна десятитысячная от объема современного винчестера — два-три русских рубля. Дешевле оставить их на харде, чем тратить время на удаление и дефрагментацию.
Ещё и ради дедупликации на серверах может хранится одна копия файла вечно. Для кого то этот файл удалён а кто то его только загрузил.
Но дропбокс — это просто хранилище и всё. Файлы просто лежат по папкам. Удалить их не составляет никакой принципиальной проблемы. Чисто технические нюансы — есть, но все они решаемы.
Если не согласны — сразу пример: для простоты, диск на 1гб, забит файлами на 100% по 100 мб. Удалили 3 таких файла идущих на диске не подряд и записали один на 300 мб. Как это фс сможет сделать не фрагментировав его, по вашему?
Тема в том, что сервис декларирует одно («файлы старше 60 дней удаляем, чесслово»), но фактически это оказывается не так.
И если им фат мешает или что-то еще, и это им известно, то неплохо было бы изменить обещание про 60 дней.
Файлы надо удалять. Процесс резервного копирования организовать так, чтобы удалённые файлы удалялись и из бекапов.
Но бизнес есть бизнес.
В любом случае, я полагаю в реальности, файлы не удаляются совсем не по техническим причинам!
Правда, моя паранойя подсказывает мне, что если бы dropbox вёл себя честно и без о всяких галочек писал бы на кнопке не «удалить», а «сделать вид, что удалил», любители котиков бы иначе бы относились к сервису.
От всех «а вдруг будет» вы не застрахуетесь. Поэтому маловероятные варианты лучше не рассматривать.
А вот ваши мотивы не понятны. Вы работаете на dropbox? Или вам как-то выгодно, что люди теряют контроль за личной информацией и жизнью? Или вам просто всё равно, но настолько что вы не ленитесь защищать здесь бизнес чужих для вас дядь? ;-)
А недоволен именно последовательным навязыванием.
А где вы увидели «последовательное навязывание»? Есть какая-то контора, которая раздаёт свои услуги бесплатно, эта контора даже рекламку в ваш телевизор не показывала. Если вам нужна такая услуга, вы гуглите на эту тему, и сами к ней приходите, или к её конкурентам. Но вам, блин, не нравится, что она вам ещё и красную дорожку на ступеньки не постелила.
А вот ваши мотивы не понятны.
Мои мотивы такие же, как и у 99% участников всех дискуссий в Интернете. У меня свободное время, зашел на форум почитать, и вижу, что тут кто-то неправ. Я же не могу оставить это просто так.
Или вам как-то выгодно, что люди теряют контроль за личной информацией и жизнью?
Я в упор не понимаю, как можно назвать «потерей контроля за личной информацией» её добровольную передачу? Вы можете легко сохранить свою информацию у себя, просто не пользуясь этими (и другими такими же несекьюрными) онлайн-сервисами.
Но нет, лучше занять позицию толстой барышни — вроде и жирок уже свисает отовсюду, и делов-то всего-ничего, прекратить конхфетки по ночам жрать, и начать хотя бы час в день пешком ходить. Но и конфеты вкусные, и ходить лень. И остаётся только жаловаться, что всё плохо.
и вижу, что тут кто-то неправ
Не прав в том, что минимально заботится о своей безопасности? Ясно понятно. :)
Я в упор не понимаю, как можно назвать «потерей контроля за личной информацией» её добровольную передачу?
Потому что у них там есть договор присоединения, регламентирующий использование сервиса, в котором они объявляют условия работы. В частности, что информация остаётся принадлежащей её владельцу. А тут вдруг оказывается, что нет, владелец не может её удалить. Ну как вы сунули сумку в бесплатную камеру хранения в магазине, а там её тихо просканировали, потому что магазину интересно что ещё вы покупаете.
Вторжение в частную жизнь? Приличия? Законность? Не, не слышали. Каким лохам это нужно? Даёшь право сильного!
Не прав в том, что минимально заботится о своей безопасности?
Неправ в том, что возмущается по поводу действий тех, кто ему ничем не обязан.
Потому что у них там есть договор присоединения, регламентирующий использование сервиса, в котором они объявляют условия работы. В частности, что информация остаётся принадлежащей её владельцу. А тут вдруг оказывается, что нет, владелец не может её удалить.
Я ради интереса даже перечитал соглашение Дропбокса. Ещё они в том же соглашении пишут, что пользователь делегирует им право хранить и обрабатывать его информацию.
Вторжение в частную жизнь?
Не перегибайте. Ваша частная жизнь заканчивается за порогом вашего дома и за NAT'ом вашего домашнего роутера. Всё остальное — это общественная жизнь, которая идёт не по вашим правилам. Устраивают чужие правила, присоединяйтесь. Не устраивают, сидите дома. Не устраивают, но и дома сидеть не хочется, по этому поводу есть грубая поговорка про «съесть рыбку». Впрочем, ныть-то по поводу несовершенства общества тоже не запрещено. Но результата вам оно не принесёт. Тем более что даже магазин со своими бесплатными камерами хранения не несёт никакой ответственности за ваши сумки, а ваши покупки в магазине в любом случае попадут к маркетологам, которые потом под вас сформируют и расположение прилавков, и ассортимент, и музычку подберут — лишь бы вы побольше денег оставили в супермаркете.
кто ему ничем не обязан.
Смешно. Именно потому что они никому ничего не обязаны у них половина договора состоит из отказа от ответственности. :) Оферта это договор, законы никто не отменял. Надеюсь вы не являетесь владельцем какого-нибудь сервиса… :)
Я ради интереса даже перечитал соглашение Дропбокса.
Надо было читать полнее. :) "We need your permission to do things like hosting Your Stuff, backing it up and sharing it when you ask us to." А когда не ask и разрешение отозвано (ну, знаете, кнопка «delete»)…
Ваша частная жизнь заканчивается за порогом вашего дома и за NAT'ом вашего домашнего роутера.
Потрясающая наивность. К счастью, у меня нет желания заниматься вашим просвещением.
Тем более что даже магазин со своими бесплатными камерами хранения не несёт никакой ответственности за ваши сумки
И напоследок. Потому что больше я отвечать не буду. Будете заниматься бизнесом — консультируйтесь с юристами. С таким подходом вы даже в России рано или поздно сядете.
Смешно. Именно потому что они никому ничего не обязаны у них половина договора состоит из отказа от ответственности.
Именно потому, что половина договора состоит из отказа от ответственности, они никому ничем не обязаны. Как и Google. Как и разработчик вашей ОС, не суть важно, сообщество Linux или Apple, или Microsoft. И ни вас, ни кого-либо ещё из пользователей, никто не заставляет ни регистрироваться в ДропБоксе, ни принимать их соглашение. Пользователи сами, добровольно, идут на эти условия, потому что функции сервиса им нужнее, чем то непотребство, которое сервис может друг сделать с их дражайшими файлами.
Надо было читать полнее. :) «We need your permission to do things like hosting Your Stuff, backing it up and sharing it when you ask us to.»
А вам надо бы не только читать, но и головой думать. Этот самый permission — это и есть факт регистрации в Dropbox с установленной галочкой «Я согласен».
Потрясающая наивность. К счастью, у меня нет желания заниматься вашим просвещением.
Да, я тоже рад этому :) Как же вы с вашим «я требую приватности» вообще ухитряетесь выживать на этой планете?
И напоследок. Потому что больше я отвечать не буду. Будете заниматься бизнесом — консультируйтесь с юристами.
Спасибо. Не за совет (т.к. ваш последний ответ уже напоминает кидание какашками у школьника: «ваше образование», «консультируйтесь с юристами» и прочие штампы). А за то, что отвечать не будете. А то ей-богу, неприятно стало вас читать.
Дефрагментацию проводят тогда, когда затраты на хранение превышают затраты на дефрагментацию и цену вероятности потери данных.
Но в сторону сопли. На хабре есть статья "Dropbox: взгляд изнутри". И там указана средняя скорость чтения с dropbox. И там намеряли среднюю скорость чтения с dropbox порядка 785 Mbps. Статье правда уже несколько лет, но это как раз неплохо. Потому что у меня в компьютере есть WD Green, купленный примерно в 2010. Я нещадно писал и стирал с него, иногда забивая полностью. Посмотрим же, как там себя файлы чувствуют. Я нашёл 5Gb файл, filefrag показал, что он состоит из 79 экстентов. А dd в /dev/null намерял скорость чтения 740MBps. Т.е. мои тормозные диски почти догнали dropbox. На фрагментированной ext4, пережившей туеву хучу обновлений Fedora.
Вас разводят выглядящей разумно сказочкой, которая на практике имела смысл для дискет. Для 20 мегабайтных жёстких дисков времён Windows 3.11. Но которая почти утратила смысл уже в концу 90-х и эре Windows 9x.
P.S. А zfs я привёл в пример сложной файловой системы, которая хранит много файлов, быстро отдаёт их и может удалять. И ничего, справились. Впрочем есть системы не хуже, особенно для системы вроде dropbox, где целостность и raid не задача файловой системы. Что же касается дефрагментации, — а нужна ли она ей?
В общем, давайте тестировать вместе. :)
И на 5 Гб файл их приходится больше миллиона штук. Если как следует их перемешать, то этот миллион блоков без проблем может оказаться раскиданным на 79 тыс. отдельных кусков в разных местах диска. Это и есть сильная фрагментация. А 79 шт на 5 Гб — это можно считать отсутствие фрагментации, соответствующие утилиты покажут уровень фрагментации 0% если это типичный уровень для конкретного диска.
Но вернёмся к теме лекции. Проблемы с фрагментацией файлов на диске касаются ЦОД в целом или это проблема отдельного накопителя, что с него данные медленнее считываются? Если нет, то что отличается? Если да, то давайте тестировать. У нас сейчас есть конкретный вопрос: На сколько фрагментированность файла влияет на скорость его чтения. Значит надо предположить условия, близкие к реальным и произвести замеры. Потому что сейчас ваши слова — «грех», аналогичный кнутовскому греху преждевременной оптимизации. Вы ещё не произвели ни одного замера производительности, но уже делаете выводы о скорости работы.
Но ЦОД это и есть «миллион шестерок». Там нет одного очень большого компьютера, нет одного очень емкого жёсткого диска.Продолжать бесполезно. Вы или совершенно ничего не знаете об отличиях сервера от десктопа, или неуклюже притворяетесь.
А теперь отмасштабируйте эксперимент — одновременно с разных потоков обращайтесь к 2 таким файлам, 10, 1000 и т.д. ваша домашняя система заткнётся уже на первом десятке потоков сделав среднюю скорость по каждому потоку в 1Мб/с и меньше а дополнительные переключения между кусками файлов снизят производительность в геометрической прогрессии.
п.с. 79 тыс фрагментов возможны, если файл хранится в MFT но там немного другие алгоритмы и сходу сказать как это повлияет на производительность нельзя т.к. фрагменты будут скорей всего закешированы заранее.
Где-то уже было исследования гугла на эту тему, и о пользе нефрагментированных read-only ФС.
Суть одна — при малом количестве параллельных потоков разница незначительна, а при превышении какого-то порога средняя скорость чтения фрагментированных данных падает катастрофически вплоть до 10К/с даже на рейде из быстрых накопителей.
А пользователей у дропбокса сейчас несколько сотен миллионов. И это уже пользователи образца 2016 года с выросшими объемами файлов и активностью использования облачного хранения. И в результате суммарный трафик они создают минимум на 5 порядков (> 100 000 раз ) больше.
Диски же с тех пор не особо быстрее стали, ну раза в 1.5 только. На SSD облака никто и никогда не хранит — они для серверов и баз данных, а не для пользовательских файловых помоек. Они до сих пор еще много лет будут на магнитных дисках.
79 кусочков на 5 Гб файл это не о чем — практически нулевая фрагментация. По 64 Мб на 1 кусок — практически линейное чтение.
При серьезной фрагментации даже современные быстрые диски по скорости ниже 100 Mbps проседают относительно 1000-1500 Mbps линейных чтения/записи.
Что до мертвого груза, это не про всех. Основная нагрузка на облако идет от тех, кто использует его для работы, покупает бизнес аккаунт и шарит множество файлов для совместной работы. Те, кто пользуют только бесплатный лимит — намного чаще изменяют свои файлы в облаке, потому что место заканчивается и надо его освобождать.
Повторяющиеся чанки хранятся только один раз. За счет этого получается глобальная (между всеми пользователями) дедупликация данных. Если 1000 пользователей хранит один и тот же файл — реально он хранится только раз. Если пользователь хранит 100 версий какого-то файла, в котором что-то дописывается в конец или редактируется с заменой в реальности хранится только 100 последних кусочков + один основной набор исходной версии файла и т.д.
При запросе какого-то файла он на ходу «собирается» из нужных кусочков и отдается пользователю.
Не знаю сколько это позволяет выиграть на практике, но может оказаться что уровень чтения/записи на гигабайт хранения у него как раз весьма высокий.
Ashley Madison также пытались отбрехаться, не вышло. Самое смешное, там полное удаление аккаунта стоило настоящих денег, а аккаунт оставался лишь помеченным на удаление… что и всплыло после грандиозной утечки.
В этом мире никому нельзя верить.
Как говорил он, даже у КГБ не было такого полного досье на граждан.
Ну правильно, люди сами не отправляли свои личные данные в КГБ.
Чаще всего пользователи и не знают о том, что на посещаемом им сейчас сайте может гнездиться целая стая «жучков» от разных известных брэндов, например, того же фэйсбука. В Лисе помогает заблокировать подлых насекомых :-) такое дополнение — https://addons.mozilla.org/ru/firefox/addon/ghostery/
Это про весь интернет можно так сказать.
И насколько сложно при переносе исключить такие файлы?
В папки Dropbox стали возвращаться удалённые файлы. Баг исправлен