Освобождаем свои данные из корпоративного рабства. Концепция личного хранилища


    Автор программы Mathematica Стивен Вольфрам около 40 лет ведёт цифровой лог многих аспектов профессиональной и личной жизни

    Сейчас практически всем стала понятна сущность некоторых интернет-корпораций, которые стремятся получить от людей как можно больше личных данных — и заработать на этом. Они предлагают бесплатный хостинг, бесплатные мессенджеры, бесплатную почту — лишь бы люди отдали свои файлы, фотографии, письма, личные сообщения. Наши данные приносят огромные деньги, а люди стали продуктом. Поэтому техногиганты Google и Facebook — самые крупные корпорации в истории человечества. Это неудивительно, ведь в их распоряжении миллиарды единиц бесплатного «сырья», то есть «пользователей» (кстати, этим словом users называют людей только в двух областях: наркоиндустрии и индустрии программного обеспечения).

    Настало время положить этому конец. И вернуть данные под свой контроль. В этом суть концепции личных хранилищ данных (personal data services или personal data store, PDS).

    Нам нужны удобные программы, сервисы, базы данных и защищённые хранилища для фотографий, личных финансов, социального графа, данных о личной продуктивности, потреблению продуктов, истории всех чатов в онлайне и офлайне, личного дневника, медицинских данных (пульс, давление, настроение и проч.), прочитанной литературы и публицистических статей, просмотренных веб-страниц, фильмов и видеороликов, прослушанной музыки и так далее.

    Разумеется, эти данные должны храниться за всю жизнь человека — в абсолютно надёжном хранилище, к которому нет доступа корпораций и посторонних лиц. Нужны удобные инструменты для анализа и статистики. Нужны персональные нейросети для обработки данных и предсказания личных решений (например, для рекомендации музыкальных групп, блюд кухни или людей для общения).

    К сожалению, единого общепринятого и удобного подхода к созданию таких решений пока нет. Но идёт работа в нужном направлении.

    Инфраструктура для хранения персональных данных


    Некоторые исследователи думают над концептуальным решением проблемы, то есть над тем, какой должна быть вся инфраструктура для персональных данных.

    Например, разработчик @karlicoss описал концепцию такой инфраструктуры.

    Основные принципы:

    • Простота для людей, чтобы данные было легко просматривать и читать.
    • Простота для машинного анализа, для манипулирования данными и взаимодействия.

    Если подумать, второй принцип важнее. Потому что если мы создадим инфраструктуру, понятную для машин, то программисты смогут обработать данные и разработать интерфейсы, удобные для человека.

    Что ещё предусмотреть в концепции PDS? Должны быть API для получения любых данных из персонального архива.

    Логично, что самый простой способ работы с данными — когда они непосредственно лежат в вашей файловой системе. В реальности персональные данные разбросаны по десяткам разных сервисов и программ, что очень затрудняет работу с ними. Для начала желательно извлечь их оттуда и сохранить локально. Да, теоретически это необязательно, ведь продвинутые PDS могут поддерживать работу с разными источниками данных в разных форматах. Например, данные могут храниться в разных облачных хранилищах, извлекаться через сторонние API из других сервисов и программ. Правда, нужно понимать, что это ненадёжные хранилища.

    Например, Twitter через свои API отдаёт 3200 последних твитов, Chrome хранит историю 90 дней, а Firefox удаляет её на основе хитрого алгоритма. Ваш аккаунт в облачном сервисе могут в любой момент закрыть, а все данные удалить. То есть сторонние сервисы никак не предполагают долговременное хранение данных.


    Расчётный лист вавилонского рабочего, датирован 3000 г до н. э. Пример долговременного хранения личной информации

    Экспорт данных в личное хранилище


    В качестве промежуточного решения предлагается концепция зеркала данных (data mirror).

    Это специальное приложение, которое непрерывно работает на клиентской стороне в фоновом режиме — и постоянно синхронизирует локальный архив со всеми внешними сервисами. Приложение как бы «высасывает» ваши данные из разных программ и веб-сервисов, сохраняя в открытый машиночитаемый формат вроде JSON/SQLite. По сути, оно строит на диске это самое личное хранилище, которое в будущем должно вместить в себя все виды персональной информации.

    На самом деле ещё не создано такое универсальное приложение, которое бы автоматически высасывало информацию всех форматов и типов из всего разнообразия существующих сторонних приложений и сервисов — и сохраняло локально.

    Эту работу приходится делать в полуручном режиме.

    Речь о том, чтобы выполнять экспорт информации со всех сервисов и программ, которые это позволяют. Экспорт в максимально возможном универсальном формате — и хранение этих данных в архиве. В будущем появится возможность проиндексировать и удобно работать с этими данными, а сейчас наша главная задача — сохранить их, чтобы они не исчезли навсегда.

    Люди понимают, насколько важно сохранить навсегда личные фотографии. Но мало кто осознаёт то же самое для истории чатов во всех мессенджеров, а ведь это поистине бесценная летопись жизни человека. Эта информация с годами стирается из человеческой памяти.

    Например, чаты ICQ хранились в простом текстовом виде, так что не нужно было предпринимать особых усилий для их сохранения. Так вот, если сейчас прочитать свои чаты из 90-х годов, то вы откроете заново целый пласт личной истории, которую уже давно забыли. Пожалуй, это очень важная часть персонального архива.

    Так же важны медицинские данные о состоянии здоровья, пульсе, давлении, времени сна и других характеристиках, которые сейчас измеряются в течение жизни фитнес-трекерами.


    Визуализация более миллиона электронных писем, которые Стивен Вольфрам отправил с 1989 года, показывает нарушения сна в годы напряжённой работы

    Чтобы упростить себе регулярный экспорт/скрапинг личных данных из разных программ @karlicoss написал ряд скриптов для Reddit, Messenger/Facebook, Spotify, Instapaper, Pinboard, Github и других сервисов, которыми он пользуется.

    В идеале, эти программы позволяют найти любое сообщение или заметку, то есть практически любую вашу мысль из прошлого, где бы она ни была зафиксирована — в чате Telegram или Вконтакте, комментарии на Хабре, прочитанной книге или в коде, который вы писали. Вся информация хранится в единой базе с полнотекстовым поиском.

    Софт


    Вместо облачных корпоративных сервисов нужно переходить на локально-ориентированный софт (local-first software). Он так называется по контрасту с облачными приложениями.

    Локально-ориентированный софт работает гораздо быстрее, с меньшей задержкой, чем облачные приложения, потому что здесь при нажатии одной кнопки пакеты не путешествуют по всему земному шару, а все данные хранятся локально.



    Предусмотрена синхронизация локальных данных между всеми устройствами, полный контроль человека над его данными, работа в офлайне в первую очередь (движение Offline First), безболезненное решение конфликтов в совместной работе, максимальная защищённость информации, длительная сохранность данных для наших потомков, как тот расчётный лист вавилонского рабочего выше (кстати, в 2016 году расшифровка текста выявила, что труд вавилонского рабочего оплатили спиртным напитком, а конкретно пивом).

    Таким образом, локально-ориентированный софт соответствует всем семи обозначенным принципам. По мнению специалистов, лучше всего для реализации такого программного обеспечения подходят структуры данных типа CRDT (conflict-free replicated data type). Эти структуры данных могут реплицироваться среди множества компьютеров в сети, причём реплики обновляются независимо и конкурентно без координации между ними, но при этом всегда сохраняется математическая возможность устранить несогласованность. Это модель сильной согласованности в конечном счёте (Strong Eventual Consistency).



    Благодаря такой модели согласованности структуры данных CRDT похожи на системы контроля версий типа Git. Для лучшего знакомства с CRDT можно почитать статью Алексея Бабулевича.

    Гит-скрапинг


    Идея освобождения личных данных из «корпоративного рабства» с долговременным локальным хранением в последнее время приобретает особую популярность. Жизнь показала, что от коммерческих веб-сервисов ничего хорошего ждать не приходится. Поэтому отдельные разработчики пытаются создать примеры личных информационных хранилищ.

    Например, FOSS-разработчик и консультант Саймон Уиллисон работает над двумя инструментами Datasette и Dogsheep, которые весьма полезны для личных хранилищ.

    Datasette — веб-приложение для обработки данных и публикации их в читаемом формате, в виде интерактивного веб-сайта (демо). Это лишь один элемент большой экосистемы Datasette — опенсорсных инструментов для сбора, анализа и публикации интересных данных. Экосистема делится на две части: инструменты для построения баз данных SQLite (для использования с Datasette) и плагины, которые расширяют функциональность Datasette.

    Разные плагины позволяют комбинировать данные друг с другом. Например, накладывать координаты объектов из одной базы данных на географическую карту.

    Уиллисон экспериментирует с регулярным скрапингом разных сайтов с публикацией данных в репозитории GitHub. Получается срез данных по изменению некоего объекта во времени. Он называет эту технику гит-скрапингом. В дальнейшем собранные данные можно преобразовать и Datasette.

    См. примеры гит-скрапинга на Github. Это одна из ключевых техник для наполнения информацией личного хранилища данных — в стандартном открытом формате для долговременного хранения.



    Предстоит ещё долгий путь, чтобы освободить свои данные и создать инфраструктуру для надёжного и безопасного хранения личной информации. В будущем можно представить, что эта информация включит в себя также воспоминания и эмоции, которые снимаются с нейро-компьютерного интерфейса типа Neuralink, так что в совокупности хранилище будет практически полностью отражать личность владельца, представляя своеобразный «цифровой жизненный слепок» или аватар человека.

    Очень вдохновляют отдельные примеры героических усилий по цифровизации своей жизни, как у Стивена Вольфрама. На фотографии слева — домашний RIAD-массив с его хранилищем информации за 40 лет.

    Стивен Вольфрам старается журналировать все события в своей работе. Главное — их сохранить. А сохранить их можно только под своим контролем, на собственном сервере. Человек должен полностью контролировать и железо, и программное обеспечение, и данные, которыми он владеет.



    На правах рекламы


    Закажите и сразу работайте! Создание VDS любой конфигурации в течение минуты, в том числе серверов для хранения большого объёма данных до 4000 ГБ, CEPH хранилище на основе быстрых NVMe дисков от Intel. Эпичненько :)

    VDSina.ru
    Серверы в Москве и Амстердаме

    Comments 92

      +3
      офф Его воспоминания, скорее всего, интересны только ему самому. Наследникам они не к чему. Исторического интереса, вероятно, не представляют.
        +2
        Да-да, поэтому не публикуют письма Пушкина, например… Дневники известных людей… Мемуары — тоже в топку истории.

        Люди, которые не учат историю будут повторять чужие ошибки. А люди, которые учат — вынуждены беспомощно наблюдать, как люди которые не учат — повторяют ошибки.
          –12
          Эти люди были при жизни известными. А этого гражданина я вижу впервые.
            +27
            Вы про Стивена Вольфрама?
              0
              Шутка про неизвестность Стивена Вольфрама при жизни получила «отрицательный рост» оценок.
              +3
              Те кто учат историю тоже повторяют ошибки. И даже на своем опыте люди не учатся.
                0
                и тут приходим к тому, что не учить надо, а запоминать реперные точки и понимать происходящее и контекст
            +4
            Что-то я не понял в чём проблема у Стивена Вольфрама. Есть локальный жёсткий диск и есть папка на нём с личными данными. Что не так?

            Вообще сам посыл напоминает разводку в стиле «Докажи, что ты не лох, пошли СМС по нашему номеру». Зачем к своим личным чувствительным данным приделывать API? Чтобы они могли легче утечь?

            Кроме того, у Стивена на столе стоят Apple мониторы — очевидно, что он пользуется техникой Apple — о каких вообще личных данных он ведёт речь, когда Apple тотально сливает все его действия, включая файлы, клавиатурный ввод, телеметрию по запуску приложений и т. д. и т. п.
              +2

              Автор, наоборот, написал набор скриптов для инкрементального импорта перс. данных из вебсервисов в локальный JSON. Плюс визуализация и т.д. Дальше уже идут API для экспорта/распределённого хранения этого самого JSON.


              Но да, Вольфрам здесь упомянут ни к селу ни к городу 3 раза. Чем он важен для этого самого offline-first движения? Написал какой-то софт для оффлайна или участвует в этом движении? Нет. Хратит гигабайты старой переписки? Таких людей тысячи. Имеет какой-то эффективный инструментарий для почты итд? Но статья даже не рассказывает, чем он пользуется. (Upd: в статье по ссылке кое-что рассказывает, как и ожидалось всё довольно примитивно, в основном пиар своего продукта; ЧСХ он пиарит API Wolfram для работы с mbox, но сам пользуется Apple Mail)

                +1
                Автор, наоборот, написал набор скриптов для инкрементального импорта перс. данных из вебсервисов в локальный JSON.

                Эээ… Если кто-то так озабочен своей приватностью, то почему ему не приходит на ум такая простая идея, что свои чувствительные данные ИЗНАЧАЛЬНО не нужно доверять третьим лицам? И не нужно их собственноручно загружать ни в какие сервисы и облака?
                  +2

                  О приватности речь в статье вообще не идёт, только о сохранности данных. В том числе данных из сервисов, клиентские приложения которых не хранят полную локальную базу.

                    +2
                    Мне кажется в статье речь идёт не только о сохранности данных, но и о концептуальных отношениях личность — корпорации. Цитата:
                    Сейчас практически всем стала понятна сущность некоторых интернет-корпораций, которые стремятся получить от людей как можно больше личных данных — и заработать на этом. Они предлагают бесплатный хостинг, бесплатные мессенджеры, бесплатную почту — лишь бы люди отдали свои файлы, фотографии, письма, личные сообщения. Наши данные приносят огромные деньги, а люди стали продуктом. Поэтому техногиганты Google и Facebook — самые крупные корпорации в истории человечества. Это неудивительно, ведь в их распоряжении миллиарды единиц бесплатного «сырья», то есть «пользователей» (кстати, этим словом users называют людей только в двух областях: наркоиндустрии и индустрии программного обеспечения).
                      +1
                      Концептуальность там скорее для придания статье модности-солидности. А так-то смысл в том, чтобы все данные из разных сервисов и программ хранить единообразно. С сервисами понятно, они умереть могут или аккаунт удалить, утянув с собой все данные (переписку, почту и т.п). С программами не так очевидно:
                      — пользователь может поменять одну программу на другую (outlook на thunderbird, например). В результате часть данных может остаться в старом формате (который теперь нечем читать). Скажем, у меня сейчас в почтовой программе есть несколько сдохших почтовых аккаунтов, которые я держу только из-за писем. Если я когда-нибудь перееду на другую почтовую программу, я вряд ли буду импортировать данные из сдохших аккаунтов — и они зависнут мертвым грузом, т.к. прочесть их будет уже нечем.
                      Когда таких «переездов» накапливается много, дохлых нечитаемых данных тоже накапливается много. А ведь иногда они могут и пригодиться.
                        0
                        Недавно с удивлением обнаружил, что большая часть людей вокруг меня вообще не понимают, что такое «почтовая программа»… Для них почта — это www.mail.ru (ну, или www.gmail.com). Большая часть остальных — склонённые к сожительству с outlook с использованием служебного положения.
                +2
                По-моему ту не про то, чтоб спрятать свои данные от корпораций, а про то, что надо иметь локальную копию.
                  +3

                  Apple сливает куда? Можно какую-нибудь ссылочку? Для себя интересуюсь.

                    +1
                    Apple сливает куда?

                    Догадайтесь с трёх раз. Но здесь даже не важно, «куда» сливает, важно, что Стивен не хозяин своему компьютеру, а расходный материал корпорации Apple. И разговор о каких-то «личных данных» в этой ситуации вообще не имеет смысла.
                      0
                      Возможно автор комментария про подобное .
                      0
                      Насколько я понял, статья не столько о защите, сколько о парсинге с разных источников и бэкапе. Все остальное — тонкости и детали. Злые корпорации приплетены потому, что без них никуда. Не опубликуешь твит и не отправишь СМС, которые тебе нужно потом сохранить.
                        0
                        когда Apple тотально сливает все его действия, включая файлы, клавиатурный ввод, телеметрию по запуску приложений

                        можно какие-то подробности про "Apple сливает файлы и клавиатурный ввод"?

                          –2
                          Всё, что вам нужно знать об Apple, хорошо написал Сергей Голубицкий в своей статье про M1

                          https://novayagazeta.ru/articles/2020/11/14/87963-apple

                          (про то, что творит Apple и куда она ведёт своё стадо фанатов-зомби написано в заключительной части статьи, начиная с заголовка «Эпилог памяти Оруэлла»).

                          Хотя любому мало-мальски вменяемому человеку всё это и без Голубицкого было понятно.
                            0
                            Всё, что вам нужно знать об Apple, хорошо написал Сергей Голубицкий в своей статье про M1

                            Я посмотрел статью, особенно внимательно прочитал её конец, но таки не увидел, где там написано, что "Apple сливает файлы и клавиатурный ввод".


                            Зато вот что я там нашёл:


                            Первое, что делает новая ОС при каждом подключении, — отправляет Apple подробную статистику обо всех программах, какие я использую.

                            Это, видимо, про то, что Apple проверяет сертификаты подписанных приложений через OCSP. Хеши запускаемых приложений отправляют себе практически все антивирусы и EDR системы, и, прямо скажем, Apple делает это лучше других. В OCSP отправляется серийник сертификата, которым подписано приложение, нужно это для того, чтобы проверить, не отозван ли этот сертификат (например, потому, что его угнали у разработчика и теперь им подписывают малварь). Пост Голубицкого плохо пересказывает вот это пост, ставший довольно популярным: https://sneak.berlin/20201112/your-computer-isnt-yours/, но Голубицкий специально забыл рассказать, как и зачем это делается. Заодно, он приврал о том, что координаты в виде широты и долготы включаются в OCSP запрос.


                            Вот тут https://www.security-embedded.com/blog/2020/11/14/application-trust-is-hard-but-apple-does-it-well можно посмотреть менее истеричный пост про это.


                            С октября 2012 года компания Apple является партнером PRISM — государственной программы массового слежения и сбора информации

                            PRISM — это программа, по которой АНБ получает данные в рамках судебного запроса. Голубицукий сам пишет (не знаю, откуда он это взял, возможно из transparency report самой Apple), что Apple передала данные 36 тысяч раз, при этом, у Apple — сотни миллионов пользователей. Это не массовая слежка. Он просто не в курсе, о чём пишет, или специально врёт (писал бы уж про BOUNDLESS INFORMANT или CARNIVORE, хотя б по делу было).


                            в январе 2020 года по требованию ФБР Apple отказалась от сквозного шифрования как в приложении iMessage, так и при хранении данных в облаке iCloud.

                            Я попытался найти подтверждения этому в западной прессе и не нашёл. Зато нашёл, что Apple отказалась от идеи делать e2e шифрование данных iCloud. Кажется, это пример так называемого вранья со стороны Голубицкого.


                            Так что, всё-таки можно подробностей про "Apple сливает файлы и клавиатурный ввод"?

                        +6

                        Напоминаю, что у меня есть хорошая статья о том, как сделать роутер + NAS на х86, с openvpn, спокойно вытягивающем гигабит: https://habr.com/ru/post/478924/


                        Если интересно, могу про сборку и железо побольше написать

                          0
                          Интересно.
                            0

                            Принял, надо подумать что интересненькое можно написать)

                              0
                              Напишите про асинхронное зеркалирование без раскрытия данных. Сценарий такой: двое (или N) знакомых, достаточно квалифицированных, чтобы развернуть такую ноду, и присматривать за ней. На каждой ноде половина пространства — твоя, другая — знакомого. Своей ты пользуешься без ограничения, а другая — «втёмную» отдана под зеркалирование ноды знакомого. У него такая же конфигурация.
                                +1
                                Если правильно понял вашу задумку, такое можно с Syncthing сделать. Только самому надо шифровать файлы, чтобы друг не свои файлы не читал.
                                  0
                                  Спасибо, посмотрю. Хотя, конечно, почитать подробности про чужой опыт решения конкретной проблемы (да ещё и успешный, да ещё и на хабре) — экономит много времени.
                          +2
                          Чем ему SOLID POD не устраивает, персональное хранилище, с апи, спецификацией и открытым стандартом, настраиваемым доступом, библиотеками и большим количеством открытых данных.
                            0
                            У меня тоже были мысли организовать Personal Home Cloud, т.е. перенести свои сервисы со всяких облаков вроде гугла на локальный нас и работать там с документами, почтой, делать бэкапы, сохранить данные с онлайн сервисов через выгрузку и т.д. Руки, правда, до серьёзного начала, так и не дошли, увы.
                            В планах даже была пара статей на хабр, первая по выгрузке данных из разных сервисов, вторая уже про теорию и практику локального облака.
                              0

                              Делайте, даже owncloud/nextcloud лучше (дешевле и быстрее) того, что дает гугл.


                              Но вот вебофис все равно придется юзать гугловсккий или майковский.

                                0
                                Там у nextcloud вроде есть интеграция с вебофисом либры (Collabora Online), я начинал тыкать их докер образ, но сразу как-то не заработало.
                                  +1
                                  Работаю со встроенными Collabora Online и OnlyOffice для Nextcloud. Оба работают вполне сносно. Не проверял правда на большой выборке пользователей. Но для личных нужд подходит более чем.
                                    0
                                    nextcloud с OnlyOffice объединяли сами? Или есть готовая нормальная сборка?
                                      0
                                      Сервера OnlyOffice и Collabora Online как и сами веб-приложения доступны в свежей версии Nextcloud как приложения. Просто необходимо их установить в два клика, настройка тоже не трубует каких-то особых умений. Всё работает из коробки.
                                      Есть нюанс: я установил Nextcloud как snap. Но, как показывает мой 3-хлетний опыт, их версия Nextcloud-snap ещё более стабильная чем стабильные версии самого Nextcloud, плюс имеют официальную поддержку.
                                      В данный момент я использую две установки Nextcloud-snap, одна self-hosted, другая хостится в AWS. Одна использует OnlyOffice, другая Collabora Online. В общем-то всё работает без проблем.
                              +4
                              Следующей статьёй должна быть инструкция по организации всего этого уже не у хостера, а у себя. Но это уже не к этому автору:)
                                0
                                Да почему, невозможное возможно (правда это было у «соседей», но учитывая, что они в одном рынке крутятся, то я допускаю, что и у vdsины тоже что-то такое или было, или будет. Надеюсь, правда, получше качеством):
                                habr.com/ru/company/ruvds/blog/528428
                                0
                                Осталось понять, как статья, продвигающая идея «давайте хранить всё у себя на своём железе» соотносится с рекламодателем (вдсина — виртуал дедикейтед сервер, да?)
                                  0
                                  Потому что надо смотреть дальше: self-local storage это в будущем self-mail server, self-video host и т.п., которые будут разворачиваться по кнопке на криптованных контейнерах. У провайдера, скорее всего. В совсем далеком будущем, наш цифровой отпечаток будет экстерриториален и болтаться у нас над головой в качестве отдельного self-satellite.
                                  Пишу о превращении в эти self-* периодически, но исходя из угрозы энтропии, которые грозят вот этим гигантским (теперь) сервисам (а, значит, и нам).
                                  0
                                  Статья навеяла мысль о flash-накопителе (постоянно локально включенным в сеть), состоящем из сотен или тысяч индивидуально запитываемых блоков («секторов» диска) по запросу от API.
                                  Ну, и конечно постоянно работающем блоке кэша, с самыми часто запрашиваемыми данными.

                                  Например, ФИО и номер паспорта нужны часто — они в кэш-блоке. А записи «трудовой книжки» могут быть в дальнем углу, в обесточенном большую часть времени блоке.

                                  Кэш-блок, конечно, при износе — заменяется другим автоматически.

                                  Интересно, так долговечность такого накопителя будет ли выше?
                                    0
                                    Не думаю.
                                    Основная проблема (ресурса) это количество циклов записи, а не чтения.
                                    Как часто вы меняете ФИО и номер паспорта?
                                      0
                                      Как часто вы меняете ФИО и номер паспорта?

                                      Само собой редко, но эти данные в контексте личного хранилища — часто запрашиваются, на чтение, поэтому должны быть быстродоступны из кэша.
                                      И если всегда запитан и работает активно только один блок из 1000 на накопителе — по любому он должен прожить гораздо дольше, к тому же потребляя минимум лепестричества.
                                      Разумеется тут приносится в жертву среднее время доступа к инфо. Но это и спец-накопитель.
                                        +2
                                        SSD могут терять данные при отсутствии электричества долгое время. Тут, на Хабре была статья.
                                      0
                                      Куча SSD подыхают из-за контроллера.
                                        0
                                        А точные причины подыхания контроллеров известны?
                                          +2
                                          Точно известно, что их много. От софтовых багов до деградации или отвала кристалла.
                                      +2
                                      Это специальное приложение, которое непрерывно работает на клиентской стороне в фоновом режиме — и постоянно синхронизирует локальный архив со всеми внешними сервисами.

                                      Synology и Thunderbird.

                                      Первый синхронизирует Dropbox, Яндекс.диск, Google Drive на NAS.
                                      Второй скачивает содержимое всех ящиков через POP3.

                                      Удалят аккаунт — болезненно, но не смертельно. Свежие копии данных есть локально.
                                      Осталось сделать подобные приложения для скачивания своих постов/комментариев из соцсетей.
                                        +1
                                        Второй скачивает содержимое всех ящиков через POP3.

                                        Главная проблема ВСЕХ почтовых программ — они не могут скачать отправленные письма.
                                          +7
                                          IMAP прекрасно позволяет синхронизирует отправленные сообщения. Просто, указываете папку Sent в списке синхронизируемых папок. У меня mbsync и offlineimap прекрасно справляются уже несколько лет.
                                            +1
                                            А что произойдет, если вы
                                            1) Используете IMAP для синхронизации
                                            2) Удалите всю почту с сервера
                                            3) Используете IMAP для синхронизации ещё раз
                                              +1
                                              Я именно так попал, когда на работе поменяли сервер. Хвала бекапу, письма не потерялись. С тех пор я узнал, что в mbsync есть специальная опция Remove none.
                                                0
                                                Сейчас после длительного опыта работы с почтой, я понимаю, что нужен был какой-то механизм двустороннего обмена.
                                                Буквально вот выбираешь определённые письма и их перемещаешь между сервером и почтовой программой. Если они лежат во входящих — они должны туда и попадать. Если их по какой-то причине нет — копируются. Если есть — не дублируются.
                                                  0
                                                  SMTP?
                                                    0
                                                    А как по SMTP закачать уже отправленные письма на сервер в папку отправленных?
                                                      0
                                                      Понятия не имею, я просто взял Mozilla Thunderbird и мышкой перетащил письмо из папки отправленных из одного ящика в другой. И оно там появилось, в том числе и в вебинтерфейсе.
                                            +2
                                            Главная проблема ВСЕХ почтовых программ — они не могут скачать отправленные письма.

                                            Если задача не очень регулярная, я делаю так: переношу на сервере отправленные во входящие, закачиваю их почтовиком, переношу их в отправленные внутри него.
                                            Ну и это проблема не программ, а сервера и протокола (я о РОР3)
                                              0
                                              Именно! В этом и беда, что до сих пор не прикрутили хоть какой-то нашлёпки для исправления этой беды.
                                          +2

                                          С одной стороны, я очень расстроен тем как умирают популярные сервисы унеся с собой огромное количество накопленной информации.


                                          Сервисы, сайты, технологии — умирает просто по одному клику мышкой. Щас флэш умрёт и утянет за собой кучу всего — https://habr.com/ru/post/531262/ .


                                          А с другой, то что в мои детские годы интернета не было, а в студенческие был но не был так развит — скорее благо.


                                          Вобщем, всё сложно.
                                          Надеюсь что упомянутый в тексте мужик подтёр некоторые переписки :)

                                            0
                                            Давно хотел приложение, собирающее инфу со всех сервисов (почта, сообщения, комментарии, фото, геолокация) и распределяющее её по оси времени. У гугла есть что-то похожее, но интерфейс абсолютно неподходящий и устаревший для этих целей
                                              +6
                                              Нам нужны удобные программы, сервисы, базы данных и защищённые хранилища для фотографий, личных финансов, социального графа, данных о личной продуктивности, потреблению продуктов, истории всех чатов в онлайне и офлайне, личного дневника, медицинских данных (пульс, давление, настроение и проч.), прочитанной литературы и публицистических статей, просмотренных веб-страниц, фильмов и видеороликов, прослушанной музыки и так далее.


                                              Я лично не понимаю, нафига вести вот такой подробный цифровой дневник. Ну с фото согласен. Но зачем мне история посещенных веб страниц? Настроения? Представляю сцену из будущего:
                                              — Ты этот фильм видел?
                                              — Надо посмотреть в логах

                                              Нужны удобные инструменты для анализа и статистики. Нужны персональные нейросети для обработки данных и предсказания личных решений (например, для рекомендации музыкальных групп, блюд кухни или людей для общения).


                                              Зачем лично мне личные нейросети для предсказания моих личных решений. Я сам проанализирую и решу. Блюдо сам закажу. Спасибо.
                                                +2
                                                Но зачем мне история посещенных веб страниц?

                                                Я недавно в процессе изучения темы про стахановцев читал много разных книжек.


                                                Наутро вспомнил про интересный момент который видел, но не сохранил.


                                                Открыл историю и стал пересматривать.


                                                И это не первый такой случай.

                                                  0
                                                  для предсказания, наверное незачем. А вот вытягивать что-нибудь интересное из старых данных — заболевание какое-нибудь на начальной стадии, например — было бы интересно.
                                                    0

                                                    Для предсказания как раз очень полезно. Например, фильтровать новостную ленту (или даже Хабр) от статей, которые я точно не буду читать. Сейчас приходится тупо скроллить, читая заголовки.

                                                      +1
                                                      дело ваше, конечно, но я бы не доверил компьютеру следить за моим информационным пузырём
                                                        0
                                                        Вы так получите аналог поискового пузыря, когда никакая новая информация не сможет прорваться в ваше окружение. Например писал всегда под одним фреймворком и поиск будет услужливо подставлять только его, а не то, что может быть более интересным.
                                                          +2

                                                          Эта проблема понятна. Фильтрация должна быть максимально осторожной. К примеру, я абсолютно уверен, что не хочу читать статьи про маркетинг и новости про криминал. Это отфильтровало бы достаточно существенный процент информационного мусора без ущерба для моего кругозора.


                                                          Без ИИ я просто ставлю в игнор определенные теги, то есть "пузырь" фактически уже есть и меня устраивает. Но теги есть далеко не во всех новостных лентах или блогах.

                                                      +1
                                                      История страниц штука полезная. Помнишь, что прошлым летом искал что-то по вопросу, а вот история помогает найти те страницы и точные запросы. Несколько раз так помогало.
                                                        0
                                                        Но зачем мне история посещенных веб страниц?

                                                        Как уже указали в ответе выше — это совершенно необходимо, когда вспоминаешь, что «Недавно читал где-то» и лезешь в историю.
                                                        Я всё мечтаю о браузере, который реально будет просто сохранять в оффлайн все страницы, которые ты захотел — кликнул на кнопку и всё. Но пока есть только всякие полумеры типа мёртвого скрапбука.
                                                          0
                                                          Evernote и OneNote предлагают свои клипперы для всех ходовых браузеров. Да, это дополнительный сервис, но у них по крайней мере базы локально хранятся.

                                                          Я вообще всё потенциально интересное загоняю в Pocket, если понимаю, что буду обращаться к этому материалу позже — пересохраняю в Evernote.
                                                            0
                                                            А в чём, по Вашему, должна заключаться «жизнь» скрапбука (и почему он — полумера)? У меня он работает, каши не просит. Ни одной страницы, содержательная часть которой мне была бы интересна, и он не смог бы её сохранить, я пока не встретил (при текущем объёме базы под 50Gb). Что я упускаю?
                                                              +1
                                                              А в чём, по Вашему, должна заключаться «жизнь» скрапбука

                                                              Как минимум в работе на актуальной версии браузера.
                                                          +1

                                                          Всегда при долговременном хранении встает вопрос отказоустойчивости и бэкапов. Так что хранить локально не вариант. Значит нужна синхронизация с облаком. Это уже есть — google, dropbox и т.п. дальше добавляем синхронизацию с популярными сервисами в облако. Ну а дальше надо думать как можно монетизировать. Т.е. делать какой то вьювер для этих данных на случай офлайн доступа.

                                                            +2
                                                            кстати, этим словом users называют людей только в двух областях: наркоиндустрии и индустрии программного обеспечения

                                                            image
                                                            Вот это поворот, не знал. User реально можно перевести как наркоман :)
                                                              –1
                                                              Поэтому техногиганты Google и Facebook — самые крупные корпорации в истории человечества.


                                                              Вообще-то, самая крупная корпорация сегодня — это Apple, а у нее с конфиденциальностью данных все намного лучше, чем у вышеупомянутых Google и Facebook
                                                                0
                                                                Это кстати удивительно, если выудить из русской вики данные о сотрудниках яндекса, гугла и эппла то будет 9k, 127k, 137k.

                                                                Удивительно в том плане что я вижу что Гугл и Яндекс действительно многое что делают. А вот эппл, ну делает процессоры на ARM не лучше не хуже других, делает телефоны, ноутбуки и рабочие станции, которые мягко говоря не лучше других. Вроде мониторами славился (славится?) (из-за чего фотографы его любили раньше) — но думаю уже чисто Китайские не хуже в 2020м. Ну ок, есть у них своя операционка, которая тоже, мягко говоря не на острие прогресса.

                                                                Короче говоря я в шоке — что все эти 137 тысяч человек в эппле делают. Может они всех менеджеров по продажам во всём мире посчтитали? :)

                                                                Вот Майкрософт кстати имеет 140k сотрудников, и то как он развивает, кроме Windows, которая действительно крута (хотя я фан Линукса, но и на ВинАпи писал, и скажу это другое, но мне понравилось), крутые технологии вроде Net, Azure, Xamarin — т.е. я могу понять что там 140k чел делом заняты. А Яндекс вообще вон делает классный поиск (местами лучше гуглового, особенно по части поиска по картинкам и машинного распознавания что на них), делает более технологичные дата-центры чем Гугл, которые отапливают жителей Финляндии (удивился но факт, тепло от охлаждения их вычислительных блоков — идёт в дома финов) — и при этом там всего 8k.

                                                                А в Эппле, которая не делает ничего, чем моя скромная персона могла бы восхититься — рабоатает 137k, короче я в шоке -_-
                                                                  0
                                                                  Ну во-первых — да, в Apple все работники магазинов, включая продавцов самого низкого уровня, а также вся обслуга — например, уборщики, работники столовой — все они работники Apple, и все это из-за политики конфиденциальности. Apple старается как можно меньше пользоваться аутсорсингом. Во-вторых, все что вы написали Apple делает — а это очень много всего, там есть и software, и hardware, причем разнообразное hardware, все это требует большого количества инженеров.
                                                                +2
                                                                Стивен пытается навести людей на мысль о выгоде для конкретного индивидуума использования децентрализованных сервисов. И тут его сложно не поддержать, ведь все проблемы современного общества именно из-за гигантского дисбаланса, порождаемого супервыгодными для элиты и ущербными для общества централизованными сервисами (институтами). Думаю, сейчас лучшее время для разработки децентрализованных аналогов всего, ведь современная экономическая модель себя полностью исчерпала, а новую только предстоит создать. Если общество проиграет эту технологическую гонку, мы все можем оказаться в условиях неофеодализма, абсолютно лишённые всех прав, свобод и каких либо возможностей, кроме прихоти элиты. Рекомендую DHT и blockchain в качестве основы.
                                                                  0
                                                                  С DHT и блокчейном получится проблемка, что участники сети должны хранить чужую информацию на своём железе и если мы хотим хранить сразу 2-3 копии, то чужого надо хранить раза в 2-3 больше, чем своего. А 2-3 реплики — мне кажется, слишком оптимистично для сети из случайных участников, это скорее актуально для кластера в датацентре, т.е. надо больше реплик и больше оверхеда.
                                                                    0
                                                                    Если мы говорим про решение задачи хранения своих собственных данных, то:
                                                                    1. Собираем коллекцию файлов в иерархии директорий
                                                                    2. Шифруем (как директорию или как архив)
                                                                    3. Создаём torrent-файл
                                                                    4. Размещаем на всех своих подконтрольных машинах и сидируем
                                                                    При таком подходе надо будет автоматизировать только процесс добавления новых данных к сидируемому хранилищу. Небольшая программка на любимом языке поможет (идея для стартапа ;).
                                                                      0
                                                                      Если есть подконтрольные машины, то можно настроить репликацию данных без p2p, конфигурация же не меняется динамически. У моего QNAP можно сделать зеркало на другой nas и оно будет автоматически реплицировать новые данные по сети.
                                                                        0
                                                                        Если добавить в директорию файлы, то торрент-файл будет другим — поменяется его хэш. В результате остальные машины будут сидировать старый торрент и не подхватят новые файлы.
                                                                        Вам придется писать систему по обновлению торрент-файлов на подконтрольных вам машинах.
                                                                          0
                                                                          Вообще есть инструмент для этого: Resilio Sync (ранее BitTorrent Sync), но, возможно, есть и OpenSource решения.
                                                                            0
                                                                            Тут ниже уже упомянули SyncThing.
                                                                          0
                                                                          Любой инструмент шифрования по выбору, тот же VeraCrypt + Resilio (бывший TorrentSync) или SyncThing. Вполне рабочая схема.

                                                                          Минусы соответствующие: если на одном узле файл сломается, то он ровно так же очень быстро окажется сломанным и на прочих.
                                                                            0
                                                                            В SyncThing можно настроить число хранимых предыдущих версий или вовсе прикрутить Git (правда последнее я не пробовал), или запретить удалять файлы на одном из хостов.
                                                                              0

                                                                              Это не минусы, а неотъемлемое свойство электронных архивов. Они как кот шрёдингера — пока не распакуешь и не запустишь, не узнаешь жив он или нет.

                                                                        0
                                                                        Какой-то набор проблем с общими идеями решения или «а вот тут хз, еще не придумали». Особенно порадовало начало в духе «а еще запилить свою нейросеть рекомендации музыки, да чтоб удобно и не хуже гугла». Ага, в одиночку :) Да даже малая группа не породит ничего действительно удобного.
                                                                        Тогда уж надо проповедовать аскетизм и ограничение числа потребляемых сервисов
                                                                          0
                                                                          Первый абзац написан так, как будто это что-то плохое.
                                                                          Мне давно интересно узнать, как среднестатистический Джон Доу пострадал от того, что корпорации зарабатывают на его персональных данных.
                                                                            0
                                                                            Не знаю.

                                                                            Согласен полностью, что сейчас вообще нет решений для надёжного хранения данных в течение всей жизни.
                                                                            Но IMHO смешаны в кучу две разные задачи:
                                                                            1. Уберечь от уничтожения те данные, что хочется сохранить долговременно.
                                                                            2. Не допустить утечку чувствительных данных третьим лицам.
                                                                            Это просто две разные категории данных. Например, врядли мне надо сохранять все свои твиты или данные геолокации по минутам, а вот фотографии со свадьбы — хотелось бы. В то же время, утечка данных по гео-локации может нанести куда больший вред моей безопасности, чем фото со свадьбы.

                                                                            Не уверен, что у задачи может быть «универсальное» решение. Как только решение становится универсальным — почти 100% теряется конфиденциальность.
                                                                            Скорее вижу, что завтра умение программировать будет таким же базовым, как сегодня и вчера умение пользоваться вилкой, и каждый человек будет решать задачу по сохранности данных (в контексте №1 выше) сам.
                                                                              0
                                                                              Например, врядли мне надо сохранять все свои твиты или данные геолокации по минутам, а вот фотографии со свадьбы — хотелось бы

                                                                              Будет забавно, когда в старости вам больше захочется посмотреть твиты, нежели чем надоевшие за годы показов фотки со свадьбы, которые остались у каждого второго родственника.
                                                                                0
                                                                                Ну, смысл тут не в твитах как таковых. У кого-то действительно может в твитах больше содержания для сохранения, чем в памятных фотографиях — все ж разные.

                                                                                Смысл в том, что в плане информации в течение жизни человек оставляет после себя очень много всего. Хотя внутренний плюшкин может желать сохранить это всё, но на деле 99% этой информации не будет повторно использована никогда. Её не надо сохранять и потом индексировать для доступа. Но тем не менее есть именно тот 1%, который хочется иметь в сохранности в течение всей жизни, т.е. по-настоящему надёжно.
                                                                                  0

                                                                                  Увы, неизвестно, что именно войдёт в ненужные 99%, а что в нужные 1%.

                                                                            Only users with full accounts can post comments. Log in, please.