Pull to refresh

Comments 57

Под угрозой исчезновения находятся ещё около 900 онлайн-журналов

плевать, главное чтоб их не было на сайхабе [сарказм]
Нужно всего лишь дальше внедрять DRM и штрафовать\сажать за торренты. Пусть горят… Так сказать, они не вписались «в рынок». Как раньше говорилось — «Бабы ещё нарожают». Вот тут так же. Сами виноваты…
Так всегда было. Просто раньше исчезали бумажные журналы, причём совсем без следа. Большая часть из них «мусорные», со статьями, которые никто не читал и никто не цитировал.
UFO just landed and posted this here

Это не фильмы и не игры, они нужны для статистики так же, как все данные о звёздном небе за всё время. Всегда можно будет найти в них что-то новое со временем.

Интересно какой объём информации, в целом, был утерян?
Не интересно.
Добавьте слово «полезной» перед «информации».
Полезность научной информации часто становится известна очень сильно позже.
Вот в том числе и поэтому нужно переходить от централизованного интернета к децентрализованному, в котором подписка/добавление в избранное/комментирование/установка лайка эквивалентны сохранению контента в локальное хранилище и последующей раздаче.
Тысячи и тысячи дохлых торрентов говорят о том, что это не решение проблемы.
Проблема торрентов в том, что они слишком примитивный инструмент. Просто набор хешей, с практически полным отсутствием метаинформации и данных социального графа.
Возможно с выходом libtorrent 2.0 с поддержкой протокола BitTorrent 2 ситуация изменится (там хотя-бы пофайловое выравнивание и хеширование сделали).
Вообще построение реально работающей децентрализованной базы знаний всего человечества — очень сложная задача:) Я много думал об этом. Реально непонятно за что браться и как грамотно разбить эту сверхзадачу на достаточно независимые друг от друга и посильные для среднего программиста компоненты.
UFO just landed and posted this here

Не думаю что в libtorrent вырубят поддержку старого протокола. libtorrent это chrome в мире торрентов а значит новый протокол автоматически появится в куче битторрент клиентов.


Но libtorrent уже в роли догоняющего в технологиях. Только только решили хешировать каждый файл отдельно а IPFS уже шарит каждый блок файла отдельно и научилась находить одинаковые блоки в разных файлах благодаря rabin и buzhash.

UFO just landed and posted this here

А я посмотрел и у меня uTorrent'ов 5 штук из 100 пиров.

UFO just landed and posted this here

Возможно. Они сделали свой протокол(uTorrent transport protocol) который работает по UDP и конектятся по нему к своим же клиентам.


Я кстати не вижу в этом протоколе место где можно было указать ID своего клиента так что uTorrent возможно может показывать клиентов соединённых по этому протоколу как uTorrent клиенты.

UFO just landed and posted this here

Можно попробовать собрать статистику в DHT.

Запустил lua-dht и после пары часов работы в nodes.tbl насчитал 163 LT(LibTorrent) и 91 UT(uTorrent) из 280 клиентов которые себя идентифицировали в DHT.

Можно придумывать сколь угодно виртуозные протоколы, но не будет раздающих — не будет файлов.
UFO just landed and posted this here
Как могут улучшения протокола помешать мне удалить скачанный файл из раздач?
А вот интересно, как к этом отнесутся приватные трекеры, которые трясутся над утечкой каждого байта на сторону. Как бы не блокировалось всё это добро, по аналогии с запретом DHT.
А это добро и так уже давно на ладан дышит.
UFO just landed and posted this here
Нужна консенсусная система биллинга хранения публичной информации. Бесценно = бесплатно = не ценно.
Биллинг не обязательно должен быть в деньгах. Трекеры не плохо приучили пользователей к уважению других и оценке данных.
Да там много чего нужно. И биллинг, и интеграция с обычным инетом в том числе для удобного захвата данных, и анонимность (большая часть информации таки закопирайчена), и грамотная децентрализация, и простота/удобство для юзеров, и социальный граф для автоматической классификации информации на основе интересов и взаимных рейтингов юзеров, и возможности краудсорсинга для улучшения информации (например в случае с теми же книгами — сканирование, OCR, вычитка, перевод и ассоциирование книг на разных языках, создание оглавлений и внутренняя разметка, и в конечном итоге трансформация человекоориентированного текста в машинноориентинованный семантический формат, из которого человекочитаемый текст генерируется подобно тому, как к чистому html применяются таблицы стилей).
К сожалению, не видел ни одной системы настоящего сохранения контента.
Условно говоря, каждый браузер разрешает делать закладки. Каждый разрешает сохранять страницы. Но нигде нет такого, чтобы браузер при добавлении в закладки позволял сразу сделать локальную копию страницы где-нибудь в заранее настроенной папке (или даже локальную копию сайта, если нужен весь сайт).
Во-первых, я писал не об этом. Какое типичное поведение пользователя? Сидишь в браузере. Открыл интересное. Решил — о, это нужно сохранить. Клик где-нибудь наверху по панели и всё, сохранение осуществлено. Лучше бы выпадающее меню, типа «сохранить весь сайт / всю стену пользователя / всю галерею». Когда захотелось пересмотреть — в том же браузере открыл вкладку «архив», выбрал тот самый сайт (или с помощью поиска нашёл по тексту), открыл нужную страницу.
Причём даже дополнения, которые были раньше (типа ScrapBook) делали это всё крайне убого, например сохранённый скрапбук можно было открыть только из того же самого браузера, он сохранялся в своём формате, а вовсе не в виде обычной страницы.
А что предлагаете вы? Скопировать ссылку из адресной строки, перетащить в соседнее приложение (если оно не запущено, то запустить), открывать сторонним способом, поиск вообще через какой-нибудь TC, да и то, вдруг там сохранилось в другой кодировке…

Во-вторых. Чисто ради интереса, попробуйте сохранить с помощью этого вашего wget сайт Крылова (krylov.cc). У меня не получилось, но я не программист, может у вас получится. А в браузере всё отлично открывается.
Типичное поведение пользователя это никогда не сохранять никаких страничек. Максимум это закладку сделает.

Я предлагаю рабочее решение по тому как можно сохранить целиком сайт здесь и сейчас. А не мечтать о чудо-кнопке, где по 1 клику сохранит целый сайт как надо.

Wget это консольная утилита. Открыть её это 1 клик по консоли и wg+tab. И сохраняет wget в .html. Поиск для сохраненного сайта всегда будет сторонний. Встроенный поиск сохранить невозможно. Чтобы сохранить встроенный поиск сайта это нужно получить движок сайта + бд.

Wget не для простого пользователя, но он обеспечивает огромную гибкость при сохранении, быструю скорость работы и не требовательность к ресурсам. К нему написан отличный ман и его легко освоить.

Для простого пользователя есть всякие teleport pro и другие сохранялки. Где кнопочки и вот это всё.
Типичное поведение пользователя определяется типичным функционалом софта. Если сделать так, чтобы при установке лайка контент сохранялся и раздавался по p2p, то так и будет

Teleport offline browser Вам в помощь, только не знаю, актуален ли он...

UFO just landed and posted this here
Спасибо, попробую.
На Android Chrome это поддерживает. Закладки сохраняются offline, если флаг поставить.
Боюсь, выцарапать из недр андроида сохранённые странички — это тот ещё квест будет. Но в любом случае, я в телефоне сайты не открываю практически; хотя знаю, да, что многие люди пользуются телефоном для этого, но это не по мне как-то.
Там также есть кнопка скачать.

Вроде бы там даже сохранённые сайты можно отправлять по электронной почте.

Омг. Что за флаг, не подскажите? Как сохранять отдельные страницы понятно, а вот целиком закладки без понятия
У меня планшет, на планшетах оно и так работает))

IPFS автоматически сохраняет локально то что загружается через его шлюз. Для этого сайт должен быть загружен в IPFS.


Но может потерятся связь домен — хеш при отключении сайта. Получится что информация есть но для доступа к ней нужно "вспомнить" один из хешей с которым был связан домен.


Можно перебрать все корневые блоки в локальном хранилище и найти те что вероятно были связаны с этим доменом. Но не знаю написал ли кто уже инструмент поиска по локальным блокам.

Платные версии и pinboard.in и diigo.com умеют архивировать добавленные закладки.

Далеко не всегда, как тут сразу начали комментировать, пропадают "бесполезные" статьи. Есть, например, советский/российский журнал ЖЭТФ (Журнал Экспериментальной и Теоретической Физики). Он выходит с 1931 года и формально доступен онлайн, с одним "но". Статьи с 1955 по 1994 года доступны только на английском языке. Чем примечателен 1955-й год? Это год, с которого статьи начали рутинно переводить на английский язык. Хохма заключается в том, что русскоязычные статьи до 1994 года онлайн недоступны, похоже их никто не сканировал вообще.


Т.е., грубо говоря, если бы некие люди в Западной Европе (Springer) не отсканили англоязычные статьи, то большая часть журнала, фактически, пропала бы из эфира. Статей на русском до 1994 года считай, что нет. Статьи с 1931 по 1954 год доступных онлайн нет ни на каком языке. Конечно, где-то, в ещё несгоревших/незатопленных/не покрывшихся мхом архивах библиотек можно раздобыть бумажные копии, но физика — не история, в бумажных архивах никто копаться не будет без особой на то необходимости.


И журнал этот бесполезным назвать очень трудно. Собственно, о проблеме недоступных/пропавших статей я знаю не понаслышке, потому что регулярно приходится искать старые статьи, включая таковые из ЖЭТФ.


Это, конечно, не имеет непосредственного отношения к посту, где речь, скорее всего, идёт об online-only современных журналах, которые появляются и исчезают как облака летним утром. Однако, проблема долговременного хранения научных статей неиллюзорна, и не очень понятно, какой процент статей доживёт до конца века.

В деле добычи старых книг и статей очень помогают люди, которые работают в РГБ. Они за деньги фотографируют нужные материалы и потом высылают по емейлу.

Спасибо за информацию. Надо будет узнать побольше.


Да, с книгами похожая проблема. Старые издания, которые не переиздавались. Бывает, что их ни купить, ни в отсканированном виде не найти. Существуют только в виде библиографических ссылок там сям.

Я заказывал вот тут any-book.ru

Сайт выглядит очень стремно, но человек действительно работает в РГБ и выслал оцифрованную копию в лучшем виде и всего за 2 дня.
Собственно, у РГБ и РНБ есть отделы электронной доставки документов, и у других библиотек есть такие отделы. Вы платите деньги в библиотеку, библиотека сканирует вам нужные страницы и отправляет вам по почте или через свой веб-сервер.
пропадают «бесполезные» статьи.
в бумажных архивах никто копаться не будет без особой на то необходимости
бесполезным назвать очень трудно
Как бы всё равно сами то и повторили — если никому не нужно, то никто не сохраняет, «в бумажных архивах не копается».

Это не означает, что оно ненужное. Чтобы оценить "нужность", статью надо хотя бы увидеть. Но покопаться в бумажных архивах — это уйма потраченого времени. А в итоге, может оказаться, что эта конкретная статья оказалась не достаточной "нужности". Если архив отсканирован, и есть доступ, то вполне может выясниться, что там полно всего нужного для разных людей.


Тут, опять-таки, разница между физикой и историей. В первом случае, если не удалось раздобыть статью с решением какой-то задачи, придётся решать эту задачу самому (если это возможно). Получается выбор между тем, на что потратить время: а). на поиск статьи, где задача может быть решена, а может и нет; б). на решение задачи своими силами. В случае исторической науки выбора нет: если исторический документ невозможно найти, то другой вместо него не сделаешь.

Наш собеседник хотел сказать, что «нужное» = «приносящее выгоду». Если статьи не приносят выгоду, тогда их никто не сохраняет.

Другой собеседник выше отметил, что физики — это не историки, и для них невыгодно искать статьи в библиотеках. (По правде сказать, для историков это тоже очень невыгодно, и историки стараются этог избегать.)
UFO just landed and posted this here
Да, наверное, если журналы пропадают, значит в них уже нет необходимости.

Зато всякая хрень в инете плодится в геометрической прогрессии.

«Хрень» зачастую имеет большую популярность и склонность к размножению.
Интернет давно уже превращается в развлекательную помойку, замещающую ТВ и прочие масс-медиа. Специализированная информация (как те же научные статьи, по естественным наукам итп) тонет и исчезает на дне (где со временем разлагается в ничто), рекламно-развлекательный шлак всплывает наверх. при этом за счет этого шлака помойная куча (суммарный объем информации в интернете) растет, а объем специализированной инфы в лучшем случае остается прежним, на деле уменьшается из-за невостребованности. Винты-то на хостингах не резиновые, а содержать сервера стоит денег — вот и отдают пространство под то, что более выгодно, удаляя невостребованное старье. Даунские ролики на ютубе вроде «ментос в кокаколу» или «фигня под гидравлическим прессом» собирают десятки миллионов просмотров, 8-летние школотроны с летсплеями игрушек набирают десятки тысяч подписчиков а что-то действительно интересное и познавательное исчезает. Общество блин потребления… Тенденция крайне нездоровая.

«Нету никаких облаков, есть чужие компьютеры» (с) Neuromantix
Интересно, как уважаемые комментирующие предлагают мерить эту самую «нужность» и «полезность»? Если мерить количество людей лично заинтересованных в конкретной статье, то выяснится, что чем больше трудов в нее вложено, чем более высоко квалифицированный человек ее писал, тем меньшее количество людей способно ее хоть как-то осознать.
Мусора, конечно, много, но есть подозрение, что родись сейчас Галуа, его бы тоже записали в «мусор», до поры до времени… вот только да, когда время прийдет, архив уже потеряют.
Sign up to leave a comment.

Other news