avouner Sep 10 2020 at 14:20

Десятки научных журналов исчезли из интернета за последние 20 лет и никто их не сохранил

3 min

12K

Data storage*Studying in IT

+17

Comments 57

perezanov Sep 10 2020 at 14:57

Под угрозой исчезновения находятся ещё около 900 онлайн-журналов

плевать, главное чтоб их не было на сайхабе [сарказм]

Balling Sep 10 2020 at 17:02

Сейчас уже libgen.lc/scimag/index.php Полная копия sci-hub.

OZR Sep 10 2020 at 15:03

Нужно всего лишь дальше внедрять DRM и штрафовать\сажать за торренты. Пусть горят… Так сказать, они не вписались «в рынок». Как раньше говорилось — «Бабы ещё нарожают». Вот тут так же. Сами виноваты…

red_andr Sep 10 2020 at 15:26

Так всегда было. Просто раньше исчезали бумажные журналы, причём совсем без следа. Большая часть из них «мусорные», со статьями, которые никто не читал и никто не цитировал.

UFO just landed and posted this here

perfect_genius Sep 24 2020 at 11:33

Это не фильмы и не игры, они нужны для статистики так же, как все данные о звёздном небе за всё время. Всегда можно будет найти в них что-то новое со временем.

AnaGolik Sep 10 2020 at 15:39

Интересно какой объём информации, в целом, был утерян?

rowaxi Sep 10 2020 at 15:54

Не интересно.
Добавьте слово «полезной» перед «информации».

rombell Sep 12 2020 at 09:30

Полезность научной информации часто становится известна очень сильно позже.

NeoCode Sep 10 2020 at 16:18

Вот в том числе и поэтому нужно переходить от централизованного интернета к децентрализованному, в котором подписка/добавление в избранное/комментирование/установка лайка эквивалентны сохранению контента в локальное хранилище и последующей раздаче.

mistergrim Sep 11 2020 at 02:37

Тысячи и тысячи дохлых торрентов говорят о том, что это не решение проблемы.

NeoCode Sep 11 2020 at 21:23

Проблема торрентов в том, что они слишком примитивный инструмент. Просто набор хешей, с практически полным отсутствием метаинформации и данных социального графа.
Возможно с выходом libtorrent 2.0 с поддержкой протокола BitTorrent 2 ситуация изменится (там хотя-бы пофайловое выравнивание и хеширование сделали).
Вообще построение реально работающей децентрализованной базы знаний всего человечества — очень сложная задача:) Я много думал об этом. Реально непонятно за что браться и как грамотно разбить эту сверхзадачу на достаточно независимые друг от друга и посильные для среднего программиста компоненты.

UFO just landed and posted this here

ivan386 Sep 12 2020 at 14:11

Не думаю что в libtorrent вырубят поддержку старого протокола. libtorrent это chrome в мире торрентов а значит новый протокол автоматически появится в куче битторрент клиентов.

Но libtorrent уже в роли догоняющего в технологиях. Только только решили хешировать каждый файл отдельно а IPFS уже шарит каждый блок файла отдельно и научилась находить одинаковые блоки в разных файлах благодаря rabin и buzhash.

UFO just landed and posted this here

ivan386 Sep 12 2020 at 20:11

А я посмотрел и у меня uTorrent'ов 5 штук из 100 пиров.

UFO just landed and posted this here

ivan386 Sep 12 2020 at 20:25

Возможно. Они сделали свой протокол(uTorrent transport protocol) который работает по UDP и конектятся по нему к своим же клиентам.

Я кстати не вижу в этом протоколе место где можно было указать ID своего клиента так что uTorrent возможно может показывать клиентов соединённых по этому протоколу как uTorrent клиенты.

UFO just landed and posted this here

ivan386 Sep 12 2020 at 21:12

Можно попробовать собрать статистику в DHT.

ivan386 Sep 13 2020 at 00:48

Запустил lua-dht и после пары часов работы в nodes.tbl насчитал 163 LT(LibTorrent) и 91 UT(uTorrent) из 280 клиентов которые себя идентифицировали в DHT.

mistergrim Sep 12 2020 at 16:14

Можно придумывать сколь угодно виртуозные протоколы, но не будет раздающих — не будет файлов.

UFO just landed and posted this here

mistergrim Sep 12 2020 at 17:49

Как могут улучшения протокола помешать мне удалить скачанный файл из раздач?

А вот интересно, как к этом отнесутся приватные трекеры, которые трясутся над утечкой каждого байта на сторону. Как бы не блокировалось всё это добро, по аналогии с запретом DHT.

А это добро и так уже давно на ладан дышит.

UFO just landed and posted this here

y-alexey Sep 11 2020 at 15:05

Нужна консенсусная система биллинга хранения публичной информации. Бесценно = бесплатно = не ценно.
Биллинг не обязательно должен быть в деньгах. Трекеры не плохо приучили пользователей к уважению других и оценке данных.

NeoCode Sep 11 2020 at 21:32

Да там много чего нужно. И биллинг, и интеграция с обычным инетом в том числе для удобного захвата данных, и анонимность (большая часть информации таки закопирайчена), и грамотная децентрализация, и простота/удобство для юзеров, и социальный граф для автоматической классификации информации на основе интересов и взаимных рейтингов юзеров, и возможности краудсорсинга для улучшения информации (например в случае с теми же книгами — сканирование, OCR, вычитка, перевод и ассоциирование книг на разных языках, создание оглавлений и внутренняя разметка, и в конечном итоге трансформация человекоориентированного текста в машинноориентинованный семантический формат, из которого человекочитаемый текст генерируется подобно тому, как к чистому html применяются таблицы стилей).

A114n Sep 10 2020 at 16:38

К сожалению, не видел ни одной системы настоящего сохранения контента.
Условно говоря, каждый браузер разрешает делать закладки. Каждый разрешает сохранять страницы. Но нигде нет такого, чтобы браузер при добавлении в закладки позволял сразу сделать локальную копию страницы где-нибудь в заранее настроенной папке (или даже локальную копию сайта, если нужен весь сайт).

vaslobas Sep 10 2020 at 16:50

wget в помощь

-2

A114n Sep 10 2020 at 17:22

Во-первых, я писал не об этом. Какое типичное поведение пользователя? Сидишь в браузере. Открыл интересное. Решил — о, это нужно сохранить. Клик где-нибудь наверху по панели и всё, сохранение осуществлено. Лучше бы выпадающее меню, типа «сохранить весь сайт / всю стену пользователя / всю галерею». Когда захотелось пересмотреть — в том же браузере открыл вкладку «архив», выбрал тот самый сайт (или с помощью поиска нашёл по тексту), открыл нужную страницу.
Причём даже дополнения, которые были раньше (типа ScrapBook) делали это всё крайне убого, например сохранённый скрапбук можно было открыть только из того же самого браузера, он сохранялся в своём формате, а вовсе не в виде обычной страницы.
А что предлагаете вы? Скопировать ссылку из адресной строки, перетащить в соседнее приложение (если оно не запущено, то запустить), открывать сторонним способом, поиск вообще через какой-нибудь TC, да и то, вдруг там сохранилось в другой кодировке…

Во-вторых. Чисто ради интереса, попробуйте сохранить с помощью этого вашего wget сайт Крылова (krylov.cc). У меня не получилось, но я не программист, может у вас получится. А в браузере всё отлично открывается.

vaslobas Sep 10 2020 at 18:25

Типичное поведение пользователя это никогда не сохранять никаких страничек. Максимум это закладку сделает.

Я предлагаю рабочее решение по тому как можно сохранить целиком сайт здесь и сейчас. А не мечтать о чудо-кнопке, где по 1 клику сохранит целый сайт как надо.

Wget это консольная утилита. Открыть её это 1 клик по консоли и wg+tab. И сохраняет wget в .html. Поиск для сохраненного сайта всегда будет сторонний. Встроенный поиск сохранить невозможно. Чтобы сохранить встроенный поиск сайта это нужно получить движок сайта + бд.

Wget не для простого пользователя, но он обеспечивает огромную гибкость при сохранении, быструю скорость работы и не требовательность к ресурсам. К нему написан отличный ман и его легко освоить.

Для простого пользователя есть всякие teleport pro и другие сохранялки. Где кнопочки и вот это всё.

NeoCode Sep 11 2020 at 22:48

Типичное поведение пользователя определяется типичным функционалом софта. Если сделать так, чтобы при установке лайка контент сохранялся и раздавался по p2p, то так и будет

MixaSg Sep 10 2020 at 19:03

Teleport offline browser Вам в помощь, только не знаю, актуален ли он...

UFO just landed and posted this here

A114n Sep 11 2020 at 17:05

Спасибо, попробую.

-1

Balling Sep 10 2020 at 17:05

На Android Chrome это поддерживает. Закладки сохраняются offline, если флаг поставить.

A114n Sep 10 2020 at 17:23

Боюсь, выцарапать из недр андроида сохранённые странички — это тот ещё квест будет. Но в любом случае, я в телефоне сайты не открываю практически; хотя знаю, да, что многие люди пользуются телефоном для этого, но это не по мне как-то.

Balling Sep 10 2020 at 17:25

Там также есть кнопка скачать.

perfect_genius Sep 24 2020 at 11:38

Вроде бы там даже сохранённые сайты можно отправлять по электронной почте.

artemerschow Sep 10 2020 at 17:48

Омг. Что за флаг, не подскажите? Как сохранять отдельные страницы понятно, а вот целиком закладки без понятия

Balling Sep 10 2020 at 18:01

У меня планшет, на планшетах оно и так работает))

ivan386 Sep 11 2020 at 10:12

IPFS автоматически сохраняет локально то что загружается через его шлюз. Для этого сайт должен быть загружен в IPFS.

Но может потерятся связь домен — хеш при отключении сайта. Получится что информация есть но для доступа к ней нужно "вспомнить" один из хешей с которым был связан домен.

Можно перебрать все корневые блоки в локальном хранилище и найти те что вероятно были связаны с этим доменом. Но не знаю написал ли кто уже инструмент поиска по локальным блокам.

Pongo Sep 11 2020 at 11:29

Платные версии и pinboard.in и diigo.com умеют архивировать добавленные закладки.

AAngstrom Sep 10 2020 at 16:43

Далеко не всегда, как тут сразу начали комментировать, пропадают "бесполезные" статьи. Есть, например, советский/российский журнал ЖЭТФ (Журнал Экспериментальной и Теоретической Физики). Он выходит с 1931 года и формально доступен онлайн, с одним "но". Статьи с 1955 по 1994 года доступны только на английском языке. Чем примечателен 1955-й год? Это год, с которого статьи начали рутинно переводить на английский язык. Хохма заключается в том, что русскоязычные статьи до 1994 года онлайн недоступны, похоже их никто не сканировал вообще.

Т.е., грубо говоря, если бы некие люди в Западной Европе (Springer) не отсканили англоязычные статьи, то большая часть журнала, фактически, пропала бы из эфира. Статей на русском до 1994 года считай, что нет. Статьи с 1931 по 1954 год доступных онлайн нет ни на каком языке. Конечно, где-то, в ещё несгоревших/незатопленных/не покрывшихся мхом архивах библиотек можно раздобыть бумажные копии, но физика — не история, в бумажных архивах никто копаться не будет без особой на то необходимости.

И журнал этот бесполезным назвать очень трудно. Собственно, о проблеме недоступных/пропавших статей я знаю не понаслышке, потому что регулярно приходится искать старые статьи, включая таковые из ЖЭТФ.

Это, конечно, не имеет непосредственного отношения к посту, где речь, скорее всего, идёт об online-only современных журналах, которые появляются и исчезают как облака летним утром. Однако, проблема долговременного хранения научных статей неиллюзорна, и не очень понятно, какой процент статей доживёт до конца века.

+12

vaslobas Sep 10 2020 at 16:53

В деле добычи старых книг и статей очень помогают люди, которые работают в РГБ. Они за деньги фотографируют нужные материалы и потом высылают по емейлу.

AAngstrom Sep 10 2020 at 17:37

Спасибо за информацию. Надо будет узнать побольше.

Да, с книгами похожая проблема. Старые издания, которые не переиздавались. Бывает, что их ни купить, ни в отсканированном виде не найти. Существуют только в виде библиографических ссылок там сям.

vaslobas Sep 10 2020 at 18:45

Я заказывал вот тут any-book.ru

Сайт выглядит очень стремно, но человек действительно работает в РГБ и выслал оцифрованную копию в лучшем виде и всего за 2 дня.

PereslavlFoto Sep 10 2020 at 20:20

Собственно, у РГБ и РНБ есть отделы электронной доставки документов, и у других библиотек есть такие отделы. Вы платите деньги в библиотеку, библиотека сканирует вам нужные страницы и отправляет вам по почте или через свой веб-сервер.

rogoz Sep 10 2020 at 17:40

пропадают «бесполезные» статьи.

в бумажных архивах никто копаться не будет без особой на то необходимости

бесполезным назвать очень трудно

Как бы всё равно сами то и повторили — если никому не нужно, то никто не сохраняет, «в бумажных архивах не копается».

AAngstrom Sep 10 2020 at 18:10

Это не означает, что оно ненужное. Чтобы оценить "нужность", статью надо хотя бы увидеть. Но покопаться в бумажных архивах — это уйма потраченого времени. А в итоге, может оказаться, что эта конкретная статья оказалась не достаточной "нужности". Если архив отсканирован, и есть доступ, то вполне может выясниться, что там полно всего нужного для разных людей.

Тут, опять-таки, разница между физикой и историей. В первом случае, если не удалось раздобыть статью с решением какой-то задачи, придётся решать эту задачу самому (если это возможно). Получается выбор между тем, на что потратить время: а). на поиск статьи, где задача может быть решена, а может и нет; б). на решение задачи своими силами. В случае исторической науки выбора нет: если исторический документ невозможно найти, то другой вместо него не сделаешь.

PereslavlFoto Sep 10 2020 at 20:18

Наш собеседник хотел сказать, что «нужное» = «приносящее выгоду». Если статьи не приносят выгоду, тогда их никто не сохраняет.

Другой собеседник выше отметил, что физики — это не историки, и для них невыгодно искать статьи в библиотеках. (По правде сказать, для историков это тоже очень невыгодно, и историки стараются этог избегать.)

UFO just landed and posted this here

Checkiant_team Sep 10 2020 at 16:55

Да, наверное, если журналы пропадают, значит в них уже нет необходимости.

-6

apxi Sep 10 2020 at 18:29

Зато всякая хрень в инете плодится в геометрической прогрессии.

SergoBabich Sep 11 2020 at 09:17

«Хрень» зачастую имеет большую популярность и склонность к размножению.

Laserbuilder Sep 11 2020 at 00:08

Интернет давно уже превращается в развлекательную помойку, замещающую ТВ и прочие масс-медиа. Специализированная информация (как те же научные статьи, по естественным наукам итп) тонет и исчезает на дне (где со временем разлагается в ничто), рекламно-развлекательный шлак всплывает наверх. при этом за счет этого шлака помойная куча (суммарный объем информации в интернете) растет, а объем специализированной инфы в лучшем случае остается прежним, на деле уменьшается из-за невостребованности. Винты-то на хостингах не резиновые, а содержать сервера стоит денег — вот и отдают пространство под то, что более выгодно, удаляя невостребованное старье. Даунские ролики на ютубе вроде «ментос в кокаколу» или «фигня под гидравлическим прессом» собирают десятки миллионов просмотров, 8-летние школотроны с летсплеями игрушек набирают десятки тысяч подписчиков а что-то действительно интересное и познавательное исчезает. Общество блин потребления… Тенденция крайне нездоровая.

«Нету никаких облаков, есть чужие компьютеры» (с) Neuromantix

hurdle Sep 11 2020 at 15:05

Интересно, как уважаемые комментирующие предлагают мерить эту самую «нужность» и «полезность»? Если мерить количество людей лично заинтересованных в конкретной статье, то выяснится, что чем больше трудов в нее вложено, чем более высоко квалифицированный человек ее писал, тем меньшее количество людей способно ее хоть как-то осознать.
Мусора, конечно, много, но есть подозрение, что родись сейчас Галуа, его бы тоже записали в «мусор», до поры до времени… вот только да, когда время прийдет, архив уже потеряют.