Десятки научных журналов исчезли из интернета за последние 20 лет и никто их не сохранил

    92 научных журнала по социальным и гуманитарным наукам и 84 — по естественным пропали из интернета за последние два десятилетия, поскольку издатели перестали их поддерживать, пишет ScienceMag. Потенциально это могло привести к утере полезной информации об исследованиях, проведённых публиковавшимися в этих журналах авторами. 

    Под угрозой исчезновения находятся ещё около 900 онлайн-журналов, говорится в совместном исследовании специалистов из университетов Берлина и Готтингена в Германии и Школы экономики Ханкена в Хельсинки. В его рамках были изучены научные публикации в журналах с 2009 по 2019 годы: оказалось, что их количество утроилось за этот период. При этом уже исчезнувшие журналы в среднем находились в сети в открытом доступе в течение 10 лет — по мнению авторов исследования, это означает, что из сети может пропасть намного больше ценных публикаций. 

    Пропавшими авторы определили журналы, которые хотя бы однажды полностью публиковались в интернете, и менее 50% контента из них сейчас доступны бесплатно в сети. Отмечается, что информация, которую сочли исчезнувшей, на самом деле может быть доступна в виде печатных копий или на коммерческой основе — исследование было направлено именно на бесплатный доступ. Исследователи использовали исторический архив интернет-контента Wayback Machine, с помощью которого изучили более 14 тысяч журналов из 50 стран мира, большинство из которых — развитые государства. Составить же список из 176 пропавших журналов было нелегко, утверждают авторы — для этого пришлось проделать некоторую «детективную цифровую работу», поскольку сведения об этих изданиях отрывочны: так, после прекращения поддержки онлайн-журнала, их названия больше не появляются в библиометрических базах данных. 

    Исследователи отмечают, что в число пропавших не вошли известные журналы, издаваемые крупными игроками в естественных науках. В основном они создавались на базе небольших исследовательских учреждений или научных обществ, а также ни один из них не выпускался крупным коммерческим издательством. Несмотря на это, по словам авторов статьи, анализ показывает, что научные записи из множества публикаций находятся под угрозой исчезновения, при этом почти из каждой научной дисциплины. 

    Всего только около трети из 14 068 журналов,опубликованных в каталоге журналов открытого доступа в 2019 году, потенциально будут обеспечены долгосрочным хранением контента. На данный момент несколько организаций, в том числе коммерческие, предлагают услуги по сохранению информации, а по меньшей мере одна из них — Public Knowledge Project Preservation Network (PKP PN) — даже предлагает делать это бесплатно. Однако в любом случае этого недостаточно, и издатели должны сами выделить средства на улучшение сохранности и продление поддержки онлайн-журналов. 

    Исследователи не учитывали научные журналы, доступные по подпискам. При этом такие издания имеют некоторые преимущества перед обычными, говорит Микаэль Лааско из Школы экономики Ханкена в Хельсинки. По его словам, контент, основанный по подписке, чаще всего лучше охватывается как онлайн-, так и привычными физическими библиотеками. 

    Нет единого мнения о том, кто в конечном итоге несёт ответственность за цифровое сохранение журналов в открытом доступе — издатели, авторы, библиотеки или учреждения, на базе которых они были выпущены, говорится в исследовании. Попытки сохранить контент из научных публикаций в таких изданиях могут представлять серьёзную финансовую проблему для издателей, которые не взимают плату с авторов за публикацию. То же самое касается и библиотек. Исчезнувшие статьи могут храниться на репозиториях университетов, однако далеко не все учреждения и их спонсоры требуют, чтобы на такие репозитории помещались абсолютно все научные публикации.

    AdBlock has stolen the banner, but banners are not teeth — they will be back

    More
    Ads

    Comments 57

      +7
      Под угрозой исчезновения находятся ещё около 900 онлайн-журналов

      плевать, главное чтоб их не было на сайхабе [сарказм]
      +2
      Нужно всего лишь дальше внедрять DRM и штрафовать\сажать за торренты. Пусть горят… Так сказать, они не вписались «в рынок». Как раньше говорилось — «Бабы ещё нарожают». Вот тут так же. Сами виноваты…
        0
        Так всегда было. Просто раньше исчезали бумажные журналы, причём совсем без следа. Большая часть из них «мусорные», со статьями, которые никто не читал и никто не цитировал.
          –1

          Значит они не нужны.

            0

            Это не фильмы и не игры, они нужны для статистики так же, как все данные о звёздном небе за всё время. Всегда можно будет найти в них что-то новое со временем.

            +2
            Интересно какой объём информации, в целом, был утерян?
              +2
              Не интересно.
              Добавьте слово «полезной» перед «информации».
                +2
                Полезность научной информации часто становится известна очень сильно позже.
              +2
              Вот в том числе и поэтому нужно переходить от централизованного интернета к децентрализованному, в котором подписка/добавление в избранное/комментирование/установка лайка эквивалентны сохранению контента в локальное хранилище и последующей раздаче.
                +2
                Тысячи и тысячи дохлых торрентов говорят о том, что это не решение проблемы.
                  +1
                  Проблема торрентов в том, что они слишком примитивный инструмент. Просто набор хешей, с практически полным отсутствием метаинформации и данных социального графа.
                  Возможно с выходом libtorrent 2.0 с поддержкой протокола BitTorrent 2 ситуация изменится (там хотя-бы пофайловое выравнивание и хеширование сделали).
                  Вообще построение реально работающей децентрализованной базы знаний всего человечества — очень сложная задача:) Я много думал об этом. Реально непонятно за что браться и как грамотно разбить эту сверхзадачу на достаточно независимые друг от друга и посильные для среднего программиста компоненты.
                    0
                    там хотя-бы пофайловое выравнивание и хеширование сделали

                    Ну наконец-то! Правда тотальная несовместимость откладывает массовое внедрение этого протокола, как бы вовне не навсегда.
                      +1

                      Не думаю что в libtorrent вырубят поддержку старого протокола. libtorrent это chrome в мире торрентов а значит новый протокол автоматически появится в куче битторрент клиентов.


                      Но libtorrent уже в роли догоняющего в технологиях. Только только решили хешировать каждый файл отдельно а IPFS уже шарит каждый блок файла отдельно и научилась находить одинаковые блоки в разных файлах благодаря rabin и buzhash.

                        0
                        libtorrent это chrome в мире торрентов

                        Я сейчас посмотрел, примерно половина пиров у меня на uTorrent, впрочем как и я сам. Так что до ситуации с браузерами там ещё очень далеко.
                        а IPFS

                        А она непопулярна.
                          0

                          А я посмотрел и у меня uTorrent'ов 5 штук из 100 пиров.

                            0
                            uTorrent любит uTorrent?
                              0

                              Возможно. Они сделали свой протокол(uTorrent transport protocol) который работает по UDP и конектятся по нему к своим же клиентам.


                              Я кстати не вижу в этом протоколе место где можно было указать ID своего клиента так что uTorrent возможно может показывать клиентов соединённых по этому протоколу как uTorrent клиенты.

                                0
                                Пиров с пометкой [UTP] тоже не сказать чтобы много, даже у тех, у кого последняя версия. А ведь до сих пор есть и с 1.8.2. Вот к примеру текущая закачка
                                Заголовок спойлера


                                На раздачах ситуация выглядит иначе
                                Заголовок спойлера


                                Но у тех, у кого один пир, он чаще всего uTorrent. Тут наверное нужно смотреть статистику крупных трекеров.
                                  0

                                  Можно попробовать собрать статистику в DHT.

                                    +1

                                    Запустил lua-dht и после пары часов работы в nodes.tbl насчитал 163 LT(LibTorrent) и 91 UT(uTorrent) из 280 клиентов которые себя идентифицировали в DHT.

                        0
                        Можно придумывать сколь угодно виртуозные протоколы, но не будет раздающих — не будет файлов.
                          0
                          Так эти улучшения как раз направлены на то, чтобы увеличить число раздающих. Сейчас куча случайных параметров не даёт разным людям с одним файлов раздавать его друг другу. А с этими изменениями они наконец найдут друг друга.
                          А вот интересно, как к этом отнесутся приватные трекеры, которые трясутся над утечкой каждого байта на сторону. Как бы не блокировалось всё это добро, по аналогии с запретом DHT.
                            0
                            Как могут улучшения протокола помешать мне удалить скачанный файл из раздач?
                            А вот интересно, как к этом отнесутся приватные трекеры, которые трясутся над утечкой каждого байта на сторону. Как бы не блокировалось всё это добро, по аналогии с запретом DHT.
                            А это добро и так уже давно на ладан дышит.
                              +2
                              Как могут улучшения протокола помешать мне удалить скачанный файл из раздач?

                              Никак, удаляйте. Я раздам. Зато сейчас лежат у меня раздачи с рутрекера с оригинальными равками, но их не может скачать человек, у которого торрент файл скачан с другого трекера, с другим порядком файлов, с другим размером частей. Итого сиды размазываются на десяток раздач, и вполне может оказаться, что нет ни одного полного, хотя по частям они есть.
                              А это добро и так уже давно на ладан дышит.

                              С DHT есть проблема у uTorrent, но в общем и целом у меня работает нормально.
                      0
                      Нужна консенсусная система биллинга хранения публичной информации. Бесценно = бесплатно = не ценно.
                      Биллинг не обязательно должен быть в деньгах. Трекеры не плохо приучили пользователей к уважению других и оценке данных.
                        0
                        Да там много чего нужно. И биллинг, и интеграция с обычным инетом в том числе для удобного захвата данных, и анонимность (большая часть информации таки закопирайчена), и грамотная децентрализация, и простота/удобство для юзеров, и социальный граф для автоматической классификации информации на основе интересов и взаимных рейтингов юзеров, и возможности краудсорсинга для улучшения информации (например в случае с теми же книгами — сканирование, OCR, вычитка, перевод и ассоциирование книг на разных языках, создание оглавлений и внутренняя разметка, и в конечном итоге трансформация человекоориентированного текста в машинноориентинованный семантический формат, из которого человекочитаемый текст генерируется подобно тому, как к чистому html применяются таблицы стилей).
                      +3
                      К сожалению, не видел ни одной системы настоящего сохранения контента.
                      Условно говоря, каждый браузер разрешает делать закладки. Каждый разрешает сохранять страницы. Но нигде нет такого, чтобы браузер при добавлении в закладки позволял сразу сделать локальную копию страницы где-нибудь в заранее настроенной папке (или даже локальную копию сайта, если нужен весь сайт).
                        –2
                        wget в помощь
                          +1
                          Во-первых, я писал не об этом. Какое типичное поведение пользователя? Сидишь в браузере. Открыл интересное. Решил — о, это нужно сохранить. Клик где-нибудь наверху по панели и всё, сохранение осуществлено. Лучше бы выпадающее меню, типа «сохранить весь сайт / всю стену пользователя / всю галерею». Когда захотелось пересмотреть — в том же браузере открыл вкладку «архив», выбрал тот самый сайт (или с помощью поиска нашёл по тексту), открыл нужную страницу.
                          Причём даже дополнения, которые были раньше (типа ScrapBook) делали это всё крайне убого, например сохранённый скрапбук можно было открыть только из того же самого браузера, он сохранялся в своём формате, а вовсе не в виде обычной страницы.
                          А что предлагаете вы? Скопировать ссылку из адресной строки, перетащить в соседнее приложение (если оно не запущено, то запустить), открывать сторонним способом, поиск вообще через какой-нибудь TC, да и то, вдруг там сохранилось в другой кодировке…

                          Во-вторых. Чисто ради интереса, попробуйте сохранить с помощью этого вашего wget сайт Крылова (krylov.cc). У меня не получилось, но я не программист, может у вас получится. А в браузере всё отлично открывается.
                            0
                            Типичное поведение пользователя это никогда не сохранять никаких страничек. Максимум это закладку сделает.

                            Я предлагаю рабочее решение по тому как можно сохранить целиком сайт здесь и сейчас. А не мечтать о чудо-кнопке, где по 1 клику сохранит целый сайт как надо.

                            Wget это консольная утилита. Открыть её это 1 клик по консоли и wg+tab. И сохраняет wget в .html. Поиск для сохраненного сайта всегда будет сторонний. Встроенный поиск сохранить невозможно. Чтобы сохранить встроенный поиск сайта это нужно получить движок сайта + бд.

                            Wget не для простого пользователя, но он обеспечивает огромную гибкость при сохранении, быструю скорость работы и не требовательность к ресурсам. К нему написан отличный ман и его легко освоить.

                            Для простого пользователя есть всякие teleport pro и другие сохранялки. Где кнопочки и вот это всё.
                              +1
                              Типичное поведение пользователя определяется типичным функционалом софта. Если сделать так, чтобы при установке лайка контент сохранялся и раздавался по p2p, то так и будет
                              0

                              Teleport offline browser Вам в помощь, только не знаю, актуален ли он...

                                0
                                Joplin + WebClipper: по кнопке в браузере сохраняется текущая страница в разных форматах с нужными тегами, базы синхронизуются между устройствами.
                                  –1
                                  Спасибо, попробую.
                              0
                              На Android Chrome это поддерживает. Закладки сохраняются offline, если флаг поставить.
                                0
                                Боюсь, выцарапать из недр андроида сохранённые странички — это тот ещё квест будет. Но в любом случае, я в телефоне сайты не открываю практически; хотя знаю, да, что многие люди пользуются телефоном для этого, но это не по мне как-то.
                                  0
                                  Там также есть кнопка скачать.
                                    0

                                    Вроде бы там даже сохранённые сайты можно отправлять по электронной почте.

                                  0
                                  Омг. Что за флаг, не подскажите? Как сохранять отдельные страницы понятно, а вот целиком закладки без понятия
                                    0
                                    У меня планшет, на планшетах оно и так работает))
                                  0

                                  IPFS автоматически сохраняет локально то что загружается через его шлюз. Для этого сайт должен быть загружен в IPFS.


                                  Но может потерятся связь домен — хеш при отключении сайта. Получится что информация есть но для доступа к ней нужно "вспомнить" один из хешей с которым был связан домен.


                                  Можно перебрать все корневые блоки в локальном хранилище и найти те что вероятно были связаны с этим доменом. Но не знаю написал ли кто уже инструмент поиска по локальным блокам.

                                    0
                                    Платные версии и pinboard.in и diigo.com умеют архивировать добавленные закладки.
                                    +12

                                    Далеко не всегда, как тут сразу начали комментировать, пропадают "бесполезные" статьи. Есть, например, советский/российский журнал ЖЭТФ (Журнал Экспериментальной и Теоретической Физики). Он выходит с 1931 года и формально доступен онлайн, с одним "но". Статьи с 1955 по 1994 года доступны только на английском языке. Чем примечателен 1955-й год? Это год, с которого статьи начали рутинно переводить на английский язык. Хохма заключается в том, что русскоязычные статьи до 1994 года онлайн недоступны, похоже их никто не сканировал вообще.


                                    Т.е., грубо говоря, если бы некие люди в Западной Европе (Springer) не отсканили англоязычные статьи, то большая часть журнала, фактически, пропала бы из эфира. Статей на русском до 1994 года считай, что нет. Статьи с 1931 по 1954 год доступных онлайн нет ни на каком языке. Конечно, где-то, в ещё несгоревших/незатопленных/не покрывшихся мхом архивах библиотек можно раздобыть бумажные копии, но физика — не история, в бумажных архивах никто копаться не будет без особой на то необходимости.


                                    И журнал этот бесполезным назвать очень трудно. Собственно, о проблеме недоступных/пропавших статей я знаю не понаслышке, потому что регулярно приходится искать старые статьи, включая таковые из ЖЭТФ.


                                    Это, конечно, не имеет непосредственного отношения к посту, где речь, скорее всего, идёт об online-only современных журналах, которые появляются и исчезают как облака летним утром. Однако, проблема долговременного хранения научных статей неиллюзорна, и не очень понятно, какой процент статей доживёт до конца века.

                                      0
                                      В деле добычи старых книг и статей очень помогают люди, которые работают в РГБ. Они за деньги фотографируют нужные материалы и потом высылают по емейлу.
                                        0

                                        Спасибо за информацию. Надо будет узнать побольше.


                                        Да, с книгами похожая проблема. Старые издания, которые не переиздавались. Бывает, что их ни купить, ни в отсканированном виде не найти. Существуют только в виде библиографических ссылок там сям.

                                          0
                                          Я заказывал вот тут any-book.ru

                                          Сайт выглядит очень стремно, но человек действительно работает в РГБ и выслал оцифрованную копию в лучшем виде и всего за 2 дня.
                                            0
                                            Собственно, у РГБ и РНБ есть отделы электронной доставки документов, и у других библиотек есть такие отделы. Вы платите деньги в библиотеку, библиотека сканирует вам нужные страницы и отправляет вам по почте или через свой веб-сервер.
                                          0
                                          пропадают «бесполезные» статьи.
                                          в бумажных архивах никто копаться не будет без особой на то необходимости
                                          бесполезным назвать очень трудно
                                          Как бы всё равно сами то и повторили — если никому не нужно, то никто не сохраняет, «в бумажных архивах не копается».
                                            +1

                                            Это не означает, что оно ненужное. Чтобы оценить "нужность", статью надо хотя бы увидеть. Но покопаться в бумажных архивах — это уйма потраченого времени. А в итоге, может оказаться, что эта конкретная статья оказалась не достаточной "нужности". Если архив отсканирован, и есть доступ, то вполне может выясниться, что там полно всего нужного для разных людей.


                                            Тут, опять-таки, разница между физикой и историей. В первом случае, если не удалось раздобыть статью с решением какой-то задачи, придётся решать эту задачу самому (если это возможно). Получается выбор между тем, на что потратить время: а). на поиск статьи, где задача может быть решена, а может и нет; б). на решение задачи своими силами. В случае исторической науки выбора нет: если исторический документ невозможно найти, то другой вместо него не сделаешь.

                                              0
                                              Наш собеседник хотел сказать, что «нужное» = «приносящее выгоду». Если статьи не приносят выгоду, тогда их никто не сохраняет.

                                              Другой собеседник выше отметил, что физики — это не историки, и для них невыгодно искать статьи в библиотеках. (По правде сказать, для историков это тоже очень невыгодно, и историки стараются этог избегать.)
                                            0
                                            Он есть в бумажном виде в «Ленинке».

                                            Заголовок спойлера



                                            Там уже несколько лет идёт оцифровка бумажных фондов. Конечно, документов в библиотеке много и это огромная работа ещё на много лет вперёд. Но если проголосовать за оцифровку какого-то номера журнала, то его приоритет в очереди повысят.
                                            –6
                                            Да, наверное, если журналы пропадают, значит в них уже нет необходимости.
                                              +2

                                              Зато всякая хрень в инете плодится в геометрической прогрессии.

                                                0
                                                «Хрень» зачастую имеет большую популярность и склонность к размножению.
                                                +5
                                                Интернет давно уже превращается в развлекательную помойку, замещающую ТВ и прочие масс-медиа. Специализированная информация (как те же научные статьи, по естественным наукам итп) тонет и исчезает на дне (где со временем разлагается в ничто), рекламно-развлекательный шлак всплывает наверх. при этом за счет этого шлака помойная куча (суммарный объем информации в интернете) растет, а объем специализированной инфы в лучшем случае остается прежним, на деле уменьшается из-за невостребованности. Винты-то на хостингах не резиновые, а содержать сервера стоит денег — вот и отдают пространство под то, что более выгодно, удаляя невостребованное старье. Даунские ролики на ютубе вроде «ментос в кокаколу» или «фигня под гидравлическим прессом» собирают десятки миллионов просмотров, 8-летние школотроны с летсплеями игрушек набирают десятки тысяч подписчиков а что-то действительно интересное и познавательное исчезает. Общество блин потребления… Тенденция крайне нездоровая.

                                                «Нету никаких облаков, есть чужие компьютеры» (с) Neuromantix
                                                  0
                                                  Интересно, как уважаемые комментирующие предлагают мерить эту самую «нужность» и «полезность»? Если мерить количество людей лично заинтересованных в конкретной статье, то выяснится, что чем больше трудов в нее вложено, чем более высоко квалифицированный человек ее писал, тем меньшее количество людей способно ее хоть как-то осознать.
                                                  Мусора, конечно, много, но есть подозрение, что родись сейчас Галуа, его бы тоже записали в «мусор», до поры до времени… вот только да, когда время прийдет, архив уже потеряют.

                                                  Only users with full accounts can post comments. Log in, please.