Поиск научных публикаций в Интернете. Часть 1. Что искать

Начну с небольшого эпиграфа:

As has often been pointed out, the advent of the internet has
forever changed how information and ideas are distributed

(Plotnik R.E., Paleont. Electr., vol.1, 2010,
palaeo-electronica.org/2010_1/commentary/mainstream.htm)

Я не случайно привёл в качестве эпиграфа отрывок из редакционной заметки в журнале Paleontologia Electronica – я палеонтолог, основной областью моих научных интересов являются изучение юрских отложений и встречающихся в них остатков головоногих моллюсков — аммонитов. Взяться за данный обзор я решил главным образом потому, что других обзоров такого типа мне не попадалось, и в то же время общение с коллегами и выступления перед ними укрепили меня в мысли, что грамотно использовать современные возможности поиска научной информации в сети Интернет умеют очень немногие. Ну а разместить всё это на хабре мне стало интересно в связи с тем, что c одной стороны здесь достаточно регулярно появляются заметки, каким-либо образом связанные с научными публикациями, а с другой стороны — здесь можно получить отклик от людей, связанных с совершенно другими научными направлениями и вообще от науки далёкими, что может дать мне возможность посмотреть на привычные вещи немного с иной стороны. Вполне возможно, что какие-то способы поиска публикаций, известные другим посетителям сайта я мог упустить, и в этом отношении тоже было бы полезно получить какой-нибудь отклик.

Любое научное исследование предполагает получение новых знаний. Для этого принципиально важно уметь работать с научной информацией – в первую очередь, научными публикациями, ведь чтобы понять новизну собственных результатов надо очень хорошо представлять, что и как было сделано предшественниками. Каждая научная специальность имеет свою специфику, связанную как с тем, что, как и где публикуют, так и с тем, кто и как в дальнейшем эти публикации использует. Одна очень важная особенность того направления, на котором я специализируюсь, заключается в том, что специалист в идеале должен знать все публикации по своей тематике (например, какому-либо интервалу геологического времени и группе окаменелостей) вне зависимости от даты, места и языка публикации. То же самое относится к «классической» зоологии и ботанике, которые связаны с изучением и описанием всего многообразия живых существ (за исключением разве что того, что специалисты по современным организмам, как правило, не слишком сведущи в палеонтологии, и наоборот – палеонтологи тоже не всегда хорошо разбираются в том, что нового открыли их коллеги-неонтологи). Кстати, в том числе и по этой причине импакт-факторы мало могут сказать об уровне журнала, специализирующегося на систематике: цитируемость работ во многом определяется наличием специалистов по той или иной группе организмов, а средний возраст публикаций, на которые ссылается исследователь-систематик, обычно превышает 50 лет.

Есть одна важная особенность, который сильно облегчает работу специалисту-систематику: благодаря Карлу Линнею с середины XVIII века биологи пользуются одним и тем же «языком» для обозначения живых существ – а именно, бинарной номенклатурой. Человек на этом «языке» — Homo sapiens, а какая-нибудь виноградная улитка — Helix pomatia. Тут тоже есть нюансы, из-за которых разные исследователи могут называть один и тот же организм по-разному, но в любом случае таких названий не слишком много, и специалистам они известны.

Ещё лет 20 назад для того, чтобы ознакомиться с публикациями по определённой тематике, необходимо было провести годы в кропотливой работе с библиотечными каталогами, реферативными изданиями и бесчисленными книгами и журналами. Но в прошедшие годы эта ситуация радикально поменялась – очень и очень многое доступно в сети Интернет. Главное – знать что и как искать. Правда, сразу оговорюсь, что в Интернете есть далеко не всё, и рано или поздно посетить библиотеку (по возможности со сканером под мышкой или фотоаппаратом в руках) в поисках необходимых работ всё равно придётся.


Многотомные отчёты по результатам океанического бурения IODP / DSDP — недавно это было огромное богатство. Сейчас все эти тома оцифрованы и выложены в открытом доступе на сайте IODP

Что ж, приступим.

1.1. Некоторые общие сведения о научных публикациях

Можно выделить следующие основные типы научных публикаций, для большинства из которых требуются свои способы поиска:

1) Статьи в научных журналах и других сериальных изданиях (труды научных обществ, институтов и т.д.). Сейчас это самый массовый тип публикаций, в котором публикуется наиболее важная информация. Но так было не всегда – каких-то лет 30-40 назад очень большое значение имело также написание монографий, ну а на заре развития науки в монографиях публиковалась большая часть научных данных.

Как правило, практически все научные журналы в настоящее время распространяются в электронном виде, но есть некоторые журналы, которые до сих пор доступны только в печатной версии.

Это наиболее доступный тип публикаций. Очень многие научные журналы оцифрованы целиком и доступны в режиме онлайн в том или ином виде (к сожалению, это в небольшой степени касается отечественных изданий).

2) Монографии и сборники статей. До сих пор в описательных науках монографии остаются важнейшим источником как новых данных, так и крупных обобщений.
В отличие от журналов, существенная часть книг до сих пор распространяется только в печатном виде. Несколько лучше дела обстоят с сериальными изданиями, но и здесь пока ситуация хуже чем с журналами.
Более-менее доступны сравнительно свежие или, наоборот, старые работы (написанные 100 лет назад и более).

3) Тезисы докладов и материалы конференций. Как правило, не рецензируемые и не редактируемые публикации, в которых, однако, иногда впервые появляются важные сведения, лишь потом получающие более-менее полное выражение в статьях.
В последние лет 10 подобные публикации, как правило, в том или ином виде размещаются в Интернете, но шансы найти в сети тезисы какой-нибудь конференции 80х годов близки к нулю.

4) Диссертации. Это совершенно уникальный источник данных, так как многие сведения присутствуют только в диссертациях, а затем по тем или иным причинам не доводятся до публикаций или публикуются в сильно сокращённом объёме.

Ситуация принципиально различается у нас в стране и за рубежом: в России, как правило, доступны для скачивания только самые свежие диссертации, тогда как диссертации, защищённые больше нескольких лет назад официально доступны только для просмотра в библиотеках (а неофициально продаются у перекупщиков, которые наживаются на несовершенстве законодательства). За рубежом во многих странах есть проекты по оцифровке диссертация для размещения их в открытом доступе. Пожалуй, наиболее интересный из таких проектов реализуется отделом диссертаций Британской библиотеки – в будущем планируется оцифровать и выложить в открытый доступ все диссертации, когда-либо защищённые в Великобритании. Но и сейчас для зарегистрированных пользователей доступно большое число диссертаций. Кроме того, любой желающий за 45 фунтов может заказать оцифровку необходимой ему диссертации, которая затем станет также доступна всем желающим. Большая часть содержимого данного сайта внешними поисковиками не индексируется; это, к слову, нередкая ситуация.

5) Отчёты. Как и в случае с диссертациями, отчёты могут быть просто кладезем важнейших данных, которые в силу разных причин не были опубликованы в ином виде. В первую очередь это производственные отчёты геологосъёмочных организаций, компаний нефтегазового комплекса, отчёты по договорам.

Это, пожалуй, наименее распространённый в Интернете тип публикаций. Многие геологические отчёты у нас (в первую очередь из числа отчётов по работам, выполненным за счёт государства), могут быть бесплатно заказаны в Росгеолфонде, но в открытом доступе они отсутствуют. А вот Норвежский нефтяной директорат в открытом доступе выкладывает довольно много «сырых» материалов.

6) В геологии есть ещё один специфический тип публикации: геологические карты и объяснительные записки к ним.

В последние годы в разных странах (включая Россию) было оцифровано достаточно большое количество подобных публикаций, но найти их не всегда просто. У нас геологические карты и записки к ним выложены на сайте ВСЕГЕИ; к сожалению, содержимое записок к геолкартам на этом сайте поисковиками не индексируется.


Вот где прячутся объяснительные записки к геологическим картам

Сейчас большая часть научной информации публикуется на английском языке, хотя во всех странах в той или иной степени продолжают существовать научные издания на национальных языках. Но ещё несколько десятилетий назад ситуация была совершенно иная, и большая (или, во всяком случае, существенная) часть научных публикаций в основных европейских странах публиковалась на национальных языках. И в этом отношении палеонтологам повезло — их объекты исследований называются одинаково в публикациях на любом языке. Ну а перевести почти с любого языка сейчас можно с помощью GoogleTranslate, DeepL и тому подобных онлайн-сервисов.


Получить представление о числе научных публикаций можно, заглянув на Dimensions

Число научных публикаций, появляющихся каждый год, огромно. Полагаю, его можно грубо оценить в 15-20 миллионов. Во всяком случае, на платформе Dimensions имеются сведения о примерно 5,5 миллионах публикаций за 2019 год – и это только те публикации, которые имеют DOI (при этом не все), тогда как огромное количество публикаций цифровых идентификаторов не имеет.

При этом число научных работ растёт по экспоненте: около половины всех научных публикаций вышло в свет после 2000 года, а число рецензируемых научных журналов в мире сейчас составляет около 30000 (и ещё к ним прибавляются тысячи нерецензируемых псевдожурналов, публикующих что угодно за счёт авторов)

1.2. Форматы научных публикаций

Подавляющее большинство публикаций размещается в Интернете в формате pdf – это касается как недавних работ, которые при наличии печатной версии печатаются из pdf, так и старых сканированных публикаций. Такие файлы хорошо индексируются – google, например, индексирует содержание таких файлов, даже если они не содержат текстового слоя, распознавая их «на лету». Но большинство – это ещё не все. Лет 10-15 назад, когда Интернет был медленнее, а места на дисках – мало, в Рунете неплохую конкуренцию pdf создавал формат djvu. И сейчас довольно много российских публикаций (главным образом книг, реже статей) выложено в сети именно в таком виде. Но поисковиками djvu индексируется заметно хуже чем pdf, и за пределами бывшего СССР этот формат практически не известен (хотя некоторые крупные онлайн-библиотеки предоставляют возможность скачать те или иные работы на выбор в pdf или djvu, например Biodiversity Heritage Library ).

В некоторых случаях публикации могут быть доступны только для просмотра (например, практически все публикации на сайте Российского географического общества, включая те, на которые все копирайтные ограничения давно вышли), и их содержание в таком случае остаётся не индексируемым поисковыми системами.
Иногда pdf с подобного сайта всё-таки скачать напрямую можно – нередко в коде страницы, где файл доступен только для просмотра, прячется прямая ссылка на pdf. В браузере Chrome для того чтобы это увидеть достаточно написать перед названием страницы view-source: (ну или щёлкнуть правой кнопкой мыши и нажать «просмотр кода страницы»), а дальше поискать – нет ли в коде ссылки на файл с расширением “pdf”?

Бывает, что полнотекстовые версии публикаций размещуются в облаке — на Google Drive (Уральский геологический журнал ) или cloud.mail.ru (журнал «Разведка и охрана недр») — тогда их содержимое тоже не индексируется поисковыми системами.

В качестве экзотических форматов можно привести примеры размещения статей из научных журналов только в виде веб-страниц (например, так размещаются статьи из журнала «Арктика и Антарктика»), в формате doc (или docx), swf или в виде архивов (Труды НИИ Геологии ВГУ).

Продолжение: часть 2, часть 3

Комментарии 16

    +3
    Google Академия — наше все.
      +2
      Не всегда иногда удобнее через обычный Googlе. К сожалению, Google считает, что он умнее вас, и даже при параметре искать по точному соответствию будет масса нерелевантных ссылок.
        0
        несомненно! про google scholar — в двух следующих частях (отдельно про поиск и про оповещения, ссылки внизу статьи)
        +5

        Как можно написать статью про доступ к научным публикациям и не упомянуть sci-hub?

          +1
          Речь не про доступ, а про поиск статей. А sci-hub при всех плюсах этого проекта сложно рассматривать как сервис для поиска публикаций
            0
            Ну как сказать… Если где-то в списке литературы указана литература с DOI, то можно прямиком идти в Sci-Hub…
              0
              DOI в списках литературы есть далеко не всегда, даже в тех случаях когда журналы это требуют — по факту авторы не всегда заморачиваются поиском DOI.
              А бывает и так что DOI есть, но через sci-hub статью не скачать (это характерно для тех случаев, когда журнал распространяется не каким-нибудь гигантом типа эльзивира с шпрингером, а кем-нибудь поменьше)
              Вот, например, вот эту статью sci-hub не берёт: doi.org/10.1144/GSL.JGS.1902.058.01-04.42
              Но при этом она выложена в открытом доступе на biodiversitylibrary:
              www.biodiversitylibrary.org/item/130135#page/951/mode/1up

              Собственно, sci-hub или libgen можно использовать и без DOI, когда известно точное название публикации. Но опять же это уже вопрос не столько поиска сколько доступа
          +3
          Во всех статьях есть адрес электронной почты одного из авторов. Пишем ему письмо с просьбой прислать статью. В 90% случаях присылают.
          Ищем знакомого за кордоном, пишем ему письмо, он скачивает на законных основаниях через свою организацию и пересылает вам.
          Ищем страницу автора и там может быть нужная вам статья.
            +1
            Ещё можно отправлять запросы на Researchgate
              0
              а) что касается новых статей — иногда у автора статьи нет. Как-то был случай, когда я сам авторам присылал их же статью, которую ещё в до-sci-hub'ное время (в 2008м) мне кто-то, в свою очередь, выслал после запроса в pdf.livejournal.com

              б) ну а сравнительно старых (до 2000х годов) статей у авторов сплошь и рядом нет или есть — но только на бумаге

              P.S. Кстати, иногда на сайтах издателей отсутствует информация об электронном адресе авторов. Таков, например, старейший журнал по палеонтологии Neues Jahrbuch fuer Geologie und Palaeontologie, Abhandlungen: www.ingentaconnect.com/content/schweiz/njbgeol/2020/00000298/00000003
              Представьте теперь, что автор имеет фамилию «Smith», «Кузнецов» или «Zhao»

              0

              Рекомендую к ознакомлению ещё довольно монументальный сборник советов по поиску в интернете

                0
                спасибо!
                0
                3) Тезисы докладов и материалы конференций. Как правило, не рецензируемые и не редактируемые публикации

                Ничего не могу сказать про палеонтологию, но в IT нерецензируемые конференции считаются мусорными.
                  +2
                  Они везде считаются мусорными. Рецензирование — это то, что отличает науку от не-науки.
                    0
                    И тем не менее иногда и в таких местах иногда может попасться что-то ценное
                  0
                  Большая часть содержимого данного сайта внешними поисковиками не индексируется

                  Любопытно, почему.

                  Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                  Самое читаемое