Затеяли мы амбициозный проект — открыть свой электронный научный журнал. Поначалу казалось, что это дело неподъёмное и ничего хорошего не выйдет, тем более, что мы никогда издательским делом не занимались. Однако как и с любым делом тут главное начать. Хотя будущее нашего журнала ещё под вопросом, но я решил описать наш опыт на этом нелёгком пути и, надеюсь, этот рассказ сподвигнет ещё кого-нибудь создать свои хорошие журналы на благо российской науки.
Нам хотелось примерно следующее: создать электронный рецензируемый журнал на английском языке, полностью официальный, который бы воспринимался всерьёз западными учёными, на статьи в котором бы ссылались, чтобы высчитывался импакт-фактор. Программа-минимум — попасть в список журналов ВАК, в идеале — попасть в PubMed (журнал у нас по биоинформатике). Коммерческая выгода не предполагалась.
Первым делом, конечно, надо установить какое-то веб-приложение для журнала. Теоретически публиковать статьи можно хоть в WordPress, но всё же у журналов своя специфика. Нужна поддержка выпусков, разделов, рецензирования статей и многого другого, что выяснилось по ходу дела. Бесплатного специального софта для ведения журналов на первый взгляд довольно много. Вот, например, список аж из 13 пунктов. Тут приводится некоторый обзор софта. Нам довелось попробовать два варианта.
Эта система привлекла нас в первую очередь несколькими вещами. Во-первых, называется на букву A, потому идёт в вышеуказанном списке первой (маркетологи, мотайте на ус!). Во-вторых, она официально используется для всех журналов биологической тематики семейства PLOS, а значит, специфика предметной области может быть лучше учтена в этой системе. Наконец, Ambra написана на Java, под Tomcat, а нам эти технологии привычны.
К сожалению, тут преимущества закончились. Похоже, PLOS её пишет в основном для себя и хоть и выкладывает исходники, но развернуть и настроить всё посторонним людям — тяжёлое дело. Инсталлятора не прилагается, из полезной документации только Quick-start в вики (который не такой уж и quick), а что делать дальше — неясно. Постоянно создаётся ощущение, что кучи нужных файлов просто не хватает, либо нужно что-то выкачивать из репозитория и куда-то складывать, но непонятно, что и куда. Имеется полумёртвый список рассылки, который не особенно помогает. Помучавшись несколько дней с Ambra, я бросил её и стал искать дальше.
Это PHP-приложение, которое оставило гораздо лучшее впечатление, и в итоге мы на нём и остановились. OJS может похвастаться гораздо более впечатляющим списком использующих её журналов. Установилась легко (главное, не скачайте по ошибке девелоперскую версию, которая почему-то на страничке Download выше стабильной). Система позволяет хостить сразу несколько журналов; поддерживает права доступа, подписки и роли; интегрируется с PayPal для получения денег с подписчиков; позволяет публиковать статью в нескольких форматах (HTML, PDF) и что самое нужное — имеет инструментарий для приведения в порядок списков литературы (к сожалению, в этом компоненте есть несколько неприятных багов). Регулярно обнаруживались новые полезные фичи. Код внятный и структурированный, поэтому, если что-то не нравится, можно легко подправить. Есть вполне живые форум, багтрекер и вики. Из минусов помимо глючноватого библиографического инструментария можно отметить неполную и немного устаревшую официальную документацию.
С форматом хранения и представления статей следует определиться сразу. OJS какого-то конкретного формата не навязывает, он предлагает лишь загрузить, к примеру, готовые HTML- и PDF-версии статей. Предполагается, что верстальщик подготовит их сам в сторонних приложениях. Многим придёт в голову LaTeX в качестве внутреннего формата, который легко преобразовать и в HTML, и в PDF. Переводить в LaTeX, впрочем, придётся самому верстальщику: если для математического журнала ещё реально заставить всех авторов присылать статьи в LaTeX, то в биологии это пустой номер. Причём в этом формате тогда придётся работать и рецензентам, и редакторам. Так или иначе, но приходится смириться с фактом, что статьи будут поступать в форматах Microsoft Word.
Впрочем, как оказалось, LaTeX — всё равно не лучший вариант. Для того чтобы попасть в PubMed, надо сперва попасть в PubMedCentral, а для этого требуется, чтобы все статьи были в XML специальной схемы Национальной медицинской библиотеки (NLM Journal Publishing Tag Set), либо в другой широко распространённой схеме. Вполне разумно статьи к этому виду и приводить. Возникает две проблемы: как автоматизировать создание этого XML и как автоматизировать генерацию из него HTML и PDF.
Генерация списка литературы в форматах NLM уже поддерживается в OJS, что очень обрадовало! Для генерации болванки с названием, аннотацией, всеми необходимыми выходными данными и списком литературы я написал специальный шаблон в OJS. Полностью автоматически сконвертировать docx-файл в NLM не удастся. Даже если создать специальный шаблон для MS Word, всё равно авторы не будут готовить статьи строго по нему. Нет-нет, да введут заголовок не стилем, а просто увеличив кегль. Ругаться с авторами дольше, чем исправить это вручную, да и начинающему журналу вообще ругаться с авторами невыгодно. Поэтому надо всё же создать шаблон для MS Word с требованиями, автоматизировать максимум того, что можно, а остальное доделывать вручную.
Мы распаковываем из docx-файла (все же в курсе, что это zip-архив?) document.xml и выполняем самописное XSL-преобразование, которое максимально преобразует его содержимое в то, что надо. Для преобразования используем Saxon. После этого некоторые мелочи допинываем Perl-скриптом, затем вставляем результат в болванку и правим руками.
Для генерации HTML из NLM есть уже готовое XSL-преобразование на сайте NLM. Его, конечно, пришлось немного доработать, чтобы удовлетворить нашим представлениям о стиле, но в целом проблем не было. Сложнее оказалось с генерацией PDF. По той же ссылке есть преобразование к формату XSL-FO, но свободный FO-процессор Apache FOP результат жевать отказывается, ругаясь на использование неподдерживаемых фич. Связываться же с платными FO-процессорами вроде Antenna House Formatter пока неохота. Возникла мысль генерировать PDF из HTML. Из отдельного софта, решающего эту проблему, попробовали wkhtmltopdf, который использует движок WebKit для рендеринга HTML. К сожалению, оказалось, что он не поддерживает формулы в MathML. В итоге на настоящий момент всё свелось к использованию связки Firefox+PDF Creator. В генерируемый HTML добавляются команды window.print() и window.close(); в отдельной инсталляции Firefox разрешена быстрая печать без диалога с параметрами и позволено веб-страницам закрывать своё окно. Для лучшей разбивки PDF на страницы местами используется CSS-свойство page-break-inside:avoid. К сожалению, генерируемый PDF далёк от идеала. Чего особенно не хватает, так это двухколоночной вёрстки с выносом картинок и таблиц из общего потока и приклеиванием их к верхнему и нижнему краям страницы. В общем, тут есть, что улучшать. В других журналах PDF верстают вручную специальные люди, но у нас пока нет ресурсов.
Про формулы следует сказать особо. NLM XML использует MathML для представления формул. В файлах, которые присылают авторы, формулы можно увидеть в виде объектов Microsoft Equation, MathType, в виде родных формул, которые появились в Microsoft Word 2007 или вообще в виде картинок. Ну картинки присылать мы просто запретили, а всё остальное можно преобразовать в MathML с помощью того же MathType. При генерации HTML-версии статьи мы формулы оставляем как есть, только убираем namespace mml. MathML плохо поддерживается браузерами, но использование MathJax спасает. При генерации PDF используется родной MathML-рендерер Firefox.
Чтобы о созданном журнале узнали люди, статьи из него находились в специальных поисковых системах и на него могли нормально ссылаться, надо зарегистрироваться в куче мест. Тут тоже попадаются всякие трудности.
Получить Международный стандартный серийный номер — это, пожалуй, самое первое и самое простое, что надо сделать. Журналы без ISSN в других местах могут и не рассматривать. Получение ISSN бесплатно и для электронных журналов всё можно сделать в онлайне. Заполняете форму, отправляете, ждёте 10 рабочих дней, вам выдают номер. Получить ISSN можно и нужно до публикации первого выпуска журнала (но не ранее, чем за полгода). Вам выдадут номер, который не будет официально зарегистрирован в реестре ISSN. После первого выпуска журнала вы предоставляете ссылку на него, и ваш номер делают официальным.
DOI — идентификатор цифрового объекта; стабильный идентификатор, который присваивается журналам, выпускам, статьям и другим издаваемым в онлайне материалам. Выглядит, например, так: 10.1126/science.338.6114.1558. DOI не меняется даже при переезде журнала в другое издательство, поэтому ссылаясь на статью с использованием DOI, вы можете быть уверены, что ссылка останется живой. Без DOI научному журналу никуда, но за них надо прилично платить. Есть несколько регистраторов DOI, но конкуренция не такая сильная как, к примеру, у регистраторов доменных имён. Собственно, кроме CrossRef других регистраторов трудно рассматривать всерьёз. CrossRef берёт с издателя минимум 275 долларов в год плюс по доллару за каждый новый выделенный DOI для статьи или выпуска журнала. Для регистрации там надо просмотреть часовой вебинар и отправить курьером договор в Штаты. Если всё получится, вам пришлют первый инвойс и после его оплаты выдадут DOI-префикс. Основные требования — публиковать уникальный материал (без копипасты) и в списках литературы в опубликованных статьях указывать DOI-ссылки.
OJS неплохо поддерживает DOI: вы можете задать произвольный формат генерации новых идентификаторов, OJS автоматически их присваивает новым статьям и генерирует XML для регистрации новых DOI в CrossRef.
WorldCat — это объединённый каталог из десятков тысяч библиотек по всему миру. Они поддерживают сервис OAIster, который может индексировать ваши статьи. Регистрироваться там бесплатно и можно до первого выпуска журнала. WorldCat будет самостоятельно выкачивать и индексировать метаинформацию о статьях в формате Open Archives Initiative (OJS этот формат поддерживает).
Для участия в российском индексе научного цитирования (РИНЦ, это пригодится для попадания в список ВАК) вам потребуется заключить договор с eLibrary.ru. Это бесплатно, но внесло дополнительную сложность: им необходимо предоставлять метаданные (имена авторов, их организации, названия и аннотации статей) на русском и на английском языках, даже если статья публикуется только на английском (или только на русском).
Несмотря на все недостатки, импакт-фактор остаётся главным критерием качества научного журнала. Чтобы попасть в систему расчёта импакт-фактора, надо зарегистрировать журнал в Web of Science. Тут уже оценивается научная составляющая. Для рассмотрения журнала необходимо предоставить три идущих подряд выпуска, причём надо подавать заявку после выхода первого, а потом повторно после второго и третьего. Если всё пройдёт успешно, через два года вам присвоят импакт-фактор.
PubMedCentral (PMC) — это бесплатный полнотекстовый архив статей по биологии и смежным темам. Практически все западные биологические журналы публикуют свои статьи в PMC. Кроме того, это наиболее прямой путь к PubMed. В целом любому журналу стоит рассмотреть возможность сотрудничества с каким-либо научным архивом (помимо PMC существуют, например, CLOCKSS или Portico). Это гарантирует, что статьи не пропадут для научного мира, даже если ваше издательство прекратит существование.
После подачи заявки PMC первым делом оценивает научную составляющую журнала и в случае успеха оценивает техническую сторону. Тут довольно строгие требования. Как я уже сказал выше, статьи должны быть в XML определённой схемы, причём PMC накладывает дополнительные требования. Особые правила существуют и для картинок в статьях. Если всё прошло успешно, то заключается договор на семи страницах, который надо отправить в PMC.
Если вы преодолели все технические трудности, то остаётся самая малость — найти авторов, рецензентов, редакторов и верстальщиков, которые захотят работать с вашим журналом. Как и где их искать — эти вопросы выходят за рамки моей статьи.
Нам хотелось примерно следующее: создать электронный рецензируемый журнал на английском языке, полностью официальный, который бы воспринимался всерьёз западными учёными, на статьи в котором бы ссылались, чтобы высчитывался импакт-фактор. Программа-минимум — попасть в список журналов ВАК, в идеале — попасть в PubMed (журнал у нас по биоинформатике). Коммерческая выгода не предполагалась.
Софт
Первым делом, конечно, надо установить какое-то веб-приложение для журнала. Теоретически публиковать статьи можно хоть в WordPress, но всё же у журналов своя специфика. Нужна поддержка выпусков, разделов, рецензирования статей и многого другого, что выяснилось по ходу дела. Бесплатного специального софта для ведения журналов на первый взгляд довольно много. Вот, например, список аж из 13 пунктов. Тут приводится некоторый обзор софта. Нам довелось попробовать два варианта.
Ambra project
Эта система привлекла нас в первую очередь несколькими вещами. Во-первых, называется на букву A, потому идёт в вышеуказанном списке первой (маркетологи, мотайте на ус!). Во-вторых, она официально используется для всех журналов биологической тематики семейства PLOS, а значит, специфика предметной области может быть лучше учтена в этой системе. Наконец, Ambra написана на Java, под Tomcat, а нам эти технологии привычны.
К сожалению, тут преимущества закончились. Похоже, PLOS её пишет в основном для себя и хоть и выкладывает исходники, но развернуть и настроить всё посторонним людям — тяжёлое дело. Инсталлятора не прилагается, из полезной документации только Quick-start в вики (который не такой уж и quick), а что делать дальше — неясно. Постоянно создаётся ощущение, что кучи нужных файлов просто не хватает, либо нужно что-то выкачивать из репозитория и куда-то складывать, но непонятно, что и куда. Имеется полумёртвый список рассылки, который не особенно помогает. Помучавшись несколько дней с Ambra, я бросил её и стал искать дальше.
Open Journal Systems (OJS)
Это PHP-приложение, которое оставило гораздо лучшее впечатление, и в итоге мы на нём и остановились. OJS может похвастаться гораздо более впечатляющим списком использующих её журналов. Установилась легко (главное, не скачайте по ошибке девелоперскую версию, которая почему-то на страничке Download выше стабильной). Система позволяет хостить сразу несколько журналов; поддерживает права доступа, подписки и роли; интегрируется с PayPal для получения денег с подписчиков; позволяет публиковать статью в нескольких форматах (HTML, PDF) и что самое нужное — имеет инструментарий для приведения в порядок списков литературы (к сожалению, в этом компоненте есть несколько неприятных багов). Регулярно обнаруживались новые полезные фичи. Код внятный и структурированный, поэтому, если что-то не нравится, можно легко подправить. Есть вполне живые форум, багтрекер и вики. Из минусов помимо глючноватого библиографического инструментария можно отметить неполную и немного устаревшую официальную документацию.
Вёрстка и форматы статей
С форматом хранения и представления статей следует определиться сразу. OJS какого-то конкретного формата не навязывает, он предлагает лишь загрузить, к примеру, готовые HTML- и PDF-версии статей. Предполагается, что верстальщик подготовит их сам в сторонних приложениях. Многим придёт в голову LaTeX в качестве внутреннего формата, который легко преобразовать и в HTML, и в PDF. Переводить в LaTeX, впрочем, придётся самому верстальщику: если для математического журнала ещё реально заставить всех авторов присылать статьи в LaTeX, то в биологии это пустой номер. Причём в этом формате тогда придётся работать и рецензентам, и редакторам. Так или иначе, но приходится смириться с фактом, что статьи будут поступать в форматах Microsoft Word.
Впрочем, как оказалось, LaTeX — всё равно не лучший вариант. Для того чтобы попасть в PubMed, надо сперва попасть в PubMedCentral, а для этого требуется, чтобы все статьи были в XML специальной схемы Национальной медицинской библиотеки (NLM Journal Publishing Tag Set), либо в другой широко распространённой схеме. Вполне разумно статьи к этому виду и приводить. Возникает две проблемы: как автоматизировать создание этого XML и как автоматизировать генерацию из него HTML и PDF.
Генерация списка литературы в форматах NLM уже поддерживается в OJS, что очень обрадовало! Для генерации болванки с названием, аннотацией, всеми необходимыми выходными данными и списком литературы я написал специальный шаблон в OJS. Полностью автоматически сконвертировать docx-файл в NLM не удастся. Даже если создать специальный шаблон для MS Word, всё равно авторы не будут готовить статьи строго по нему. Нет-нет, да введут заголовок не стилем, а просто увеличив кегль. Ругаться с авторами дольше, чем исправить это вручную, да и начинающему журналу вообще ругаться с авторами невыгодно. Поэтому надо всё же создать шаблон для MS Word с требованиями, автоматизировать максимум того, что можно, а остальное доделывать вручную.
Мы распаковываем из docx-файла (все же в курсе, что это zip-архив?) document.xml и выполняем самописное XSL-преобразование, которое максимально преобразует его содержимое в то, что надо. Для преобразования используем Saxon. После этого некоторые мелочи допинываем Perl-скриптом, затем вставляем результат в болванку и правим руками.
Для генерации HTML из NLM есть уже готовое XSL-преобразование на сайте NLM. Его, конечно, пришлось немного доработать, чтобы удовлетворить нашим представлениям о стиле, но в целом проблем не было. Сложнее оказалось с генерацией PDF. По той же ссылке есть преобразование к формату XSL-FO, но свободный FO-процессор Apache FOP результат жевать отказывается, ругаясь на использование неподдерживаемых фич. Связываться же с платными FO-процессорами вроде Antenna House Formatter пока неохота. Возникла мысль генерировать PDF из HTML. Из отдельного софта, решающего эту проблему, попробовали wkhtmltopdf, который использует движок WebKit для рендеринга HTML. К сожалению, оказалось, что он не поддерживает формулы в MathML. В итоге на настоящий момент всё свелось к использованию связки Firefox+PDF Creator. В генерируемый HTML добавляются команды window.print() и window.close(); в отдельной инсталляции Firefox разрешена быстрая печать без диалога с параметрами и позволено веб-страницам закрывать своё окно. Для лучшей разбивки PDF на страницы местами используется CSS-свойство page-break-inside:avoid. К сожалению, генерируемый PDF далёк от идеала. Чего особенно не хватает, так это двухколоночной вёрстки с выносом картинок и таблиц из общего потока и приклеиванием их к верхнему и нижнему краям страницы. В общем, тут есть, что улучшать. В других журналах PDF верстают вручную специальные люди, но у нас пока нет ресурсов.
Про формулы следует сказать особо. NLM XML использует MathML для представления формул. В файлах, которые присылают авторы, формулы можно увидеть в виде объектов Microsoft Equation, MathType, в виде родных формул, которые появились в Microsoft Word 2007 или вообще в виде картинок. Ну картинки присылать мы просто запретили, а всё остальное можно преобразовать в MathML с помощью того же MathType. При генерации HTML-версии статьи мы формулы оставляем как есть, только убираем namespace mml. MathML плохо поддерживается браузерами, но использование MathJax спасает. При генерации PDF используется родной MathML-рендерер Firefox.
Регистрация
Чтобы о созданном журнале узнали люди, статьи из него находились в специальных поисковых системах и на него могли нормально ссылаться, надо зарегистрироваться в куче мест. Тут тоже попадаются всякие трудности.
ISSN
Получить Международный стандартный серийный номер — это, пожалуй, самое первое и самое простое, что надо сделать. Журналы без ISSN в других местах могут и не рассматривать. Получение ISSN бесплатно и для электронных журналов всё можно сделать в онлайне. Заполняете форму, отправляете, ждёте 10 рабочих дней, вам выдают номер. Получить ISSN можно и нужно до публикации первого выпуска журнала (но не ранее, чем за полгода). Вам выдадут номер, который не будет официально зарегистрирован в реестре ISSN. После первого выпуска журнала вы предоставляете ссылку на него, и ваш номер делают официальным.
DOI
DOI — идентификатор цифрового объекта; стабильный идентификатор, который присваивается журналам, выпускам, статьям и другим издаваемым в онлайне материалам. Выглядит, например, так: 10.1126/science.338.6114.1558. DOI не меняется даже при переезде журнала в другое издательство, поэтому ссылаясь на статью с использованием DOI, вы можете быть уверены, что ссылка останется живой. Без DOI научному журналу никуда, но за них надо прилично платить. Есть несколько регистраторов DOI, но конкуренция не такая сильная как, к примеру, у регистраторов доменных имён. Собственно, кроме CrossRef других регистраторов трудно рассматривать всерьёз. CrossRef берёт с издателя минимум 275 долларов в год плюс по доллару за каждый новый выделенный DOI для статьи или выпуска журнала. Для регистрации там надо просмотреть часовой вебинар и отправить курьером договор в Штаты. Если всё получится, вам пришлют первый инвойс и после его оплаты выдадут DOI-префикс. Основные требования — публиковать уникальный материал (без копипасты) и в списках литературы в опубликованных статьях указывать DOI-ссылки.
OJS неплохо поддерживает DOI: вы можете задать произвольный формат генерации новых идентификаторов, OJS автоматически их присваивает новым статьям и генерирует XML для регистрации новых DOI в CrossRef.
WorldCat
WorldCat — это объединённый каталог из десятков тысяч библиотек по всему миру. Они поддерживают сервис OAIster, который может индексировать ваши статьи. Регистрироваться там бесплатно и можно до первого выпуска журнала. WorldCat будет самостоятельно выкачивать и индексировать метаинформацию о статьях в формате Open Archives Initiative (OJS этот формат поддерживает).
eLibrary.ru
Для участия в российском индексе научного цитирования (РИНЦ, это пригодится для попадания в список ВАК) вам потребуется заключить договор с eLibrary.ru. Это бесплатно, но внесло дополнительную сложность: им необходимо предоставлять метаданные (имена авторов, их организации, названия и аннотации статей) на русском и на английском языках, даже если статья публикуется только на английском (или только на русском).
Импакт-фактор
Несмотря на все недостатки, импакт-фактор остаётся главным критерием качества научного журнала. Чтобы попасть в систему расчёта импакт-фактора, надо зарегистрировать журнал в Web of Science. Тут уже оценивается научная составляющая. Для рассмотрения журнала необходимо предоставить три идущих подряд выпуска, причём надо подавать заявку после выхода первого, а потом повторно после второго и третьего. Если всё пройдёт успешно, через два года вам присвоят импакт-фактор.
PubMedCentral
PubMedCentral (PMC) — это бесплатный полнотекстовый архив статей по биологии и смежным темам. Практически все западные биологические журналы публикуют свои статьи в PMC. Кроме того, это наиболее прямой путь к PubMed. В целом любому журналу стоит рассмотреть возможность сотрудничества с каким-либо научным архивом (помимо PMC существуют, например, CLOCKSS или Portico). Это гарантирует, что статьи не пропадут для научного мира, даже если ваше издательство прекратит существование.
После подачи заявки PMC первым делом оценивает научную составляющую журнала и в случае успеха оценивает техническую сторону. Тут довольно строгие требования. Как я уже сказал выше, статьи должны быть в XML определённой схемы, причём PMC накладывает дополнительные требования. Особые правила существуют и для картинок в статьях. Если всё прошло успешно, то заключается договор на семи страницах, который надо отправить в PMC.
Всё остальное
Если вы преодолели все технические трудности, то остаётся самая малость — найти авторов, рецензентов, редакторов и верстальщиков, которые захотят работать с вашим журналом. Как и где их искать — эти вопросы выходят за рамки моей статьи.