Молекулярный биолог из США в 2018 году поставила себе цель: читать по одной исследовательской статье в день — не только по своей узкой специализации, но и по другим направлениям. К середине 2020 года она изучила 899 публикаций. По ее словам, такой подход помог ей расширить кругозор, стать более разносторонним специалистом и переосмыслить свои методы работы, а также стал источником идей для исследований.
Научная литература актуальна и для ИТ-специалистов — помогает совершенствовать профессиональные навыки и разбираться в профильных трендах. Мы в Beeline Cloud решили поговорить о том, как инженерам и разработчикам работать с «сухими» академическими текстами, в том числе с помощью интеллектуальных инструментов.

Читают все!
Многие привычные технологии зародились в виде идей, изложенных на страницах научных публикаций и вайтпейперов. Позже эти концепции подхватили и применили на практике open source-сообщество и компании. Иными словами, научно-техническая литература оказывается полезной, если нужно разобраться в принципах, лежащих в основе конкретных технологий, и обнаружить для себя новые подходы к разработке (и не только). Например, один из резидентов Hacker News рассказал, что изучал реализацию кукушкиного фильтра — альтернативы фильтру Блума для проверки принадлежности элемента множеству — по публикации, где авторы описывали его реализацию. Другой пример приводит менеджер по продукту, запускавшая несколько ИИ-проектов в Google. По ее словам, без погружения в исследовательские работы по теме она вряд ли смогла бы довести свои проекты до конца — и рисковала поддаться «слепому оптимизму», недооценить возможные трудности при разработке ИИ-инструментов.
Научная литература выручает и когда нужно найти уже проверенный кем-то подход к решению задачи. Так, при разработке собственного классификатора дата-сайентисты Amazon воспользовались методом, описанным их коллегами в научной публикации: «Читая технические материалы, мы понимаем, какие подходы работают, а какие — нет. Подсмотрев эффективную методику в статье коллег из другой компании, мы адаптировали ее и не стали изобретать велосипед. В результате мы тратим меньше времени и усилий». Чтение научной литературы — это также способ натренировать профессиональную любознательность. По словам бывшего разработчика Google, широкая специализация и Т-образный профиль компетенций позволяет инженеру глубоко разбираться в своей области и эффективно взаимодействовать с экспертами из смежных дисциплин.
Но какую бы пользу ни приносило такое чтение, у него есть один очевидный недостаток — работать с научно-технической литературой сложно даже тем, кто давно «варится» в теме. Что уж говорить о тех, кто далек от мира науки. Количество одних только систематических обзоров за последние 20 лет выросло более чем в двадцать раз. Даже ученые говорят, что стратегия just google it для поиска профильных материалов давно перестала работать.
При этом найти полезный документ — только половина дела, в нем еще нужно как-то сориентироваться. Текст научно-технических публикаций, как правило, громоздкий, наполнен «сухими» и не всегда понятными формулировками, а формат подразумевает, что одни и те же тезисы могут встречаться по нескольку раз в разных разделах.
Препарируем научно-технические статьи
«Нет такой проблемы, которую не смог бы решить читательский билет», — так говорила американская писательница Элеонора Браун. Однако недостаточно просто прийти в библиотеку — будь то физическую или цифровую, выбрать технический материал и начать читать. Со специализированными текстами нужно правильно взаимодействовать. К счастью, на эту тему также существует большое количество работ и рекомендаций.
Первым шагом при ознакомлении с техническим текстом обычно является визуальное «сканирование» или предварительный обзор документа. Такой обзор помогает понять актуальность материала, его релевантность, ознакомиться с выводами, пробежаться по иллюстрациям — и принять решение, погружаться в публикацию или пропустить ее.
В целом это достаточно распространенная практика среди людей, регулярно работающих с научно-технической литературой. Еще в 2016 году журнал Science опросил дюжину ученых из разных дисциплин и с разным карьерным бэкграундом, чтобы понять, как именно они читают научные статьи.
Большинство начинали знакомство с новым материалом, прибегая к выборочному чтению: «Я начинаю с чтения аннотаций, потом вскользь просматриваю введение и остальной текст. Стараюсь выделить для себя одну или две наиболее значимые иллюстрации, понять, что на них изображено. Затем я перехожу к заключению. Только после всего этого я погружаюсь в технические детали, которые могут прояснить для меня все возможные вопросы».
Второй шаг — «активное чтение», чтобы выстроить диалог с материалом. Для этих целей можно использовать одну из распространенных стратегий — например, SQ3R, разработанную американским психологом Фрэнсисом Робинсоном для обучения студентов. Метод состоит из пяти шагов: Survey (Беглый просмотр) — чтобы оценить структуру и ключевые идеи; Question (Вопросы) — сформулировать цели чтения на основе заголовков; Read (Чтение) — поиск ответов на поставленные вопросы; Recite (Воспроизведение) — краткое изложение ключевых моментов своими словами для лучшего запоминания; и Review (Повторение) — возвращение к материалу для закрепления. В отличие от линейного чтения, SQ3R требует больше усилий, но увеличивает отдачу, особенно при работе с незнакомыми предметными областями.

Еще один подход называется PHA. Его представила Лиза Лонг, профессор факультета английского языка из Колледжа западного Айдахо. Эта методика берет за основу идеи SQ3R, но сводит их к трем более простым шагам. Первый этап — Preview (предварительный просмотр), когда читатель оценивает примерную сложность фрагментов текста, опираясь на собственный опыт и интуитивные ощущения. Второй — Highlight (выделение ключевых идей), когда необходимо отметить все места, которые кажутся важными, спорными или непонятными. Третий этап — Annotate (аннотирование) — предполагает более глубокий анализ материала с оценкой, как озвученные идеи соотносятся с текущей задачей. В целом метод PHA можно использовать для работы с любой обширной документацией (например, при изучении новых фреймворков).
Для работы с объемными научно-техническими текстами можно применить и так называемый метод трех проходов. Он был предложен специалистом из канадского Университета Уотерлу — Шринивасаном Кешавом. Как следует из названия методологии, текст нужно прочитать не менее трех раз. На первом этапе публикация бегло «сканируется» (не более 10 минут), на втором — делаются пометки на полях и фиксируются личные наблюдения, а на третьем — автор предлагает по памяти структурировать материал, воссоздать общие идеи и методологию из оригинального текста, выделить его сильные и слабые стороны. Как говорит сам Кешав: «Я стараюсь как можно чаще прибегать к методу трех проходов. Он полезен не только при работе с исследованиями, но и при изучении объемных технических блогов и статей».
Специалисты также дают рекомендации по составлению заметок. Например, профессор Уильям Гризвольд из Калифорнийского университета в Сан-Диего поделился своей подборкой вопросов, на которые он предпочитает отвечать на этапе активного чтения научно-технической литературы. Вот некоторые из них:
Какие проблемы поднимает автор и почему они все еще актуальны?
Чем выделяется описанный подход на фоне предыдущих, какая у него ценность?
Какие возможности и решения предлагают авторы? Каковы преимущества и недостатки их научной работы?
Наконец, многие исследователи выделяют важность прямого взаимодействия с техническим текстом — они предлагают активно «общаться» с публикацией, делать пометки и примечания, придумывать примеры по аналогии с описанными в статье, находить связи или противоречия с другими, ранее прочитанными, работами. Однако наиболее эффективным может стать подход, когда все упомянутые техники совмещаются с возможностями специализированных инструментов — в том числе на базе систем ИИ.
ИИ-решения: найти статью, пересказать и озвучить
На одном только arXiv ежедневно публикуются около семисот новых исследований. Еще до начала чтения можно столкнуться с проблемой — как среди всего этого разнообразия выбрать действительно релевантные материалы. Можно использовать специализированные инструменты поиска. Один из таких инструментов — платформа Connected Papers. Она позволяет строить масштабные графы, отражающие связи между научными статьями [в том числе из arXiv]. Проект создала команда энтузиастов, уставших от ручного поиска публикаций: сначала решение создавалось «для себя», но со временем им заинтересовались коллеги и знакомые разработчиков, и инструмент стал публичным. Connected Papers не ограничивается проверкой библиографических ссылок. Платформа формирует подборки научных работ по схожей тематике, анализируя для каждого графа порядка 50 тыс. публикаций и отбирая из них несколько десятков наиболее релевантных.
Также существуют площадки для обсуждений и оценки научных трудов — например, SciRate. Ее исходный код опубликован на GitHub по лицензии MIT. Материалы на SciRate оцениваются на основе мнений сообщества, но иногда исследовательский комитет платформы сам рецензирует наиболее примечательные статьи.

Безусловно, в изучении релевантных материалов могут помочь ИИ-инструменты, генерирующие краткие саммари. Для некоторых ученых подобные решения стали настолько привычными, что без них они ощущают себя в прошлом: «Словно выходить в интернет по dial-up, когда у других оптоволокно». Обычно такие платформы напоминают работу с ChatGPT, но заточенным под чтение и анализ научно-технических публикаций. Подобную функциональность предлагают платформы SciSpace и ScienceStack — в том числе с дополнительными возможностями для работы с графиками и заметками.
Существуют решения, которые не просто генерируют краткое саммари, но и озвучивают его, что особенно удобно для людей с ограниченными возможностями, а также для тех, кто предпочитает аудиоформат. Один из таких инструментов — NotebookLM от Google. Он выдает не сухой пересказ, а адаптирует содержание статьи: систему ИИ можно попросить привести примеры, объяснить сложные моменты, вывести взаимосвязи и тенденции. Более того, NotebookLM способен представить оригинальный текст в виде подкаста — как диалог двух виртуальных ведущих, интервью или дискуссию. Пользователь может задать формат «выступления», указать стиль и сложность изложения.
Еще один пример — платформа ekoAcademic для публикаций с arXiv. Проект развивают аспиранты, работающие в сфере квантовых вычислений в Швейцарской высшей технической школе Цюриха. Изначально они хотели написать решение для отслеживания последних научных открытий, но сменили направление, и сегодня сервис за несколько минут генерирует аудиосаммари научных статей. При этом встроенный ИИ-агент позволяет задавать вопросы по содержанию материала. Учитывая стремительное развитие индустрии систем ИИ и открытость научного сообщества к использованию подобных инструментов, можно предположить, что в ближайшие годы ИИ-решения вполне могут стать базовым минимумом при работе с техническими текстами.
Beeline Cloud — secure cloud provider. Разрабатываем облачные решения, чтобы вы предоставляли клиентам лучшие сервисы.
Что еще примечательного можно почитать в нашем блоге:
