Молекулярный биолог из США в 2018 году поставила себе цель: читать по одной исследовательской статье в день — не только по своей узкой специализации, но и по другим направлениям. К середине 2020 года она изучила 899 публикаций. По ее словам, такой подход помог ей расширить кругозор, стать более разносторонним специалистом и переосмыслить свои методы работы, а также стал источником идей для исследований.

Научная литература актуальна и для ИТ-специалистов — помогает совершенствовать профессиональные навыки и разбираться в профильных трендах. Мы в Beeline Cloud решили поговорить о том, как инженерам и разработчикам работать с «сухими» академическими текстами, в том числе с помощью интеллектуальных инструментов.

Изображение: Alexandre Dulaunoy; CC BY-SA 2.0
Изображение: Alexandre Dulaunoy; CC BY-SA 2.0

Читают все!

Многие привычные технологии зародились в виде идей, изложенных на страницах научных публикаций и вайтпейперов. Позже эти концепции подхватили и применили на практике open source-сообщество и компании. Иными словами, научно-техническая литература оказывается полезной, если нужно разобраться в принципах, лежащих в основе конкретных технологий, и обнаружить для себя новые подходы к разработке (и не только). Например, один из резидентов Hacker News рассказал, что изучал реализацию кукушкиного фильтра — альтернативы фильтру Блума для проверки принадлежности элемента множеству — по публикации, где авторы описывали его реализацию. Другой пример приводит менеджер по продукту, запускавшая несколько ИИ-проектов в Google. По ее словам, без погружения в исследовательские работы по теме она вряд ли смогла бы довести свои проекты до конца — и рисковала поддаться «слепому оптимизму», недооценить возможные трудности при разработке ИИ-инструментов.

Научная литература выручает и когда нужно найти уже проверенный кем-то подход к решению задачи. Так, при разработке собственного классификатора дата-сайентисты Amazon воспользовались методом, описанным их коллегами в научной публикации: «Читая технические материалы, мы понимаем, какие подходы работают, а какие — нет. Подсмотрев эффективную методику в статье коллег из другой компании, мы адаптировали ее и не стали изобретать велосипед. В результате мы тратим меньше времени и усилий». Чтение научной литературы — это также способ натренировать профессиональную любознательность. По словам бывшего разработчика Google, широкая специализация и Т-образный профиль компетенций позволяет инженеру глубоко разбираться в своей области и эффективно взаимодействовать с экспертами из смежных дисциплин.

Но какую бы пользу ни приносило такое чтение, у него есть один очевидный недостаток — работать с научно-технической литературой сложно даже тем, кто давно «варится» в теме. Что уж говорить о тех, кто далек от мира науки. Количество одних только систематических обзоров за последние 20 лет выросло более чем в двадцать раз. Даже ученые говорят, что стратегия just google it для поиска профильных материалов давно перестала работать.

При этом найти полезный документ — только половина дела, в нем еще нужно как-то сориентироваться. Текст научно-технических публикаций, как правило, громоздкий, наполнен «сухими» и не всегда понятными формулировками, а формат подразумевает, что одни и те же тезисы могут встречаться по нескольку раз в разных разделах.

Препарируем научно-технические статьи

«Нет такой проблемы, которую не смог бы решить читательский билет», — так говорила американская писательница Элеонора Браун. Однако недостаточно просто прийти в библиотеку — будь то физическую или цифровую, выбрать технический материал и начать читать. Со специализированными текстами нужно правильно взаимодействовать. К счастью, на эту тему также существует большое количество работ и рекомендаций.

Первым шагом при ознакомлении с техническим текстом обычно является визуальное «сканирование» или предварительный обзор документа. Такой обзор помогает понять актуальность материала, его релевантность, ознакомиться с выводами, пробежаться по иллюстрациям — и принять решение, погружаться в публикацию или пропустить ее.

В целом это достаточно распространенная практика среди людей, регулярно работающих с научно-технической литературой. Еще в 2016 году журнал Science опросил дюжину ученых из разных дисциплин и с разным карьерным бэкграундом, чтобы понять, как именно они читают научные статьи.

Большинство начинали знакомство с новым материалом, прибегая к выборочному чтению: «Я начинаю с чтения аннотаций, потом вскользь просматриваю введение и остальной текст. Стараюсь выделить для себя одну или две наиболее значимые иллюстрации, понять, что на них изображено. Затем я перехожу к заключению. Только после всего этого я погружаюсь в технические детали, которые могут прояснить для меня все возможные вопросы».

Второй шаг«активное чтение», чтобы выстроить диалог с материалом. Для этих целей можно использовать одну из распространенных стратегий — например, SQ3R, разработанную американским психологом Фрэнсисом Робинсоном для обучения студентов. Метод состоит из пяти шагов: Survey (Беглый просмотр) — чтобы оценить структуру и ключевые идеи; Question (Вопросы) — сформулировать цели чтения на основе заголовков; Read (Чтение) — поиск ответов на поставленные вопросы; Recite (Воспроизведение) — краткое изложение ключевых моментов своими словами для лучшего запоминания; и Review (Повторение) — возвращение к материалу для закрепления. В отличие от линейного чтения, SQ3R требует больше усилий, но увеличивает отдачу, особенно при работе с незнакомыми предметными областями.

Изображение: freepik (free freepik license)
Изображение: freepik (free freepik license)

Еще один подход называется PHA. Его представила Лиза Лонг, профессор факультета английского языка из Колледжа западного Айдахо. Эта методика берет за основу идеи SQ3R, но сводит их к трем более простым шагам. Первый этап — Preview (предварительный просмотр), когда читатель оценивает примерную сложность фрагментов текста, опираясь на собственный опыт и интуитивные ощущения. Второй — Highlight (выделение ключевых идей), когда необходимо отметить все места, которые кажутся важными, спорными или непонятными. Третий этап — Annotate (аннотирование) — предполагает более глубокий анализ материала с оценкой, как озвученные идеи соотносятся с текущей задачей. В целом метод PHA можно использовать для работы с любой обширной документацией (например, при изучении новых фреймворков).

Для работы с объемными научно-техническими текстами можно применить и так называемый метод трех проходов. Он был предложен специалистом из канадского Университета Уотерлу — Шринивасаном Кешавом. Как следует из названия методологии, текст нужно прочитать не менее трех раз. На первом этапе публикация бегло «сканируется» (не более 10 минут), на втором — делаются пометки на полях и фиксируются личные наблюдения, а на третьем — автор предлагает по памяти структурировать материал, воссоздать общие идеи и методологию из оригинального текста, выделить его сильные и слабые стороны. Как говорит сам Кешав: «Я стараюсь как можно чаще прибегать к методу трех проходов. Он полезен не только при работе с исследованиями, но и при изучении объемных технических блогов и статей».

Специалисты также дают рекомендации по составлению заметок. Например, профессор Уильям Гризвольд из Калифорнийского университета в Сан-Диего поделился своей подборкой вопросов, на которые он предпочитает отвечать на этапе активного чтения научно-технической литературы. Вот некоторые из них:

  • Какие проблемы поднимает автор и почему они все еще актуальны?

  • Чем выделяется описанный подход на фоне предыдущих, какая у него ценность?

  • Какие возможности и решения предлагают авторы? Каковы преимущества и недостатки их научной работы?

Наконец, многие исследователи выделяют важность прямого взаимодействия с техническим текстом — они предлагают активно «общаться» с публикацией, делать пометки и примечания, придумывать примеры по аналогии с описанными в статье, находить связи или противоречия с другими, ранее прочитанными, работами. Однако наиболее эффективным может стать подход, когда все упомянутые техники совмещаются с возможностями специализированных инструментов — в том числе на базе систем ИИ.

ИИ-решения: найти статью, пересказать и озвучить

На одном только arXiv ежедневно публикуются около семисот новых исследований. Еще до начала чтения можно столкнуться с проблемой — как среди всего этого разнообразия выбрать действительно релевантные материалы. Можно использовать специализированные инструменты поиска. Один из таких инструментов — платформа Connected Papers. Она позволяет строить масштабные графы, отражающие связи между научными статьями [в том числе из arXiv]. Проект создала команда энтузиастов, уставших от ручного поиска публикаций: сначала решение создавалось «для себя», но со временем им заинтересовались коллеги и знакомые разработчиков, и инструмент стал публичным. Connected Papers не ограничивается проверкой библиографических ссылок. Платформа формирует подборки научных работ по схожей тематике, анализируя для каждого графа порядка 50 тыс. публикаций и отбирая из них несколько десятков наиболее релевантных.

Также существуют площадки для обсуждений и оценки научных трудов — например, SciRate. Ее исходный код опубликован на GitHub по лицензии MIT. Материалы на SciRate оцениваются на основе мнений сообщества, но иногда исследовательский комитет платформы сам рецензирует наиболее примечательные статьи.

Изображение: Rob Oo; CC BY 4.0
Изображение: Rob Oo; CC BY 4.0

Безусловно, в изучении релевантных материалов могут помочь ИИ-инструменты, генерирующие краткие саммари. Для некоторых ученых подобные решения стали настолько привычными, что без них они ощущают себя в прошлом: «Словно выходить в интернет по dial-up, когда у других оптоволокно». Обычно такие платформы напоминают работу с ChatGPT, но заточенным под чтение и анализ научно-технических публикаций. Подобную функциональность предлагают платформы SciSpace и ScienceStack — в том числе с дополнительными возможностями для работы с графиками и заметками.

Существуют решения, которые не просто генерируют краткое саммари, но и озвучивают его, что особенно удобно для людей с ограниченными возможностями, а также для тех, кто предпочитает аудиоформат. Один из таких инструментов — NotebookLM от Google. Он выдает не сухой пересказ, а адаптирует содержание статьи: систему ИИ можно попросить привести примеры, объяснить сложные моменты, вывести взаимосвязи и тенденции. Более того, NotebookLM способен представить оригинальный текст в виде подкаста — как диалог двух виртуальных ведущих, интервью или дискуссию. Пользователь может задать формат «выступления», указать стиль и сложность изложения.

Еще один пример — платформа ekoAcademic для публикаций с arXiv. Проект развивают аспиранты, работающие в сфере квантовых вычислений в Швейцарской высшей технической школе Цюриха. Изначально они хотели написать решение для отслеживания последних научных открытий, но сменили направление, и сегодня сервис за несколько минут генерирует аудиосаммари научных статей. При этом встроенный ИИ-агент позволяет задавать вопросы по содержанию материала. Учитывая стремительное развитие индустрии систем ИИ и открытость научного сообщества к использованию подобных инструментов, можно предположить, что в ближайшие годы ИИ-решения вполне могут стать базовым минимумом при работе с техническими текстами.

Beeline Cloud — secure cloud provider. Разрабатываем облачные решения, чтобы вы предоставляли клиентам лучшие сервисы.

Что еще примечательного можно почитать в нашем блоге: