Веб-приложение под названием NotebookLM было выпущено компанией Google около года назад, и на Хабре было по этому поводу два кратких анонса в прошлом году (раз, два). На мой взгляд, оно заслуживает обзора чуть более подробного чем эти краткие сообщения, так что попробую восполнить этот пробел.
NotebookLM - это инструмент на основе ИИ, который позволяет относительно быстро, удобно и без лишних телодвижений получить краткий разносторонний обзор (саммари) объемных документов (книг, статей), а также интерактивно взаимодействовать с ними (задавать вопросы, касающиеся их содержания). В моем понимании он представляет собой надстройку над "обычным ИИ-чатом", которому в контекст загружен интересующий пользователя документ. Эта надстройка включает в себя:
Набор из нескольких преднастроенных стандартизованных промптов, доступных в один клик и ориентированных на работу с объемными текстами ("Составь мне оглавление", "Составь мне FAQ на основе этого текста", и т.п.)
Интерфейсное решение ("карточки-плитки на рабочем столе"), которое по замыслу разработчиков, видимо, должно быть более удобным чем "обычный (линейный) чат"
Интерфейс чата, который при взаимодействии с текстом в формате "вопрос-ответ" отображает не только ответы на задаваемые вопросы, но и фрагменты соответствующего исходного текста, а также ссылки на конкретные параграфы полного текста-источника.
Посмотрим как это работает
Начало работы
На главном экране расположены кнопка создания нового "Блокнота" и сами "Блокноты" - главные элементы приложения. Это контейнеры, в которые пользователь загружает свои Источники (исходные материалы), — документы, книги, статьи — которые он хочет "исследовать". Также в Блокноте находятся создаваемые в процессе "исследования" производные артефакты, относящиеся к основному исходному материалу (заметки, сгенерированные ИИ или написанные самим пользователем), и панель взаимодействия с ИИ.
Технические аспекты:
NotebookLM бесплатен и не требует регистрации (нужна только гугловская авторизация)
Форматы исходных текстов — Источников: PDF, txt, Markdown, а также ссылки на веб-страницы и документы на Google-диске
"Источники" могут быть достаточно объемными. Я экспериментировал с книгами объемом до 600 страниц и не заметил каких-либо проблем и ограничений
Исходные материалы могут быть на разных языках (я экспериментировал с немецким, французским и русским - шероховатости, касающиеся перевода, были минимальными). Язык самого приложения и генерируемых артефактов (заметок, чатов), видимо, определяется по гугловской учетке
Используемая модель: Gemini 1.5 Pro
С главного экрана можно открыть примеры блокнотов, которые предлагают разработчики, но я предлагаю сразу перейти к созданию нового блокнота, нажав кнопку ➕.
Работа с Блокнотом
Первый шаг при создании блокнота - добавление источников (исходных материалов, которые нужно исследовать: статей, книг, документов):
После добавления файла приложению требуется некоторое время что бы его переварить. После этого Блокнот отображается в своем начальном состоянии:
В левой панели отображается добавленный Источник. Если их добавлено несколько, то чек-боксами можно выбирать, с какими из них в данный момент нужно работать
В основном интерфейсе отображается пустой рабочий стол (на него в дальнейшем будут добавляться заметки) и панель взаимодействия с ИИ — Notebook guide
Главная панель взаимодействия в английской версии называется Notebook guide. Русский перевод "Руководство по использованию блокнота" вызывает у меня сомнения и наводит на мысли о некорректной работе автотранслейта. Возможно, было бы корректнее перевести "Путеводитель по блокноту" (дальше я для краткости буду использовать английскую версию).
Notebook guide
Функционал Notebook guide включает в себя:
Раздел "Сгенерировать": Пять кнопок, нажатие на каждую из которых запускает соответствующий преднастроенный промпт применительно к содержимому Источника. После выполнения промпта отображается результат его работы и на рабочем столе создается соответствующая карточка.
"Общая информация" (Summary) и "Примеры вопросов" (3 штуки), которые генерируются автоматически, без запроса.
Поле чата, которое позволяет получать ответы на вопросы по содержимому Источника.
"Сгенерировать"
Нажатие на любую из кнопок в разделе "Сгенерировать" закрывает панель Notebook guide и запускает генерацию ответа на промпт, соответствующий названию кнопки. В результате отображается окно с соответствующим ответом ИИ и соответствующая карточка "Сохраненный ответ" на рабочем столе. Операцию можно повторить, нажав справа снизу на Notebook guide и затем на необходимую кнопку "Сгенерировать".
Функционал у каждой из кнопок следующий:
Кнопка "Сгенерировать" | Результат работы |
FAQ | Формирует список из восьми вопросов и ответов по главным темам Источника. Каждый ответ - это, как правило, 2-3 предложения (но может быть и более объемным). |
Содержание | Оглавление документа или книги, в котором (оглавлении) к каждой главе добавлено одно или несколько предложений с описанием основной темы этого раздела. Если в Источнике два уровня разделов, то тут содержание также представлено в двух уровнях. Заголовки/разделы третьего уровня не отображаются, судя по моим наблюдениям. |
Краткий обзор (Briefing Doc) | Развернутое Summary, которое включает в себя: Название источников, Основную тему (1-3 предложения), Ключевые идеи и факты (список до нескольких десятков пунктов, по одному предложению на каждый), Заключение (1-2 предложения), Ключевые цитаты (опционально). |
Руководство для изучения материала (Study guide) | Несколько видов учебных материалов: Вопросы по содержанию Источника (и в отдельном разделе ответы на них, 10шт.), Темы для эссе (5 шт.), Глоссарий (до нескольких десятков специфичных терминов из Источника) |
Хронология (Timeline) | Функция ориентирована на Источники, в которых описывается последовательность событий. Если из источника нельзя выделить какую-либо последовательность событий, то приложение так и пишет об этом, и при этом иногда старается заполнить сгенерированную заметку какими-нибудь материалами на основе Источника: ключевые концепции, персоналии и т.п. |
Таким образом, по каждому Источнику, добавленному в Блокнот, можно по мере необходимости сформировать до пяти карточек, которые останутся лежать на рабочем столе. Также можно сгенерировать аналогичные заметки для любого сочетания Источников (если их в Блокнот добавлено несколько). Судя по моим наблюдениям, в этом случае содержимое генерируемой заметки распределяется по выбранным Источникам пропорционально их количеству. Например, если я взял в качестве Источников две статьи, то FAQ примерно наполовину будет состоять из материала одной статьи, и наполовину - из другой. При этом в FAQе в явном виде не отображается какая часть вопросов-ответов к какому Источнику относится. Тогда как, например, в Содержании разбивка по Источникам явно указана.
Чат
В поле ввода сообщений внизу панели Notebook guide можно задавать вопросы, касающиеся содержимого Источников. Вопросы можно как вводить вручную, так и выбирать из тех, которые приложение предварительно сгенерировало.
Выбрать можно из тех трех вопросов, которые отображаются непосредственно над полем ввода:
После нажатия на вопрос чат сразу начнет на него отвечать.
Также что бы не вводить вопросы вручную, можно выбрать тему для обсуждения из Источника. Для этого нужно в левой панели нажать на источник. Приложение отобразит полный текст Источника, в верхней части которого на синем фоне будет располагаться секция Summary, справа от которой отображаются пять "Основных тем" (Key topics). При нажатии на любую из них в чате запускается "обсуждение" этой темы.
Если какой-то ответ чата оказался полезным то его можно "закрепить" 📌 и он останется на рабочем столе в виде такой же карточки, как и те которые были описаны в предыдущем разделе.
Важное отличие ответов Чата от "Сгенерированных" заметок - это то что Чат достаточно детально указывает ссылки на разделы Источника, откуда взята информация для ответов на вопросы:
При наведении на ссылку (сноску) на первоисточник (на скриншоте выше - на цифру 8) отображается всплывающее окно с соответствующим куском текста из Источника. Если нажать, то в левой панели приложение промотает полный текст Источника к соответствующему фрагменту и подсветит его.
Заключение
В целом не смотря на некоторые вопросы к реализации интерфейса, NotebookLM кажется достаточно удобным и полезным приложением. Я лично для себя пока вижу два основных сценария использования:
Ознакомление с объемными текстами (книгами, статьями), если нет времени на их полноценное прочтение
Предварительное ознакомление с книгой прежде чем начать ее читать: Чего от нее ожидать и нужно ли читать ее всю или можно ограничиться какими-то частями. В том числе речь том, что бы с помощью NotebookLM отчасти реализовать одну из методик под названием Metalearning (Метаобучение), описанную в книге Скотта Янга "Ultralearning". Смысл методики приблизительно следующий: Прежде чем приступать к детальному изучению какой-либо новой темы или предметной области, нужно сначала получить общее представление о ней, "исследовать" на верхнем уровне — "Нарисовать свою карту" (Draw Your Map). В частности, ответить на вопросы: Почему? (в чем польза от изучения этого предмета и как эти знания могут быть применены) Что? (перечень основных концепций, фактов и процедур, относящихся к изучаемому предмету) и Как? (методика изучения). И далее переходить к детальному погружению в материал только собрав достаточно исчерпывающие ответы на эти вопросы.
О сценариях использования также можно почитать в блоге разработчиков.
В качестве недостатков я бы пока отметил следующее:
Некоторые книги могут состоять, например, из двух основных частей: первая часть в общих чертах знакомит читателя с предметной областью, а вторая описывает практические приемы и методы работы в этой предметной области. По моим наблюдениям, NotebookLM в этом случае фокусируется на первой части и уделяет недостаточно внимания второй. Например, я взял книги про ChatGPT, в которых одна половина посвящена общим вопросам LLM (история, технология, этические вопросы и т.п.), а вторая — практическим приемам (как составлять промпты, как использовать LLM для написания текстов и решения других задач). Так вот, артефакты "по умолчанию" (такие как Study guide и Briefing doc), по моим наблюдениям, на 80-90% ориентированы на первую часть и очень мало внимания уделяют второй.
При работе с книгами хотелось бы иметь возможность быстро применить стандартные запросы (Содержание, FAQ, резюме, и т.п.) как для книги/документа целиком, так и для каждой главы/раздела отдельно. К сожалению NotebookLM позволяет относительно удобно работать только с Источником (т.е., например, с книгой) целиком. Для работы с отдельными кусками их сначала нужно найти и выделить в полном тексте Источника в левой панели — "удобство" интерфейса к этому, мягко говоря, не располагает (навигация по главам отсутствует, разбивки по страницам нет, неудобное форматирование текста). Что бы обойти это ограничение, нужно, видимо, самому грузить в Источники каждую главу в виде отдельных файлов. При этом я пока не понимаю как можно автоматизировать разделение PDF на главы. Поделитесь, пожалуйста, в комментариях, если кому-то известны такие инструменты.
Отсутствие поддержки формата epub (и ему подобных)
Просмотр карточек доступен только в относительно небольшом всплывающем окне, которое нельзя развернуть на весь экран и приходится всегда скролить текст (при работе в мобильном браузере эта проблема особенно бросается в глаза).
P.S.: В принципе было бы наверно интересно посмотреть на приложение с таким функционалом, умеющее работать не только с документами, но и с длинными видео на YouTube (в идеале - что бы ссылки на источники запускали воспроизведение видео с соответствующего момента). Предлагаю в комментариях делиться реалистическими соображениями, какие в этом направлении возможны варианты и перспективы. То что большинство необходимых компонентов и технологий в принципе доступно - это понятно. Но вот готовый удобный продукт...