Локальный AI в Obsidian без подписок: рабочая связка с Ollama, Gemma 4 и Infio Copilot / Хабр

Я хотел собрать локального AI-ассистента для Obsidian, который умеет работать по моим заметкам без интернета и подписок. В итоге протестировал несколько подходов, остановился на связке с Obsidian + Ollama + Gemma 4 и посмотрел, насколько это вообще пригодно для повседневной работы.

Коротко: что в итоге

Итоговая рабочая схема у меня получилась такой:

Obsidian как база знаний
Infio Copilot как AI-плагин
встроенный bge-micro-v2 для embeddings
Ollama для запуска локальной языковой модели
gemma4:e2b для ответов по заметкам
qwen3.5:9b и qwen3.5:4b как альтернативы, которые я тоже пробовал

В результате заметки индексируются быстро, поиск по смыслу работает, ответы можно получать прямо внутри Obsidian, а данные в локальном режиме не уходят в облако. И всё это бесплатно, если не считать электричество, стоимость компьютера и время на установку.

Сразу оговорюсь: это не идеальная и не полностью бесшовная система. Плагины меняются, модели иногда ведут себя нестабильно, а настройка требует времени. Но базовый функционал уже есть, и для личной базы знаний этого оказалось достаточно, чтобы идея наконец стала практически полезной.

Предыстория: почему "второй мозг" не работал как концепция

До этого я несколько раз начинал вести базу знаний. Сначала в Notion, потом в Obsidian. Создавал структуру папок, теги, шаблоны. Через пару недель или месяцев всё это забрасывал. Возможно, есть люди, которым действительно нравится всё конспектировать, но я, видимо, не из их числа. Хотя сам по себе это полезный навык.

Честно говоря, мне всегда казалось, что история про “второй мозг” больше подходит энтузиастам и отдельному сообществу. Красивая концепция, но без большого числа убедительных историй успеха. Систематизация ради систематизации. По крайней мере, так это часто выглядело.

Но сейчас ситуация изменилась.

За последний год у меня, как, думаю, и у многих, накопилось большое количество чатов с нейросетями. Claude, ChatGPT, Gemini и другие. Это десятки диалогов по работе: архитектура, BIM, вайб-кодинг, исследовательские задачи. В них много ценного: рассуждения, рабочие решения, интересные находки, выводы, к которым я приходил через несколько итераций. Всё это лежало в разных интерфейсах и почти не поддавалось нормальному поиску.

Это личное знание, и видно, как оно буквально ускользает из рук. Трудно вспомнить, в каком именно чате был нужный ответ, если ты его заранее не сохранил.

Вот здесь Obsidian начинает иметь смысл. Не как дневник, а как база контекста, по которой можно задавать вопросы. Можно поднимать свои старые мысли, искать повторяющиеся идеи, делать метаанализ того, что уже обсуждал и пробовал.

Для этого нужен AI, встроенный прямо в Obsidian. И желательно, чтобы он работал бесплатно и локально.

На практике это оказалось не так просто.

Что я хотел получить

Моя задача была довольно простой:

хранить заметки и контекст в Obsidian
быстро индексировать заметки для семантического поиска
задавать вопросы по своей базе
по возможности не отправлять данные в облако
не платить за подписку на этапе эксперимента

Важный момент, который я понимал и который оказался одной из главных преград в настройке: языковая модель и модель для embeddings — это две разные части системы. Это часто путают именно новые пользователи, которые пытаются собрать такую связку для себя. А таких сейчас много, и дальше будет ещё больше. Похоже, это становится новым полезным рабочим навыком.

Языковая модель отвечает на вопрос. Embedding-модель превращает заметки в векторы, чтобы по ним можно было искать смысловые совпадения. Для RAG нужны оба слоя.

И если с ответами всё более-менее понятно, то именно embeddings неожиданно стали главным узким местом.

Шаг 1: Ollama. И мои завышенные ожидания

Ollama – удобный инструмент для запуска локальных моделей. Устанавливается как обычная программа, а модели скачиваются одной командой в терминале:

ollama pull qwen3:4b
ollama run qwen3:4b

Интерфейс Ollama. Можно использовать как отдельный локальный чат с выбором моделей.

Я начал с Qwen, потому что она была в списке доступных моделей прямо в Ollama. Модель отвечала, но по ощущениям скорость была недостаточной для постоянной работы прямо в Obsidian. Потом попробовал более крупные модели, в том числе qwen3:8b, но стало ещё медленнее.

Здесь уже начинает играть роль объём видеопамяти. У меня RTX 3060 Ti с 8 GB VRAM, и не каждая модель помещается туда целиком. Если модель больше, часть данных уходит в оперативную память или на CPU, и скорость заметно проседает.

Важно и то, что проблема была не только в скорости ответов. Для простого чата этого ещё может хватить. Но для нормальной работы RAG по заметкам и вашему контексту нужен ещё и слой embeddings. И вот там начались основные сложности.

Шаг 2: Smart Connections. Быстрый поиск, но платный чат

Следующим я попробовал Smart Connections от Brian Petro. Плагин ставится через обычный маркетплейс Obsidian и очень быстро даёт первый результат.

Здесь меня приятно удивила скорость индексации. Плагин использует bge-micro-v2, небольшую и хорошо оптимизированную embedding-модель, встроенную прямо в плагин. Ничего отдельно скачивать через Ollama не нужно.

У меня база пока небольшая: около 150 заметок разной длины, суммарно примерно 70 МБ markdown-файлов. Такая база индексировалась почти моментально, примерно за 1–2 минуты. После этого семантический поиск уже работал как надо.

Правда, практическая ценность такого поиска для меня оказалась неочевидной. Он показывает заметки, близкие по смыслу и содержанию, но не возникло ощущения, что это кардинально меняет опыт по сравнению с обычным поиском. Хотя как отдельный инструмент это всё равно может быть полезно.

Но когда я попробовал чат от Smart Connections, выяснилось, что Smart Chat уже требует подписки. Раньше это был бесплатный инструмент, и в моём случае это стало стоп-фактором.

Для проверки самой идеи плагина хватило, но как постоянное решение он мне не подошёл. Хотелось найти вариант, где и поиск, и чат работают бесплатно.

Шаг 3: Copilot от Logan Yang. Чат заработал, но с индексацией появились вопросы

Потом я поставил Copilot от Logan Yang. Плагин популярный, у него много скачиваний.

Подключить Ollama в нём довольно просто: в настройках указываешь http://localhost:11434, выбираешь модель, и чат начинает работать. Правда, в каждом плагине всё равно приходится немного разбираться вручную, потому что точных инструкций обычно немного.

Но с индексацией заметок у меня снова появились проблемы. В моём сценарии Copilot с embedding-моделями через Ollama индексировал заметки заметно медленнее, чем решения со встроенным bge-micro-v2. Если Smart Connections справлялся за 1–2 минуты, то здесь индексация на той же базе могла идти очень долго, вплоть до часа.

Вероятно, на это влияли сразу несколько факторов: скорость embedding-моделей, длинные заметки, особенности разбиения текста и возможные ошибки в процессе индексации.

Отдельно не хватило управления нарезкой текста на фрагменты, то есть чанками. Я не нашёл явной настройки chunking в интерфейсе плагина, по крайней мере в той версии, с которой работал. Для RAG это важно, потому что от chunking зависит, насколько точно потом будут находиться релевантные куски заметок. Возможно, более тонкая настройка здесь могла бы улучшить результат и по качеству, и по скорости.

В итоге картина была такой: сам чат работал, но индексация у меня получалась слишком медленной, и смысл всей затеи начинал теряться.

Шаг 4: Infio Copilot. Форк, который закрыл проблему с embeddings

Дальше я потратил время на поиски и нашёл Infio Copilot. Насколько я понял, это форк Copilot, который пока ставится не через обычный каталог плагинов, а через BRAT. Это отдельный плагин для установки тех расширений, которых ещё нет в каталоге Obsidian.

Главное отличие для меня заключалось в том, что здесь есть встроенные быстрые embeddings, снова на базе bge-micro-v2, и при этом можно использовать свои локальные модели через Ollama для генерации ответов.

Установка BRAT

Открыть Obsidian → Settings → Community Plugins → Browse
Найти BRAT, установить и включить
В настройках BRAT выбрать Add Beta Plugin
Вставить репозиторий Infio Copilot

Настройка Infio Copilot

в настройках плагина выбрать провайдера Ollama
указать адрес http://localhost:11434
выбрать модель для чата

В этой схеме embeddings строятся встроенной моделью bge-micro-v2, поэтому индекс создаётся быстро. А локальная модель через Ollama используется уже только для ответов.

Именно это сочетание у меня и сработало лучше всего.

Настройки плагина Infio Copilot в Obsidian.

Шаг 5: gemma4:e2b. Новая связка

В конце марта Google выпустил Gemma 4, и я попробовал вариант gemma4:e2b.

ollama pull gemma4:e2b

Вот здесь разница уже оказалась заметной на практике.

Если сравнивать по ощущениям с тем, что я пробовал до этого, gemma4:e2b. отвечала примерно в два раза быстрее, чем qwen3:8b. Я не привожу полные характеристики компьютера и не замерял токены в секунду, поэтому оставлю именно практическое наблюдение: с Gemma ответы стали достаточно быстрыми для реальной работы, тогда как qwen3:8b в моём случае был слишком медленным.

Обычно ответ приходил примерно от 15 секунд, в зависимости от сложности запроса и объёма найденного контекста.

Интерфейс Obsidian и ответ Gemma 4 на вопрос.

По качеству ответов у меня сложилось хорошее впечатление. Я использовал именно gemma4:e2b. Модель бывает неидеальной и временами ведёт себя нестабильно, но в задачах анализа заметок, суммаризации и работы с личным контекстом она показалась мне вполне полезной. Более того, мне в целом нравится, как она формулирует ответы.

Здесь важно не делать слишком жёстких выводов про железо. В моём случае 8 GB VRAM уже позволяют использовать такую модель достаточно комфортно. На меньшем объёме запуск тоже возможен, но производительность, скорее всего, будет заметно ниже, особенно если часть данных начнёт выгружаться в оперативную память. Без видеокарты всё тоже можно запустить, но скорость для постоянной работы, скорее всего, окажется слишком низкой. В общем случае правило простое: чем больше VRAM, тем лучше.

После подключения gemma4:e2b. в Infio Copilot система наконец заработала так, как я изначально хотел:

индексация заметок происходит быстро
ответы по базе знаний приходят с приемлемой скоростью
всё может работать локально
платить за это не нужно
заметки остаются на своей машине

Но здесь тоже важно сделать оговорку: иногда всё это работает нестабильно. Часто приходится начинать новый чат, чтобы система снова отвечала адекватно. Бывает, что модель отвечает не так, как нужно. Но с gemma4:e2b, по моим ощущениям, ситуация стала немного лучше.

Что получилось в итоге

Схема работы выглядит так:

Заметки Obsidian (.md файлы)
→ разбиение текста на фрагменты и embeddings через встроенный bge-micro-v2
→ локальный векторный индекс
→ запрос пользователя
→ поиск подходящих фрагментов
→ передача фрагментов вместе с вопросом в Ollama
→ ответ от gemma4:e2b. прямо в Obsidian

Если коротко, разделение ролей здесь такое:

встроенная маленькая embedding-модель даёт быструю индексацию
локальная языковая модель отвечает на вопросы по найденным фрагментам

Если хочется качества выше

Полностью локальная связка уже работает и приносит пользу. Но если приватность не критична, а стоимость запросов через платные модели не пугает, Infio Copilot позволяет подключить и внешние API.

Например, через OpenRouter можно использовать более мощные облачные модели. Это уже не офлайн-сценарий, зато качество и скорость ответов обычно выше, чем у локальных моделей.

Здесь важно понимать границу: если используется внешний API, релевантные фрагменты заметок вместе с вопросом будут уходить наружу. То есть локальность и приватность в этом случае теряются.

На некоторых сервисах есть бесплатные тарифы, и иногда их может хватить хотя бы для части запросов.

Почему не Claude Code

Сейчас часто говорят про Claude Code и похожие инструменты. Они действительно мощные. Но у них есть понятный минус: токены расходуются быстро, и если постоянно работать с заметками, счёт может вырасти незаметно.

Связка, которую я описываю здесь, нужна скорее для другого. Она позволяет понять, нужен ли вам вообще AI в Obsidian, не вкладываясь в подписки и не отправляя весь свой контекст в облако.

А дальше уже можно решить, нужно ли вам платное решение и готовы ли вы вообще заниматься сборкой личной базы знаний. Даже с автоматизацией это пока всё ещё требует времени и сил. Но, думаю, оно того стоит. Тем более что всё идёт к тому, что дальше процесс будет становиться проще.

Ещё один неожиданный плюс Gemma 4

У Gemma есть ещё одно интересное преимущество. Google развивает возможность локального запуска модели прямо на телефоне через приложение. В частности, уже можно посмотреть Google AI Edge Gallery.

Это не замена полноценной работе на компьютере. На телефоне будет использоваться не самая мощная версия модели, и такой сценарий скорее запасной. Но сама идея интересная: можно синхронизировать Obsidian с телефоном, держать под рукой свою базу заметок и в крайнем случае обращаться к локальной модели даже без интернета. Тем более модель мультимодальная, то есть можно работать не только с текстом, но и с изображениями.

Для полевых сценариев или просто как резервный вариант это выглядит неожиданно полезно. В этом смысле экосистема вокруг Gemma даёт модели дополнительный плюс. Да и в целом сейчас и разработчики моделей, и производители устройств явно смотрят в сторону локальных мобильных моделей.

Небольшое наблюдение по моделям

Я не хочу превращать статью в полноценное сравнение моделей, потому что у меня была другая задача: собрать рабочую связку для Obsidian, а не сделать бенчмарки.

Но несколько практических наблюдений всё же оставлю.

qwen3:8b у меня отвечал слишком медленно для комфортной работы, хотя сам по себе это сильный вариант.

qwen3.5:9b на 8 GB VRAM у меня запускался и давал интересные, содержательные ответы, но тоже оставался медленным.

qwen3.5:4b работает быстрее, но по ощущениям уступает старшим моделям по глубине. По соотношению скорости и качества это, на мой взгляд, хороший вариант.

gemma4:e2b — модель, которой я сейчас пользуюсь чаще всего. Она бывает нестабильной, как и другие модели в этом стеке, но в целом работает.

То есть универсального победителя здесь нет. Всё зависит от того, что для вас важнее: скорость, стабильность, глубина ответа или возможность работать полностью локально.

Итоговое сравнение

Инструмент	Embeddings	LLM	Цена	Офлайн
Smart Connections	Быстро	Чат платный	Freemium	Да
Copilot (Logan Yang)	В моём случае медленно	Ollama / API	Бесплатно	Да
Infio Copilot + `gemma4:e2b`.	Быстро	Ollama локально	Бесплатно	Да
Infio Copilot + OpenRouter	Быстро	Облако	По токенам	Нет

Что нужно для запуска

Obsidian
Ollama
BRAT
Infio Copilot
локальная модель, например gemma4:e2b

Если хочется более комфортной работы, желательно иметь побольше видеопамяти. В моём случае 8 GB VRAM уже дают практический результат. С меньшим объёмом тоже можно запускать модели меньшего размера, но тогда локальный сценарий может оказаться слишком медленным, а ответы — менее содержательными. В таком случае проще временно использовать облачные модели через API.

Ограничения, о которых стоит сказать честно

Здесь важно не создавать ложных ожиданий.

Такую связку пока нельзя назвать идеально отлаженным инструментом, который всегда работает без сбоев. Плагины меняются, модели иногда ведут себя странно, индекс может строиться не так, как ожидаешь, а какие-то функции после обновления могут внезапно перестать работать.

Возможно, часть проблем связана с моей настройкой, а часть – с тем, что сама экосистема ещё просто не дозрела до состояния “поставил и забыл”.

Но при этом базовый функционал уже есть, и он полезен.

Можно собирать свою базу контекста в Obsidian, сохранять важные диалоги, делать метаанализы, искать инсайты, вытаскивать повторяющиеся идеи, структурировать знания и учиться работать с RAG на собственных данных.

Пока я разбирался со всей этой схемой, уже успела выйти Gemma 4. Это хороший пример того, как быстро всё меняется. Скорее всего, через несколько месяцев появятся и новые модели, и более удобные плагины, и более цельные решения для Obsidian.

Поэтому для меня главный вывод такой: начинать собирать свою базу знаний уже стоит, даже если инструменты вокруг неё пока неидеальны.

Где это может быть полезно кроме личных заметок

На мой взгляд, такой подход интересен не только для личной базы знаний.

Его вполне можно применять и в профессиональной работе: загружать документы, нормативные материалы, СНиПы, ГОСТы, проектные заметки, технические фрагменты, шаблоны решений, а потом искать по ним ответы через RAG.

То есть Obsidian здесь может быть не просто “вторым мозгом”, а рабочей оболочкой для своей локальной базы документов.

Но здесь особенно важно помнить, что первый мозг никто не отменял. На такие ответы нельзя полагаться без проверки. Это полезный помощник, а не полностью автономный эксперт.

Выводы

Второй мозг начинает иметь практический смысл в тот момент, когда AI может работать с накопленным контекстом прямо внутри инструмента для заметок.

У меня путь к этому оказался длиннее, чем я ожидал. Сначала были медленные embeddings, потом платный чат, потом ограничения по настройке и скорости. Но в итоге рабочая связка всё же нашлась.

На текущем этапе для меня она выглядит так: Obsidian + Infio Copilot + встроенный bge–micro-v2 + Ollama + gemma4:e2b.

Это ещё не идеальный инструмент. Но он уже достаточно полезен, чтобы всерьёз попробовать RAG по своим заметкам, особенно если давно хотелось превратить разрозненные чаты, заметки и наброски в систему, с которой можно разговаривать.

Об авторе

Владислав Пономарев

Архитектор, исследователь применения AI в строительной отрасли, создатель Виртуального музея архитектуры Сочи.

Telegram: @vponomarev_ru
GitHub: github.com/vponomarev-tech
Виртуальный музей: @vmasochi
Проекты: vponomarev.ru