Эту историю для моего блога рассказал Алексей Кривоносов

Год назад я начал использовать ChatGPT для работы. Занимаюсь загородным строительством — это основной бизнес. Также веду YouTube-канал компании. Нейросеть помогала генерировать сценарии, составлять контент-планы, оформлять технические отчёты.

Но когда попробовал использовать ChatGPT для работы со строительными нормами — СП, ГОСТами, нормативной документацией — столкнулся с проблемой. Нейросеть придумывала несуществующие пункты нормативов, выдавала цифры, которых не было в документах.

За полгода я с небольшой командой создал свой AI-инструмент — «Цифровой стандарт». Мы вручную обработали строительную нормативную базу, перевели её в векторный формат и настроили алгоритм, который даёт точные ответы без галлюцинаций.

Этап 1: Когда ChatGPT начал врать

Для технических задач я использую ChatGPT как инструмент проверки решений, поиска альтернатив и поиска нормативных данных. Принимать решения на основе ответов модели — большой риск.

Задаю вопрос: «Какие требования к толщине утеплителя в СП 50.13330.2012?» ChatGPT выдаёт конкретную цифру — допустим, 150 мм — и ссылается на пункт 5.2.3 документа. Открываю норматив, проверяю — такого пункта нет. Или пункт есть, но там совсем другие цифры.

Пробую загрузить весь документ в ChatGPT. Ответ точнее, но модель всё равно искажает данные или выдёргивает информацию из контекста.

Причина — в архитектуре. ChatGPT работает с вероятностями: предсказывает, какое слово должно следовать за предыдущим. Модель не проверяет факты, не обращается к источникам напрямую. Когда документ большой, окно контекста ограничено — модель читает начало и конец, а середину может пропустить.

Для строительной документации это критично. Неправильная толщина утеплителя — дом будет холодным. Неправильная нагрузка на перекрытие — угроза безопасности.

Этап 2: Поиск решения и сборка команды

Общаюсь со знакомыми, которые разрабатывают нейросетевые проекты. Узнаю про RAG-архитектуру (Retrieval-Augmented Generation) — когда модель сначала ищет нужную информацию в базе, а потом генерирует ответ только на основе найденного.

Суть: документы не загружаются целиком в ChatGPT. Вместо этого создаётся отдельная база данных, где хранятся все нормативы в специальном формате. ChatGPT работает как нормализатор ответа под заданную структуру. Мы ограничили интерпретацию — куски исходных документов маркируются и явно выделяются в ответе, чтобы пользователь видел, где цитата, а где пояснение модели.

Это была середина 2025 года. Задача решаема технически, но сложная. Собираю небольшую команду.

Сначала это был проект «для себя». Когда увидел качество первых результатов, понял — это коммерческий продукт. Регистрирую компанию «Цифровой стандарт».

Сам начал разбираться в программировании. За новогодние каникулы научился писать на Python с помощью ChatGPT — до этого помнил только Pascal и Visual Basic из университета.

Принимаем решение: не использовать готовые RAG-фреймворки типа LangChain или LlamaIndex. Для работы со строительными нормативами нужна кастомизация на каждом этапе. Пишем почти всю архитектуру с нуля на Node.js и TypeScript.

Этап 3: Полгода резали документы вручную

Нормативная документация в строительстве — это десятки СП (сводов правил), ГОСТов, технических регламентов. Автоматическая обработка PDF не работает качественно: сканы с таблицами распознаются с ошибками, формулы превращаются в нечитаемый текст.

Полгода команда вручную разбивала документы на логические куски — чанки. Не просто деление по абзацам, а смысловые блоки. Каждый чанк сохраняем с метаданными: откуда взят, какая тема. Переводим в векторный формат — математическое представление текста для поиска по смыслу.

На старте получилось более 5500 смысловых фрагментов. Сейчас база расширяется — в ближайшее время количество вырастет примерно вдвое.

Рабочее ядро нормативной базы (СП, ГОСТ, ТТК).
Рабочее ядро нормативной базы (СП, ГОСТ, ТТК).

Проблема с формулами

В строительных нормативах полно математических формул: как рассчитать толщину утеплителя, какая нагрузка допустима на фундамент, как посчитать теплопотери.

Пример: R = δ/λ (сопротивление теплопередаче = толщина / коэффициент теплопроводности)

В PDF формулы — это картинка или специальная разметка. При конвертации R = δ/λ превращается в R = 8/2 или в нечитаемый мусор.

Перевод формул в LaTeX: слева исходник, справа — результат
Перевод формул в LaTeX: слева исходник, справа — результат

Качаем документы. Сайт отображает формулы в HTML своим алгоритмом. Проблема: HTML-версии доступны не постоянно. Часть документов открывается только после 20:00, часть закрыта. Используем отложенные и ночные задачи загрузки. Формулы могут меняться на стороне источника — данные нестабильны.

Векторный поиск находит информацию точнее полнотекстового. Вопрос «Какие требования к вентиляции?» — полнотекстовый ищет слово «вентиляция». Векторный находит разделы про «воздухообмен», «проветривание», «системы подачи воздуха» — даже без слова «вентиляция».

Этап 4: Настройка алгоритма и первые тесты

Продукт — нормативная база в векторном формате плюс алгоритм поиска и генерации ответа. Используем ChatGPT-4.1 в связке с векторной базой.

Пользователь задаёт вопрос: «Какая минимальная толщина утеплителя для дома в Московской области?»

Система нормализует вопрос — ChatGPT превращает разговорный запрос в поисковый: «требования толщина теплоизоляция жилые здания климатическая зона Московская область». Выполняется поиск в векторной базе, система находит топ-10 релевантных чанков.

Найденные чанки подаются в ChatGPT вместе с детальной инструкцией — несколько страниц правил: как формировать ответ, как цитировать источники, что делать при противоречиях. Если информации нет — модель пишет «В предоставленных документах нет данных». Не додумывает, не фантазирует.

Ответ генерируется в трёх вариантах: короткий, средний, экспертный (до 12 000 символов).

Пример ответа: краткий вывод + ссылки на конкретные пункты СП
Пример ответа: краткий вывод + ссылки на конкретные пункты СП

Первый закрытый тест превзошёл ожидания. Дал доступ знакомому инженеру Сергею (не путать с программистом). Он задавал профессиональные вопросы про фундаменты.

Выявилась проблема: не хватало контекста для учёта СП 63 (про армирование). Три варианта решения: уточняющие вопросы от AI, принудительная инструкция на слово «армирование», увеличение объёма ответа.

Этап 5: Расширение базы и подготовка к релизу

База знаний росла очередями:

  • 1-2 очередь (загружено): Основные must-have документы для ИЖС — 13 СП и несколько ГОСТов.

  • 3 очередь: Загружается сейчас — следующая партия документов.

  • 4 очередь: На этапе распознавания формул.

Проблемы: графические материалы (схемы, чертежи) временно не загружались — использовали только таблицы и формулы. Механизм автоматического отслеживания изменений в нормативах пока не внедрён.

Параллельно настраивали платёжную систему. Три тарифа: бесплатный, Standard, Pro.

Перед релизом начался ад с багами. Программист Сергей 4 суток подряд дописывал, переделывал, чинил баги, которые появлялись быстрее, чем кофе остывает.

31 декабря 2025 года запустили продукт в открытый доступ.

Этап 6: Запуск и первые клиенты

Продукт вышел на рынок. Появились первые платные клиенты.

Ещё на стадии разработки нами заинтересовались национальные ассоциации, которые занимаются разработкой нормативной документации. Сейчас ведём работу в двух направлениях: упростить процесс работы с нормативной базой для участников рынка и выявлять ошибки в самой документации.

Параллельно веду переговоры с образовательными организациями, которые занимаются обучением и переквалификацией строителей. Готовим совместные продукты и проводим тесты с фокус-группой.

За полгода работы над проектом выработал режим: с 8 утра до 2-3 ночи. Постоянно что-то придумываю, разрабатываю, тестирую. С одной стороны, весело — создаёшь новое. С другой — понимаю, что могу выгореть.

Инструменты и технологии

Для работы с AI:

  • ChatGPT-4.1 — генерация ответов на основе найденной информации, нормализация запросов. Стоимость одного запроса в нашей системе — в десятки раз выше обычного запроса к OpenAI API: каждый запрос включает поиск по векторной базе и передачу большого контекста.

  • OpenAI text-embedding-3-large — модель для векторизации текста

Для разработки:

  • Векторная база данных Qdrant — хранит смысловые фрагменты документов

  • Хостинг FirstVDS

  • Node.js и TypeScript — основной стек. Python — для отдельных модулей

  • LaTeX — формат для математических формул

Архитектурное решение: Почти всё написано с нуля — не использовали готовые RAG-фреймворки. Единственная внешняя библиотека — openai для работы с API, но и без неё можем работать напрямую.

Планы

  • Роли пользователей (частный застройщик, специалист стройконтроля, прораб) — разная структура вывода и настройки поиска

  • «Знания модели» отключаемые — чтобы пользователь получал только цитаты без интерпретации

  • API для интеграции со сторонним ПО

  • Переключение типа строительства (ИЖС / МКД)

  • Расширение векторной базы

  • Эксперименты по улучшению качества поиска

  • Автоматизация обновлений базы документов

  • Информирование пользователей о версии документов и наличии обновлений

В телеграм-канале я выложили схему сравнения ChatGPT и RAG-архитектуры. Подпишись, чтобы не пропустить новые статьи!