Эту историю для моего блога рассказал Алексей Кривоносов
Год назад я начал использовать ChatGPT для работы. Занимаюсь загородным строительством — это основной бизнес. Также веду YouTube-канал компании. Нейросеть помогала генерировать сценарии, составлять контент-планы, оформлять технические отчёты.
Но когда попробовал использовать ChatGPT для работы со строительными нормами — СП, ГОСТами, нормативной документацией — столкнулся с проблемой. Нейросеть придумывала несуществующие пункты нормативов, выдавала цифры, которых не было в документах.
За полгода я с небольшой командой создал свой AI-инструмент — «Цифровой стандарт». Мы вручную обработали строительную нормативную базу, перевели её в векторный формат и настроили алгоритм, который даёт точные ответы без галлюцинаций.
Этап 1: Когда ChatGPT начал врать
Для технических задач я использую ChatGPT как инструмент проверки решений, поиска альтернатив и поиска нормативных данных. Принимать решения на основе ответов модели — большой риск.
Задаю вопрос: «Какие требования к толщине утеплителя в СП 50.13330.2012?» ChatGPT выдаёт конкретную цифру — допустим, 150 мм — и ссылается на пункт 5.2.3 документа. Открываю норматив, проверяю — такого пункта нет. Или пункт есть, но там совсем другие цифры.
Пробую загрузить весь документ в ChatGPT. Ответ точнее, но модель всё равно искажает данные или выдёргивает информацию из контекста.
Причина — в архитектуре. ChatGPT работает с вероятностями: предсказывает, какое слово должно следовать за предыдущим. Модель не проверяет факты, не обращается к источникам напрямую. Когда документ большой, окно контекста ограничено — модель читает начало и конец, а середину может пропустить.
Для строительной документации это критично. Неправильная толщина утеплителя — дом будет холодным. Неправильная нагрузка на перекрытие — угроза безопасности.
Этап 2: Поиск решения и сборка команды
Общаюсь со знакомыми, которые разрабатывают нейросетевые проекты. Узнаю про RAG-архитектуру (Retrieval-Augmented Generation) — когда модель сначала ищет нужную информацию в базе, а потом генерирует ответ только на основе найденного.
Суть: документы не загружаются целиком в ChatGPT. Вместо этого создаётся отдельная база данных, где хранятся все нормативы в специальном формате. ChatGPT работает как нормализатор ответа под заданную структуру. Мы ограничили интерпретацию — куски исходных документов маркируются и явно выделяются в ответе, чтобы пользователь видел, где цитата, а где пояснение модели.
Это была середина 2025 года. Задача решаема технически, но сложная. Собираю небольшую команду.
Сначала это был проект «для себя». Когда увидел качество первых результатов, понял — это коммерческий продукт. Регистрирую компанию «Цифровой стандарт».
Сам начал разбираться в программировании. За новогодние каникулы научился писать на Python с помощью ChatGPT — до этого помнил только Pascal и Visual Basic из университета.
Принимаем решение: не использовать готовые RAG-фреймворки типа LangChain или LlamaIndex. Для работы со строительными нормативами нужна кастомизация на каждом этапе. Пишем почти всю архитектуру с нуля на Node.js и TypeScript.
Этап 3: Полгода резали документы вручную
Нормативная документация в строительстве — это десятки СП (сводов правил), ГОСТов, технических регламентов. Автоматическая обработка PDF не работает качественно: сканы с таблицами распознаются с ошибками, формулы превращаются в нечитаемый текст.
Полгода команда вручную разбивала документы на логические куски — чанки. Не просто деление по абзацам, а смысловые блоки. Каждый чанк сохраняем с метаданными: откуда взят, какая тема. Переводим в векторный формат — математическое представление текста для поиска по смыслу.
На старте получилось более 5500 смысловых фрагментов. Сейчас база расширяется — в ближайшее время количество вырастет примерно вдвое.

Проблема с формулами
В строительных нормативах полно математических формул: как рассчитать толщину утеплителя, какая нагрузка допустима на фундамент, как посчитать теплопотери.
Пример: R = δ/λ (сопротивление теплопередаче = толщина / коэффициент теплопроводности)
В PDF формулы — это картинка или специальная разметка. При конвертации R = δ/λ превращается в R = 8/2 или в нечитаемый мусор.

Качаем документы. Сайт отображает формулы в HTML своим алгоритмом. Проблема: HTML-версии доступны не постоянно. Часть документов открывается только после 20:00, часть закрыта. Используем отложенные и ночные задачи загрузки. Формулы могут меняться на стороне источника — данные нестабильны.
Векторный поиск находит информацию точнее полнотекстового. Вопрос «Какие требования к вентиляции?» — полнотекстовый ищет слово «вентиляция». Векторный находит разделы про «воздухообмен», «проветривание», «системы подачи воздуха» — даже без слова «вентиляция».
Этап 4: Настройка алгоритма и первые тесты
Продукт — нормативная база в векторном формате плюс алгоритм поиска и генерации ответа. Используем ChatGPT-4.1 в связке с векторной базой.
Пользователь задаёт вопрос: «Какая минимальная толщина утеплителя для дома в Московской области?»
Система нормализует вопрос — ChatGPT превращает разговорный запрос в поисковый: «требования толщина теплоизоляция жилые здания климатическая зона Московская область». Выполняется поиск в векторной базе, система находит топ-10 релевантных чанков.
Найденные чанки подаются в ChatGPT вместе с детальной инструкцией — несколько страниц правил: как формировать ответ, как цитировать источники, что делать при противоречиях. Если информации нет — модель пишет «В предоставленных документах нет данных». Не додумывает, не фантазирует.
Ответ генерируется в трёх вариантах: короткий, средний, экспертный (до 12 000 символов).

Первый закрытый тест превзошёл ожидания. Дал доступ знакомому инженеру Сергею (не путать с программистом). Он задавал профессиональные вопросы про фундаменты.
Выявилась проблема: не хватало контекста для учёта СП 63 (про армирование). Три варианта решения: уточняющие вопросы от AI, принудительная инструкция на слово «армирование», увеличение объёма ответа.
Этап 5: Расширение базы и подготовка к релизу
База знаний росла очередями:
1-2 очередь (загружено): Основные must-have документы для ИЖС — 13 СП и несколько ГОСТов.
3 очередь: Загружается сейчас — следующая партия документов.
4 очередь: На этапе распознавания формул.
Проблемы: графические материалы (схемы, чертежи) временно не загружались — использовали только таблицы и формулы. Механизм автоматического отслеживания изменений в нормативах пока не внедрён.
Параллельно настраивали платёжную систему. Три тарифа: бесплатный, Standard, Pro.
Перед релизом начался ад с багами. Программист Сергей 4 суток подряд дописывал, переделывал, чинил баги, которые появлялись быстрее, чем кофе остывает.
31 декабря 2025 года запустили продукт в открытый доступ.
Этап 6: Запуск и первые клиенты
Продукт вышел на рынок. Появились первые платные клиенты.
Ещё на стадии разработки нами заинтересовались национальные ассоциации, которые занимаются разработкой нормативной документации. Сейчас ведём работу в двух направлениях: упростить процесс работы с нормативной базой для участников рынка и выявлять ошибки в самой документации.
Параллельно веду переговоры с образовательными организациями, которые занимаются обучением и переквалификацией строителей. Готовим совместные продукты и проводим тесты с фокус-группой.
За полгода работы над проектом выработал режим: с 8 утра до 2-3 ночи. Постоянно что-то придумываю, разрабатываю, тестирую. С одной стороны, весело — создаёшь новое. С другой — понимаю, что могу выгореть.
Инструменты и технологии
Для работы с AI:
ChatGPT-4.1 — генерация ответов на основе найденной информации, нормализация запросов. Стоимость одного запроса в нашей системе — в десятки раз выше обычного запроса к OpenAI API: каждый запрос включает поиск по векторной базе и передачу большого контекста.
OpenAI text-embedding-3-large — модель для векторизации текста
Для разработки:
Векторная база данных Qdrant — хранит смысловые фрагменты документов
Хостинг FirstVDS
Node.js и TypeScript — основной стек. Python — для отдельных модулей
LaTeX — формат для математических формул
Архитектурное решение: Почти всё написано с нуля — не использовали готовые RAG-фреймворки. Единственная внешняя библиотека — openai для работы с API, но и без неё можем работать напрямую.
Планы
Роли пользователей (частный застройщик, специалист стройконтроля, прораб) — разная структура вывода и настройки поиска
«Знания модели» отключаемые — чтобы пользователь получал только цитаты без интерпретации
API для интеграции со сторонним ПО
Переключение типа строительства (ИЖС / МКД)
Расширение векторной базы
Эксперименты по улучшению качества поиска
Автоматизация обновлений базы документов
Информирование пользователей о версии документов и наличии обновлений
В телеграм-канале я выложили схему сравнения ChatGPT и RAG-архитектуры. Подпишись, чтобы не пропустить новые статьи!
