900 млн юзеров, одна база данных: как устроен бэкенд ChatGPT / Хабр

OpenAI опубликовали технический блог о том, как PostgreSQL обслуживает ChatGPT — сервис с 800-900 миллионами активных пользователей в неделю. Главная неожиданность: компания обходится без шардирования, используя архитектуру с одним основным сервером и примерно 50 репликами для чтения.

Инженер OpenAI Бохан Чжан представил детали на конференции PGConf.Dev 2025. По его словам, кластер обрабатывает более миллиона запросов в секунду, обеспечивая время отклика в низкие двузначные миллисекунды на 99-м перцентиле. Все это — на стандартном PostgreSQL без кастомных модификаций, только с грамотной настройкой пулинга соединений, оптимизацией запросов и продуманной индексацией.

Узкое место архитектуры — запись. Все операции записи идут в единственный основной сервер, поэтому команда жестко оптимизирует эту часть: выносят записи куда возможно, сглаживают пики через отложенную запись, контролируют скорость массовой загрузки данных. Изменения схемы тоже под строгим контролем — добавление колонок только с таймаутом 5 секунд, индексы исключительно через CONCURRENTLY, никаких операций с перезаписью таблицы.

Чтение масштабируется проще — реплики распределены по разным регионам, а трафик разделен по приоритетам: для критичных запросов выделены отдельные реплики, чтобы их не тормозили тяжелые аналитические выборки. Результат — за последние девять месяцев только один серьезный инцидент, связанный с PostgreSQL.

Подход OpenAI идёт вразрез с трендом на распределенные базы данных. Шардирование упрощает масштабирование записи, но усложняет все остальное: поиск данных, миграции, бэкапы. В OpenAI решили, что для нагрузки ChatGPT с преобладанием чтения выжать максимум из одного кластера — разумнее, чем городить распределенную архитектуру.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

900 млн юзеров, одна база данных: как устроен бэкенд ChatGPT

Другие новости

Ближайшие события