Гений против алгоритма: почему ИИ не способен повторить «Войну и мир» / Habr

Нейросети стремительно обучаются и при грамотном запросе могут генерировать достаточно качественный литературный контент.

Вопрос: «Может ли ИИ превзойти Льва Толстого и самостоятельно написать шедевр, подобный "Войне и миру"?» В обозримом будущем ответ: «Нет!»

Конечно, шанс, что ИИ напишет лучше Толстого, есть, но равен 0,0001%. Это символическая вероятность — технически возможно, но практически нереально по ряду причин. Давайте разберёмся, почему даже самый продвинутый алгоритм уступает Льву Николаевичу.

Проблема «души»

ИИ сможет имитировать стиль, но не повторит «муки творчества». Толстой переписывал роман восемь раз. Отдельные эпизоды редактировались более 20-ти раз. За каждой фразой — личный опыт, участие в Крымской войне, любовные драмы, размышления о жизни и смерти. Толстой тщательно изучал исторические документы, научные труды и мемуары современников.

Даже если нейросеть прочитает все дневники Толстого, то всё равно не сможет передать всю глубину переживаний.

У Льва Толстого тонкое понимание природы человеческой душ. У нейросети — шаблоны и алгоритмы, отсутствие эмоций. Если нет подробного промпта, модель просто повторит стиль, комбинируя клише.

К примеру, задание: «Напишите кратко сцену, где Наташа Ростова впервые танцует на балу».

ChatGPT:

«На фоне мерцающих свечей, окружённая восхищёнными взглядами и шёпотом изысканной аристократии, Наташа впервые взяла партнёра и, робко улыбаясь, сделала первый шаг в танце, ощущая, что бал — это не просто светский ритуал, а начало чего-то прекрасного и нового».

Лев Толстой:

«Наташа танцевала превосходно. Ножки ё в бальных атласных башмачках быстро, легко и независимо от неё делали своё дело, а лицо её сияло восторгом счастия».

Ограничения контекста

ИИ обрабатывает тексты блоками. Если контекст превышает определённое количество токенов, то модель «теряет нить» рассуждений. Когда диалог слишком длинный, ранние реплики «вытесняются» из памяти.

Сколько информации помнит ИИ-модель? Ниже приведены размеры контекста ведущих генеративных моделей.

ChatGPT-4 (OpenAI) — до 32К токенов в планах Plus и Team, до 128К токенов в плане Enterprise;
Gemini 2.5 (Google) — заявлено 1М токенов (рекордное значение, но реальная эффективность ниже ~ 500K);
DeepSeek — до 128К токенов;
Claude 3 (Anthropic) — до 200К токенов;
YandexGPT (Яндекс) — до 32К токенов;
GigaChat (Сбербанк) — до 32К токенов.

128K токенов — это примерно 300–350 страниц текста. Но, как правило, языковые модели забывают, с чего начинали, уже к сотой странице. А если в контексте много взаимосвязанных деталей, то из-за сложности запроса модель может ещё и раньше запутаться.

«Война и мир» — это 570 действующих лиц (главных и второстепенных). Реальные события переплетены с вымышленными сюжетами. Все философские отступления логически связаны с основной линией.

Доля диалогов в романе составляет 28%.

На сайте библиотеки «КулЛиб» представлен лингвистический анализ романа «Война и мир».

В оригинале на русском языке роман содержит 466 038 слов. Посчитаем, сколько это будет в токенах. Для начала определим среднее количество токенов на одно слово. Для этого рандомно выберем три главы романа и с помощью Token Calculator определим количество слов и токенов.

Том второй. Часть третья. Глава II

Том третий. Часть первая. Глава XX

Эпилог. Часть первая. Глава IX

Глава в романе	Том второй. Часть третья. Глава II	Том третий. Часть первая. Глава XX	Эпилог. Часть первая. Глава IX
Количество слов	831	1902	1767
Количество токенов	2542	5529	5237
Количество токенов на одно слово	3,06	2,91	2,96

(3,06 + 2,91 + 2,96) / 3 = 2,98

Принимаем, что в романе среднее количество токенов на одно слово — 2,98.

Чтобы написать идентичное произведение, ИИ потребуется:

466 038 слов × 2,98 токена = 1388793 ≈ 1 389К токенов.

При таком объёме придётся многократно «якорить» модель через промпты, управляя вниманием. При этом следует учитывать, что слишком жёсткие ограничения снижают качество генерации. Текст может получиться сухим и неестественным.

Далее определим, сколько раз (минимально) потребуется напоминать модели ключевые моменты. То есть сколько раз человеку нужно вмешаться в творческий процесс создания шедевра искусственным интеллектом.

Генеративная модель	Заявленный лимит токенов	Количество напоминаний
ChatGPT-4	128К	11
Gemini 2.5	1000К (300К)	1 (5)
DeepSeek	128К	11
Claude 3	200К	7
YandexGPT	32К	43
GigaChat	32К	43

Выше шансы у Gemini 2.5. Но в реальности эта модель корректно выдерживает не более 300К токенов.

В сверхдлинных контекстах модели могут «галлюцинировать» деталями, терять второстепенных персонажей, «забывать» события из предыдущих контекстов. Потребуется внешняя память (векторные базы), чтобы модель смогла «подглядывать» в заранее подготовленные описания сцен. То есть необходимо ручное управление контекстом.

Уникальность слов

Известная проблема генеративных моделей — повторы слов и фраз. Это происходит из-за особенностей архитектуры и процесса генерации текста. ИИ предсказывает следующее слово на основе вероятностей. Но иногда модель «зацикливается» на одном варианте, если он кажется ей наиболее вероятным в данном контексте.

Если в обучающих данных были повторы (например, диалоги с повторяющимися фразами), то модель также может копировать эту манеру.

Ещё одна особенность — смещение в сторону «безопасных» вариантов. Когда модель не уверена, она выбирает «надёжные» слова, которые уже использовались ранее.

В коротких текстах (до 200 слов) повторения редкие. Но в длинных текстах (1000+ слов) ИИ-модели начинают «циклиться». Средняя повторяемость в зависимости от настроек — 15%. Но может доходить и до 30%.

Редактирование текста человеком снижает повторения примерно на 5%. Но рассматривается вопрос о том, сможет ли ИИ самостоятельно превзойти великое творение.

В романе Толстого 51 572 уникальных слова. Это десятая часть романа. Если точнее, то 11,07% всех слов.

Вывод

На данный момент ИИ-модели технически не в состоянии создавать произведения масштаба «Войны и мира». Даже самые продвинутые генеративные модели не смогут удерживать в памяти столько контекста, сколько требуется для подобного романа.

Модели обрабатывают текст частями, а значит, не способны осмыслить произведение как единое целое с его сложной структурой, переплетением судеб и философскими отступлениями. Текст получится фрагментарным, без единой логики.

Нейросети склонны к шаблонным рассуждениям, и роман рискует превратиться в псевдоинтеллектуальную «воду» без глубины.

Неспособность ИИ-моделей передавать тонкие психологические нюансы делает диалоги персонажей неестественными. Повторяются клише и заезженные сюжеты.

В итоге потребуется много ручного редактирования и постоянный контроль. Без активного участия человека создать полноценную книгу с проработанным сюжетом нейросеть пока не в состоянии.

А что ИИ всё-таки сможет сделать

Написать пародию на «Войну и мир».
Добавить фрагменты в том же стиле (но, это будет всего лишь стилизация, а не шедевр).
Анализировать текст романа по определённому запросу.

ИИ — это инструмент, сила которого в скорости и масштабе, а слабость — в отсутствии глубокого понимания контекста. Так что будущее, вероятнее всего, за симбиозом: человек творит, а ИИ помогает.

Гений против алгоритма: почему ИИ не способен повторить «Войну и мир»

{{ titleHtml }}

{{ titleHtml }}