Как стать автором
Обновить

Способны ли нейросети реконструировать древние языки?

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров1.3K

В настоящее время нейросети успешно используются для языкового перевода. По сравнению со старыми программами и онлайн переводчиками, прогресс на лицо. Алгоритмы демонстрируют более тонкое понимание речи, владение контекстом, они способны к стилизации.

И если с современными языками нейросети справляются довольно толково, возникает вопрос: как насчет древних? До сих пор работа с ними представляла существенное затруднение. Скажем, тот же Google Translate из рук вон плохо работает с латынью.

Между тем, лингвисты давно предпринимают попытки реконструкции еще более древних языков, к примеру — праиндоевропейского. Разумеется, подобные разработки имеют только гипотетический характер. Тем не менее сравнительное языкознание выработало алгоритмы, согласно которым язык можно «состарить», низведя его до определенной стадии развития.

Способны ли современные нейросети выполнить качественную реконструкцию архаичных языков? И как проверить ее достоверность? Для практического разрешения данных вопросов обратимся к сервису DeepSeek.

Рассматриваемая сеть довольно адекватно справляется с переводом отдельных слов на древние языки, причем аргументирует свой выбор. Но осилит ли она целый художественный текст?

Для примера я заставил ее перевести на праиндоевропейский, являющийся далеким предком нашего языка, четверостишие в эпическом духе:

Облака плывут по небесам
В белых стаях мчатся души павших
Это — воинства былых веков
По земле их слава ходит в песнях

Для проверки я выполняю обратный перевод на современный русский этим же сервисом (начиная новый чат). Стоит сказать, сразу качественный перевод не получается. Четверостишие целиком программа грамотно обработать не может, местами начинается плетение галиматьи. Нейросеть напоминает школьника, которого вызывали к доске с недоученным уроком: знает он или не знает, но не молчит — лишь бы что-нибудь сказать! И души усопших превращаются в коней, а в последней строке появляются коровы.

Гораздо лучший результат дает построчный перевод с адаптированного текста. Некоторые слова, в ущерб поэтичности, стоит заменить на более конкретные: «павшие» — «мертвые», «воинства» — «воины». После некоторых корректировок и уточнений, сеть все-таки сотворила нечто похожее на поэзию:

Nébʰōs wéǵʰont h₂upér dyḗm
H₁weydʰéntes h₂éli-bʰis h₃réh₁onti mrtwós menes-és
Tód ésti wīrós weǵʰóntes yewésom
Ḱléwos téysom wéǵʰetai dhéǵʰōm gʷr̥Hwéh₁su

Читать тексты в такой записи с непривычки тяжело, хотя она наиболее точно передает их предполагаемую фонетику. Главные проблемы доставляют незнакомые нашим современникам ларингальные звуки h₁, h₂, h₃. DeepSeek поясняет, что звучат они следующим образом: h₁ — как английское [h] в «house» или гортанная смычка [ʔ], h₂ — глухой фарингальный фрикатив [ħ] или увулярный [χ] (как русское «х» в «хорошо»), h3 — звонкий фарингальный [ʕ], как арабское «ع» в «عَين» [ʕajn] (добавлю: по другой версии, этот звук напоминает что-то среднее между звучанием «р» и «г», как у французского «r»).

Ради удобства пользователей, сервис готов предоставить частичную или полную транслитерацию на кириллицу:

Не́бʰос ве́гʰонт h₂упе́р дье́м
H₁вейдʰе́нтес h₂е́ли-бʰис h₃ре́h₁онти мртво́с мене́с-е́с
То́д е́сти ви́рос вегʰо́нтес йеве́сом
Ќле́вос те́йсом ве́гʰетаи дхе́гʰом гʷр̥Hве́h₁су

Так уже понятнее, ярче вырисовываются параллели с русским языком (не́бʰос — облако, небо; мртво́с — мертвых, то́д е́сти — то есть). Но для большей простоты восприятия DeepSeek готов пойти еще дальше, обозначив ларингалы русскими буквами, насколько это возможно:

Не́бхос ве́гхонт хаупе́р дьем
Хвейдхе́нтес хае́ли-бхис хре́хонти мртво́с мене́с-е́с
Тод эсти ви́рос вегхо́нтес йеве́сом
Кле́вос те́йсом ве́гхетаи дхе́гхом гурхве́хсу

Впрочем, такой текст может ввести в заблуждение обилием букв «х», которые наш соотечественник стремиться прочесть, как привычный ему звук, отчего поэзия получается не слишком благозвучной. В действительности же звук h₁ скорее имел характер легкого придыхания. Буквы с призвуком вроде bʰ также не должны заставлять читателя излишне налегать на «х» (послушайте, как индусы произносят «Bhagavad Gītā»).

Жду поры, когда нейросети научатся грамотно озвучивать подобные творения. Пока для представления о возможном звучании речи пращуров лучше послушать профессиональное чтение «басни Шлейхера» (Schleicher’s fable) или искусственно состаренного фрагмента из вед, известного как «Царь и Бог» (лично для меня их язык звучит довольно приятно, и кажется не чуждым носителю русского).

Несмотря на ошибки и условность реконструкции, обнадеживают многие способности, которые нейросеть демонстрирует уже сейчас. Она хорошо отличает поэзию от прозы, умеет работать с ритмом, и даже пытается имитировать древнее мышление, подбирая метафоры, соответствующие кругозору архаичного человека. DeepSeek подробно поясняет выбор слов, ее умозаключения можно проверить по классическим словарям и базам данных праиндоевропейской лексики.

И все же представленный перевод далеко не безупречен. Кажется, что облака почему-то плывут «над небом» (h₂upér dyḗm — первое слово тождественно приставке «гипер-», второе породило наше «диво»). Допустим, здесь скрыт намек на то, что небо считали твердью. Но почему бы тогда облакам не плыть «под твердью»? Видимо, сеть хотела изобразить что-то вроде «в вышине небес», но получилось неоднозначно. Впрочем, сервис легко перестроит фразу, если его об этом попросить, указав на неточность.

Проблемы возникли и с «воинствами». Сперва алгоритмы упорно переводили это понятие как h₃réyǵes — «цари» (отсюда — латинское rex и популярная кличка собак). Ясно, что воинства ведутся правителями, но не только же души владык достойны вечной славы! Наконец, удалось добиться появления слова wīrós — «мужи». Пожалуй, в праиндоевропейском обществе понятия «мужчина» и «воин» были практически тождественны, оставим так, хотя можно добиваться и дальнейшего уточнения.

К тому же, сеть делает банальные ошибки типа опечаток, порой смешивает латиницу с кириллицей, превратно толкует свои же реконструкции. Словом, за ней нужен глаз да глаз. Пока доверять машинному разуму не стоит.

Для понимания логики реконструкции, представим оправдания нейросети за свое творчество для второй строки «H₁weydʰéntes h₂éli-bʰis h₃réh₁onti mrtwós menes-és»:

  • h₁weydʰéntes — «белые» (ном. мн. от h₁weydʰ-, ср. англ. «white»)

  • h₂éli-bʰis — «стаями» (инструм. мн. от h₂él-i-). Сомнительная реконструкция, обратный перевод дает «масло» или «жир». Возможно, сбивает с толку ассоциация со стадами скота.

  • h₃réh₁onti — «мчатся» (3 л. мн. наст. от h₃reh₁— «бежать», ср. «река», а также, через греч. — «энергия»).

  • mrtwós — «мёртвых» (ген. мн. от mer- — «умирать»)

  • menes-és — «умов/душ» (ср. рус. «память», греч. «μένος», англ. «mind»)

Изначально в качестве обозначения душ сервис предлагал h₁nértōm (от *h₁ner- «мужчина/дух»). В оправдание машины можно предположить, что здесь душа ассоциируется с силой воли, мужеством (что поделать, патриархальные следы в индоевропейских языках неизгладимы). Но я предпочел бы видеть в качестве обозначения души другое слово, привычно связанное с дыханием или ветром, как во многих родственных нашему языках. Повторный запрос дает альтернативную конструкцию: h₁lewk-ésu h₂ówibʰos h₃érǵʰonti h₁néh₁mn̥s h₃engʷʰ-ōm, где h₁lewk- — «белый, светлый» (ср. лат. lūx, др.-греч. λευκός), h₁néh₁mn̥- — «дыхание, душа» (ср. др.-греч. ἄνεμος — «ветер», лат. anima — «душа»).

Быть может, профессиональные лингвисты сочтут, что подобные игры с нейросетями — пустая забава. Конечно, нельзя поручиться за правильность составленных ими грамматических и фонетических форм. Но стоит учесть, что они развиваются, и очень быстро. И если сейчас функция реконструкции палеоязыков находится лишь в зачаточном состоянии, не исключено, что со временем этот процесс будет эффективнее выполняться натренированной нейросетью, нежели человеком, сколь бы грамотным тот ни был.

Остается еще главный вопрос: «Зачем»? Какова ценность давно вымершего языка, не способного в полной мере передать реалии современного мира? Конечно, в академической науке многое делается без перспективы немедленного выхода на практику. Но рано или поздно, даже самые оторванные от насущных потреб открытия могут пригодиться. Что же касается восстановления древних языков, это направление открывает интересные перспективы обогащения культуры.

К сожалению, мы утратили словесную культуру далеких предков из-за того, что они не владели письменностью. Восстановить ее пытались, начиная с позапрошлого столетия, с помощью сравнительной лингвистики и выявления общих мотивов более поздней мифологии индоевропейских народов. И в общих чертах удалось наметить специфику древней культуры, ставшей прародительницей, в том числе, и русского словесного искусства. Возможно, с помощью нейросетей задача восстановления утраченного наследия будет решена еще более успешно. И наши соотечественники смогут получить хотя бы некоторое представление о том, как звучали песни предков русского народа задолго до написания «Слова о полку Игореве».

Также стоит упомянуть современный проект по возрождению индоевропейского языка в качестве средства международного общения. Пока он не пользуется особой популярностью, и я скептически оцениваю его перспективы (как и любого другого искусственного языка в рамках глобализационных проектов). И, тем не менее, не лишним будет напомнить, что многие народы Евразии являются родственными, и в плане культурного наследия у нас немало общего.

Подобный контент способен заинтересовать и современных реконструкторов, детально воссоздающих образ жизни и мысли былых веков. Таким способом можно разрабатывать близкие к аутентичным обрядовые формулы и эпические сказания. Пусть нейросеть подскажет энтузиастам, какие заклинания подобает творить перед истуканами, будь то гипотетические «Дйе́ус пh₂те́р» — небо-отец, или «Матер дʰéгōм» — мать (сыра) земля (только, играя в жрецов, не стоит заигрываться до восстановления жертвенных практик и усердствовать с питьем забродившего ме́дʰу). Быть может, кто-то пожелает взять на себя роль далекого предшественника «Бояна вещего», и, вооружившись рогатиной с натянутыми жилами в качестве лиры, воспоет борьбу бога-громовержца с хтоническим змеем (вспомним герб Москвы).

И если речь бронзового века наш современник вряд ли поймет «на лету», то древнерусский и даже поздний праславянский во многом вполне ясны. Так почему бы не снимать, для полного погружения в атмосферу, фильмы о Святой (и языческой) Руси на аутентичном языке, без нелепых анахронизмов? То же касается и литературы.

Продолжив эксперименты, посмотрим, как звучала бы на праиндоевропейском языке, в представлении сети DeepSeek, песня «Черный ворон». Она считается не народной, а авторской: легший в ее основу текст опубликовал в XIX в. унтер-офицер царской армии Николай Верёвкин. Но в ней отчетливо выступают архаичные мифологические мотивы: образ вещей птицы, связанной с царством мертвых, метафора смерти, как брачного союза. Итак, встречайте: «Черный ворон» образца третьего тысячелетия до нашей эры:

Kr̥snós kórwos
Wértesi kʷíd
Képh₂eloy moy h₁upéri
H₁édmi né gʷéh₃se
Né smé téysos, kr̥sné kórwe

...

 Кр̥сно́с ко́рвос
Ве́ртеси кʷи́д
Ке́пʰ₂елои мои һ₁упе́ри
һ₁е́дми не́ гʷе́һ₃се
Не́ сме́ те́йсос, кр̥сне́ ко́рве

...

 Керсно́с ко́рвос
Ве́ртеси куи́д
Ке́фалои мой хупе́ри
Хе́дми не гве́хсе
Не сме те́йсос, керсне́ ко́рве

Попробуйте спеть результат на знакомый мотив, оцените, насколько нейросеть постаралась сохранить поэтическую ритмику. Подкачивает только сократившаяся третья строка: в этом переводе «ты добычи не дождешься» упростилось до «һ₁е́дми не́ гʷе́һ₃се», то есть, буквально «еды не получишь». «Вьешься» передано словом «ве́ртеси», то есть «вертишься».

Более того, данная нейросеть пытается продемонстрировать тонкое владение переходными формами языков разных эпох. Приведем последовательную трансформацию одной русской фразы по мере погружения вглубь времен:

  1. Современный: Из небесных туч льет на землю дождь.

  2. Древнерусский: Изъ небесныхъ тучь лье́ть на землю дождь.

  3. Праславянский (начало н.э.): Iz nebesьnъjixъ tǫčь lьjetь na zemlję dъždžь (Из небесьнъjихъ тѫчь льеть на землѧ дъжджь.). Как мы видим, пока изменений мало.

  4. Прабалтославянский (~1500–1000 гг. до н.э.): Iź debesīˀnāˀšu tan (t) šu līˀtei en zemīˀn dán (d) žā (Изь дебеси́на̄шу тан(т)шу ли́теи ен земи́н дан(д)жа̄). Примечательно появление «дебеси́-», напоминающего более позднее и достоверное «небеси».

  5. Праиндоевропейский (~2500–4000 лет до н.э): h₁nébʰes-ōs h₂wélh₁-n̥t-ih₂-su h₃érǵʰeti dʰéǵʰōm h₂eḱeh₂ (Хнебхесо́с хуэлхн̥тихсу хо́ргхети дхегхо́м хакье́ха). Здесь зачем-то сеть решила помудрить, передав дождь сомнительной метафорой от корня h₂eḱ – «острый, резкий» (ср. лат. acies «острие»). Происхождение же нашего слова «дождь» машина трактует как dʰus-dyu-, буквально: «плохое небо».

  6. Праностратический (~15 000–10 000 лет до н.э.): ŋaɢa ʔuɬi-ŋV k’ʷeɬi ʔeja ʦ’ɨbu ɢaŋa (Нгага ухли-н(ъ/ь) кве́ли эя цъибу ганга).

  7. Бореальный (~20 000–15 000 лет до н.э.): ŋaʁ ʟ̝̊u-ŋǝ kʷʰel ʔe t’ǝp ʁaŋ (Нгах лху-нъ кхвел е тэп хан). Данная реконструкция подозрительно напоминает «р'льехский язык» монстров Лавкрафта. Неужели так мог досадливо восклицать, натягивая на голову звериную шкуру, промокающий под ливнем первобытный житель Евразии?

Так мы добрались до каменного века. Притом, что попытки реконструкции праностратического и бореального языка имеют совершенно условный и спорный характер. Некоторые лингвисты даже предостерегали от столь амбициозных задач, ибо они ведут на зыбкую почву. Но, как уже было сказано, ученик у доски не молчит, а пытается наплести хоть что-то «на авось».

При углублении в палеолит, нейросеть старается имитировать ограниченность мышления и речи наших далеких предков, выдавая простейшие фразы, а также довольно грубые метафоры и слова с широким смыслом. Так, дождь в последней реконструкции приравнивается к воде, тучи не отличаются от прочих облаков.

Задумывались ли создатели нейросетей широкого профиля о том, что с их помощью будут писать стихи на вымерших языках? Но даже если такой продукт демонстрирует попытки обоснованного решения задач лингвистической реконструкции, стоит полагать, что специфически разработанные для этой цели инструменты могут стать хорошим подспорьем в работе языковедов.

Теги:
Хабы:
+5
Комментарии16

Публикации

Работа

Data Scientist
49 вакансий

Ближайшие события