Иллюстрация к стихотворению для перевода, сгенерированная ИИ-сервисом Google Gemini
Иллюстрация к стихотворению для перевода, сгенерированная ИИ-сервисом Google Gemini

Ранее я уже выкладывал здесь посты о переводе моих стихотворений на праиндоевропейский с помощью пользовательского чат-бота Déiwos-Lókwos GPT на базе ChatGPT. Его создал один из пользователей соцсети Reddit – но у меня пока нет информации ни о настоящем имени создателя, ни о подробных технических характеристиках бота и объёме его кастомизации, что придаёт работе с чат-ботом оттенок онлайн-диггерства.

В первой заметке я сделал "пробу пера" – и уже тогда отметил определённые характерные недочёты, такие как игнорирование социокультурного контекста, в котором существовал праязык. Во второй заметке я попросил чат-бота перевести ещё одно моё стихотворение – и разобрал более фундаментальные ошибки, такие как "ложная агглютинация" (она оказалась частым явлением!) и галлюцинации. Но настало время сравнить кастомизированную версию ChatGPT с другими нейросетями. Может, они справятся лучше? А значит, нужно перевести третье стихотворение – вновь моего сочинения, само собой))

Вот, кстати, и оно:

Ты, я и Дождь

На улице давно стемнело,
Я жду, а ты меня не ждешь.
У дома твоего бессменный
Мой серый собеседник Дождь.

Он, Дождь, меня не мочит, к счастью,
Загнав под старый шумный клён.
Вдруг чует родственную душу?
Возможно, он, как я, влюблён...

Бьёт по карнизам и фасадам
Оркестр капелек дождя,
Играет с грустью серенаду,
В ночи по лужам шелестя.

Он нежной дождевой пастелью
Размыл все в городе огни,
Асфальт раскрасил акварелью,
Так повествуя о любви...

Надрывно плача в водостоке,
Он с рёвом рвётся в сточный люк.
Чем мучится он так жестоко?
Как я, страдает от разлук?

И я скучаю и тоскую -
Ведь жду как будто целый век...
Готов я выразиться так же -
Но я не дождь, а человек...

В десятый раз я жму на кнопки -
Но домофон опять молчит.
Лишь шепчет Дождь в весенних листьях,
А свет в твоём окне горит.

Дождь, не стихая, с прежней силой
Из тёмной выси льёт и льёт
И не уходит, будто тоже
Кого-то он упорно ждёт.

Жасмина и сирени запах
Разнёс с собой романтик-Дождь...
В такт стуку капель бьётся сердце -
Ведь ты из тьмы ко мне идёшь!

Подходишь, мокрая до нитки,
И говоришь: "Пойдём ко мне!
Забыла я, за хлебом выйдя,
Свет погасить в своём окне".

...Сидим мы у тебя на кухне,
С тобой уютно и тепло,
Вот и бродяга-Дождь, проказник,
О наше греется окно.

И кто же уведёт тот Дождик
С промокших улиц за собой?
И кто заставит улыбнуться
Широкой радугой-дугой?

Но это всё случится ночью,
Оставшись неизвестным мне:
Сейчас ведь мы заснём в обнимку
И не погасим свет в окне.

Ты спишь уже, я засыпаю,
Но задаюсь вопросом всё ж:
Кого же любит в этом мире
Наш серый собеседник Дождь?

Для перевода я предложил его уже упоминавшемуся Déiwos-Lókwos GPT, а также сервисам Perplexity, Google Gemini и Consensus. Интересно, кто же справится лучше?

Часть 1, в которой нейросети галлюцинируют опять

Начну с плохой новости: нейронная сеть Consensus, специально "заточенная" под научные обзоры, вообще отказалась переводить текст. Хотя её перевод мог бы быть самым достоверным – но на то он и narrow AI, что пока не AGI. А Perplexity, тоже часто используемая в научных задачах, выдала перевод с таким количество галлюцинаций, что я постеснялся его здесь приводить. Приведу только цитаты из него – для сравнения с переводом Déiwos-Lókwos GPT. В том, кстати, галлюцинаций тоже как изюма в кексе, но всё-таки поменьше.

Вот этот перевод – с "подстрочником" к каждому четверостишию. Постредактура минимальная – чтобы звучало постройнее, но чтобы и ошибки чатбота были видны.

Nókʷts h₁ésti; dʰwérsu stéh₂mi.
Túh₂ mé ne spéḱesi.
Pr̥h₂i tóweyo dómos
móy wódr̥ h₁éǵros wéḱweti.


Ночь наступила; я стою у дверей.
Ты не ищешь меня.
Перед твоим домом
дикая вода (дождь) разговаривает со мной.

Sá wódr̥ mé ne pléweti,
h₁léudhro k̑léu̯nóm h₁órnom ud nódh₁e.
H₁ésmi sélbhā dusmós?
Wódr̥ api mé h₁léubh̥eti.


Дождь не мочит меня,
заставляя укрыться под старым шумным клёном.
Может быть, он чувствует родственную душу?
Возможно, дождь любит так же, как и я.

Tód kʷepeti kórnūbh yos gʷr̥hóm,
h₁órdʰom wódr̥-dʰéǵʰōm.
Lúgubrom serénadom gʷr̥h₁eti
nókʷti pléwons ud wódr̥bhis.


Он бьет по крышам и стенам —
армия капель дождя.
Он играет печальную песню
ночью среди луж.
Mléh₁dhrom wódr̥-péln̥tom
nókʷti dʰégʷhom wéḱeti.
Ápōn wéǵeti gléh₁yos
léubhās wéḱweti.

С мягкими водяными красками
он приглушает свет земли.
Дороги сияют влажным блеском,
таким образом он говорит о любви.

Rúdʰeti ud wódr̥-pótis
dʰugh₂tḗr h₂epóm.
Kís wéyeti tód h₁éǵrom?
Api mé wídr̥ti h₁éǵros.

Он плачет в водотоках,
дитя вод.
Что мучает дикий дождь?
Возможно, он страдает от разлуки, как и я.
H₁éǵh₂ gʷr̥h₁éyō h₁léubhō
déḱm̥ h₁éyōs wéyō.
Wékwōm wéyō:
h₁éǵh₂ ne wódr̥ — h₁nḗr h₁ésmi.

Я тоскую и скорблю,
словно жду десять жизней.
Я мог бы говорить [как дождь],
но я не дождь, я человек

Dómos kʷekʷlómi wékwōm,
dʰwérs ne wéḱweti.
Kʷe wódr̥ súsurti
h₂ébl̥su wésr̥yo.
Tóweyo wéndʰnom bhéh₂gʷeti.


Я снова и снова звоню в дом,
но дверь не отвечает.
Только дождь шепчет
в весенних листьях,
и свет горит в твоем окне

Wódr̥ ne stéh₂ti;
ud n̥dʰéǵʰom pléweti.
Ne gʷémti —
méybhyo kʷis wéyeti.


Дождь не останавливается;
из темного неба льется.
Он не уходит —
возможно, он тоже кого-то ждет.

Gʷr̥nós h₂ésminos
smérti wódr̥ wéǵeti.
H₁ḗrtor mé bʰeweti
kʷód túh₂ tmosébhyo gʷémesi.


Дождь несет
аромат цветов.
Мое сердце бьется,
потому что ты идешь ко мне из темноты.

Túh₂ gʷémesi, wódr̥-pléwā,
wékwesi:
“Gʷem wéyom dómos!
Léwk̑om ne h₁éstom
mémori".


Ты приходишь промокшая от дождя
и говоришь:
«Иди ко мне домой!
Я забыла
погасить свет.”›

Sédwos wésmos
tóweyi kókʷye.
H₁léudhrom esti.
Api wódr̥-wégʷos
gnéh₁ti h₁n̥gʷnóm wéndʰnom.


Мы сидим в твоей кухне.
Здесь тепло и уютно.
Даже блуждающий дождь
согревается
у нашего окна

Kós wódr̥ wéǵeti
pléwā dʰéǵʰm̥?
Kós sméh₂yeti tód
mégʰā wédr̥?

Кто уведет дождь прочь с улиц? Кто заставит его улыбнуться великолепной радугой

Tód nókʷti bhéweti.
H₁éǵh₂ ne wéidm̥.
Nú swépwos
h₁n̥gʷnós sédwos
léwk̑om ne gʷʰnéyom.


Это произойдет ночью.
Я не буду об этом знать.
А пока мы спим,
обнимая друг друга,
и не гасим свет.

Túh₂ swépesi;
h₁éǵh₂ api swépō.
Méy kʷis spéḱe:
kóm h₁léubh̥eti wódr̥
dʰéǵʰmi?

Ты спишь;
Я тоже засыпаю.
Но мне интересно:
кого же любит дождь
на земле?

Самые яркие галлюцинации модели – это прежде всего подстановка транслитерации русских/английских слов там, где подобная форма не реконструируется. Здесь яркие примеры – это serénadom и h₂ésminos. Вероятно, к ним же относится wéndʰnom – от английского window (окно). Но, к чести бота на основе ChatGPT, у него таких эксцессов немного. Для сравнения, Perplexity нагородила следующий список:

  • orkʰestros

  • sḗrinádhom (да, опять, только транслитерация другая)

  • péstelā

  • ákweléh₂

  • ásh̥ltom

  • knóphḱeh₂

  • domofónos

  • yásminéh₂ (да, опять он)

  • sirénéh₂ (и она до кучи, чего мелочиться-то?)

  • wétus-dó-nítḱeh₂ (выражение "до нитки" списано целиком, при том, что в праиндоевропейском слово для "нити" было)

  • r̥dh̥wéh₂dúǵʷʰéh₂ (с "радугой-дугой" аналогично)

Как можно заметить, в зону риска попадают понятия, которых не было в праиндоевропейском, но сделал в 5 раз меньше ошибок, неплохо обрабатывая технические термины. Например, "домофон" он просто обходит, заменяя его "звонком в дом". Праиндоевропейская фраза строится почти как английское I am calling the house, что звучит вполне аутентично и отражает наш способ говорить о телефонии и связи без сложных терминов. Точно так же "акварель" передаётся как "водяные краски" – что корректно в рамках праиндоевропейского, так как слово для "краски" в нём было.

В защиту обоих чат-ботов могу сказать, что в принципе коммуникативная ситуация перевода современного текста на давно вымерший язык – нестандартна. Она требует предположения (ну хотя бы в рамках мысленного эксперимента), что этот язык дожил до наших дней и сосуществует с нашими культурно-историческими реалиями. А раз так, то он мог бы заимствовать и "кнопки" и "домофон", и "жасмин", не говоря уже об "оркестре" с "серенадой". Однако то, что в подстрочнике h₂ésminos стыдливо прячется за "ароматом цветов", а sḗrinádhom за "грустной песней", заставляет думать именно об артефакте генерации.

Ещё один характерный дефект перевода – искажение облика праиндоевропейских корней и их "слияние", происходящее из фундаментального свойства нейросетей – разделения слов и предложений на токены статистически, а не семантически. Немного я уже говорил об этом в одной из предыдущих статей. Здесь примером такой ошибки являются строки

H₁ḗrtor mé bʰeweti

"Сердце моё бьётся"

Tód nókʷti bhéweti

"То ночью будет"

Почему два абсолютно разных глагола переданы фактически одинаково? Дело в том, что в праиндоевропейском они могли звучать похоже. Русский глагол "бить" происходит от корня *bʰei- примерно с тем же значением, а глагол "быть" – от корня *bʰuH, который реже реконструируют как *bʰew-. В предельном случае мы получаем два похожих корня, отличающиеся дифтонгом -ei- или -eu-. Для праиндоевропейцев это были абсолютно разные дифтонги – как русский не перепутает А и О. Но это для живого праиндоевропейца они выглядели как "придыхательный_согласный_1 + дифтонг_1" и "придыхательный_согласный_1 + дифтонг_2". А для нейросети это последовательности из 4 символов, которые различаются только последним символом.

Алгоритмы типа байт-парного кодировщика (byte-pair encoder, BPE), лежащие в основе современных LLM, в таком случае склонны выделять первые три символа в отдельный токен: ведь его статистический вес в корпусе выше, чем у обоих корней, в которые он входит. Вот и получается, что последний символ "отламывается" от корня и легко "перепутывается" при переводе.

Самый удачный перевод в плане отсутствия галлюцинаций получился у Gemini. Как ему это удалось? А он вообще не стал и пытаться переводить дословно, сделав своего рода "сжатое изложение" в исключительно праиндоевропейских категориях. И такая интерпретация нравится мне ещё больше! Судите сами))

Nókʷts gʷémt, h₁éǵoh₂ stéh₂mi,
Túh₂ né gʷémsi, ǵʰéh₂imi túm.
Dṓm-pótis n̥ebʰos-yós mē-met-i,
Wédōr n̥ebʰos-yóm, mōlyéti mē.

Ночь пришла, я стою,
Ты не приходишь, я жду тебя.
Хозяин дома (дождь) облачный со мной говорит,
Вода облачная страдает со мной.

Léubʰeti-ne h₁n̥gʷris, mē-kʷe gʷéh₂dʰeti?
Ḱḗr mē-si téd-yeti, dʰn̥gʷús-kʷe dʰǵʰémō.
Né h₁éǵoh₂ wédōr, dʰǵʰémō-h₁éǵoh₂,
Áty-eti wéid-os, wéid-mi léuk-om.

Любит ли дождь, со мной ли скорбит?
Сердце моё болит, и – мокрый человек.
Я не вода, я человек,
Уходит облик, вижу свет.

Túh₂ gʷémsi kʷé dʰn̥gʷús, dʰwṓr-m gʷéh₂-si,
“Gʷéh₂-dʰi dṓm-m mē”, wéuk-si dʰĝʰū-m.
Wéidme dṓmi, tépos-kʷe mēsi,
H₁n̥gʷris-kʷe mēsi h₃ókʷi bʰébʰāti.

Ты приходишь и мокрая к двери идешь,
«Иди в дом мой», – говоришь голосом.
Мы видимся в доме, и тепло мне,
И дождь мне в окно блестит.

Kʷóm léubʰeti h₁n̥gʷris, gʷréi-ti n̥ebʰos-yós?
Swépme póti-péri, léukom né-kʷe n̥négʷmi.
Nókʷts gʷémt, wédōr dʰn̥gʷ-é-ti,
Ḱḗr-kʷe mēsi, h₁éǵoh₂ túh₂-kʷe.

Кого любит дождь, что пахнет облаками?
Спим мы друг возле друга, свет не гасим.
Ночь пришла, вода увлажняет,
И сердце моё — я и ты.

В этом стихотворении из современных терминов, которые вызвали бы сложности у носителя праиндоевропейского, присутствует только "окно". Нейросеть просто заменяет его на "глаз" (h₃ókʷi), используя типологически частое решение: к праиндоевропейскому слову "глаз" (h₃ékʷs) восходят и русское "окно", и английское "window" (от скандинавского wind-auga "ветровой глаз"). В принципе, можно было на праиндоевропейском легко изобразить любую стратегию: и русскую с суффиксом -no- (*h₃ókʷ-no-m), и когнатную кальку с германской (*h₂weh₁n̥t-h₃ékʷs). Ну да ладно, и так сойдёт!

Ранее, кстати, читатели просили меня озвучивать свои реконструкции. Исправляюсь – Gemini свою генерацию озвучил! Озвучил не безупречно: например, он зачем-то произносит как [r] (на самом деле это такой же звук, как -gu- в латинском слове anguis (змея). Послушать озвучку можно на платформе Soundcloud.

Вопрос: а Gemini можно подловить на каком-нибудь характерном дефекте перевода на праиндоевропейский? Да – обратите внимание на слово nebʰos-yós – "облачный". Ничего не кажется странным?

Nebʰos – это "облако", с типичным праиндоевропейским окончанием существительных -os. А -yo- – это суффикс, образующий прилагательное от существительного. Значит, "облачный" или "небесный" звучало бы как nebʰ-yós, то есть суффикс соединялся бы с корнем напрямую. Нейросеть же делает сэндвич из морфем: сначала приделывает окончание существительного, потом к нему добавляет суффикс прилагательного, потом такое же окончание... просто потому что у существительных и прилагательных они часто совпадали. Это не имело смысла ни в логике праиндоевропейского, ни в логике любого из индоевропейских языков. Просто, как я уже писал выше, нейросеть делит слова и предложения на токены статистически. В данном случае она захватила nebʰ-os как один токен и прикрепила суффикс уже к нему. Ей без разницы, что там есть окончание. Это всё проявление той же фундаментальной ошибки – неспособности провести границы морфем, которую я только что разобрал на примере Déiwos-Lókwos GPT. Две нейросети, разный уровень качества сгенерированного текста, но одни и те же фундаментальные ошибки, проистекающие из одинакового принципа работы.

Часть 2, в которой не находится слова для дождя

Но вы спросите меня – а толку тогда от такого нейросетевого перевода, если он не позволяет качественно реконструировать слова? Смысл есть хотя бы в том, чтобы наглядно продемонстрировать логику языка и её изменение за 5000 лет.

Моё стихотворение написано о дожде. Дождь – один из главных героев, персонифицируемая стихия, с которой говорит лирический герой. Но обе нейросети – и ChatGPT, и Gemini – передают "дождь" иносказательно. В первом случае это "дикая вода", wódr̥ h₁éǵros. Во втором – wédōr n̥ebʰ-yóm, "облачная вода". Perplexity использовал более радикальное решение, заменив "дождь" на "снег" (snigʷʰs). И если в случае одной нейросети можно подумать о галлюцинации, то сходные ответы трёх ботов наводят на мысль, что не всё так просто.

Дело в том, что общеиндоевропейского слова для дождя действительно нет. Его не реконструируется – в разных ветвях у дождя своя этимология.

Почему так? Здесь возможны два сценария. Первый – такое слово было, но заменилось во всех или почти во всех ветвях. Но мне эта гипотеза представляется маловероятной. Вторая опция – более интересна и вероятна. Она заключается в том, что дождь не осознавался праиндоевропейцами как отдельный концепт и объект – поэтому и слова отдельного не требовал. И на самом деле первая опция частично может вытекать из второй: если слово было, но заменилось настолько массово, значит, оно не было важным. Язык и среда его не требовали. Слово для дождя было не нужно.

Нам это может показаться диким. Но причина – ровно так же самая, по которой для праиндоевропейского языка реконструируется только одно слово для снега (тот самый snigʷʰs), а в праэскимосско-алеутском реконструируется три слова для снега: *qaniɣ «падающий снег», *aniɣu «упавший снег» и *apun «снег на земле». Я намеренно не сравниваю современные состояния языков – так как такие сравнения порождают кучу мифов. А вот на праязыках тенденция видна яснее. И логика понятна: наполнение погодного лексикона диктуется внешней средой и типом хозяйствования. Если ты охотник-собиратель в Гренландии, тебе нужно много слов для снега. Если степной кочевник-скотовод – и одного хватит.

По той же причине, если ты степной кочевник-скотовод и не занимаешься земледелием, тебе слово для дождя особо не нужно. Плохую погоду можно описать и лаконичным pléweti (мочит, льёт) и mergʰeti (моросит). А общее название для дождя тебе особо и не надо, если ты не сеешь и не пашешь, и тебе не важно количество осадков. Тебе не нужен дождь как объект и слово для него.

Косвенно эту теорию подтверждает сравнительная мифология: у праиндоевропейцев не реконструируется бога-громовержца. Верховный бог праиндоевропейцев *Dyḗus ph₂tḗr – это просто бог ясного неба. Черты громовержца приобретают лишь его "потомки" – латинский Юпитер и греческий Зевс. Былто-славяне и германцы вообще приходят к идее громовержца другим путём. Вот 5000 лет назад бога грома в пантеоне не было – а пару тысяч лет спустя все к нему дружно и независимо пришли. Что же случилось? Ах да, переход к земледелию, точно же...

Это плохая новость для меня: в таком языке и такой картине мира практически невозможен персоницифированный Дождь как лирический герой. Если дождь настолько не осознаётся как объект, что даже не отражается в мифологии – сама идея персоницифировать его в стихе наткнётся на непонимание. И замена на "дикую воду" здесь – лишь паллиативное решение. Полный смысл теряется.

В предыдущем стихотворении, которое я переводил на праиндоевропейский, фигурировал поезд: то ли как аллегория воспоминаний героя, то ли как реальный поезд, идущий в тот город, где его больше не ждут и на который больше не имеет смысла садиться. И для "поезда" мне пришлось использовать неоиндоевропеизм douknom из проекта "Современный индоевропейский". Фокус в том, что любую техническую лексику объяснить гипотетическому попаданцу из прошлого куда проще: если бы я показал праиндоевропейцу поезд и назвал его douknom, мой собеседник удивился бы только безлошадной тяге. А так это douknom, естественно. Конечно, douknom. От корня *deuk- – вести за собой. Немецкое Zug устроено так же, да и праиндоевропейский корень в нём тот же. А вот попробуй теперь объяснить, что дождь – это отдельный концепт и его можно персонифицировать. Это будет куда сложнее.

Заключение, в котором я немножко рекламирую праиндоевропейский

Чем меня увлекает генерация праиндоевропейских текстов нейросетями? Тем, что она позволяет в пару кликов мышкой увидеть, как бы изменился мир в моих стихах за 5000 лет. Заметить изменения, которые иначе бы в голову не пришли. И увидеть, насколько язык такой давности не похож на наш..

Праиндоевропейский кажется мне вызовом именно потому, что в его корнях и морфологии угадывается и мой родной русский, и знакомый мне греческий, и изучавшаяся мной в университете латынь. Знакомые окончания и суффиксы, абсолютно понятные принципы склонения, спряжения и построения предложений. И в то же время – язык из абсолютно другого мира, имеющего мало общего с Древним Римом, Грецией и моей русскоязычной средой.

Это позволяет увидеть историю нашего мира за 5000 лет в чём-то даже чётче, чем многие учебники. Пока в Египте строили первые пирамиды, в Европе появилось понятие для дождя и возможность персонифицировать его в стихах. И лично я затрудняюсь сказать, что было большим переворотом в сознании и жизни. Тут бы впору вспомнить стихотворение Иллича-Свитыча о языке как броде через реку времени – но от ностратических намёков пока воздержимся. Об этом – в одной из следующих статей моего лингвоблога.

Изучайте праиндоевропейский. И пусть слова для любви находятся всегда, даже если не нашлось слова для дождя.