В МТИ нейросеть научилась расшифровывать забытые языки

    image

    В Массачусетском технологическом институте разработали нейросеть, которая поможет лингвистам расшифровать давно забытые языки.

    В мире насчитываются десятки мертвых языков, о лексике, грамматике и синтаксисе которых нет информации. На таких языках сохранилось совсем немного текстов, и обычным алгоритмам машинного перевода, к примеру, тем, которые использует Google Translate, этой информации недостаточно. У некоторых из них даже отсутствуют привычные разделители, такие как пробелы и знаки препинания.

    Однако исследователи из Лаборатории компьютерных наук и искусственного интеллекта (CSAIL) продемонстрировали систему, которая может автоматически расшифровывать утерянный язык, не требуя для этого глубоких знаний о нем самом и о его связи с другими языками. Более того, система может сама определять отношения между языками. Так, она подтвердила недавние исследования, предполагающие, что иберийский язык на самом деле не связан с баскским.

    Работа системы строится на базовых принципах лингвистики. К примеру, специалисты, которые изучали древние языки, делали вывод, что буква «p» в словах со временем может поменяться на «b». Алгоритм дешифрования учится встраивать звуки языка в многомерное пространство, где различия в произношении отражены как расстояние между соответствующими векторами. Возникают шаблоны изменения языка. Модель может сегментировать слова на древнем языке и сопоставлять их с аналогами на современном, родственном ему.

    image

    Алгоритм позволяет оценить близость между двумя языками; фактически, при тестировании на известных языках он может даже точно определять языковые семьи. Команда применила свой алгоритм к иберийскому языку с учетом возможной родственности с баскским, а также с менее вероятными кандидатами из романских, германских, тюркских и уральских семей. Хотя баскский и латынь были ближе к иберийскому, чем другие языки, они оказались слишком разными, чтобы считаться родственными.

    Подход с расшифровкой на основе родственных слов предполагается расширить. Он будет включать определение семантического значения слов. К примеру, в тексте можно идентифицировать все ссылки на людей или места, а затем изучить их в свете известных исторических свидетельств, чтобы распознать, какое значение имело то или иное отмеченное слово. Подход может применяться без каких-либо обучающих данных на исследуемом древнем языке.
    См. также:

    Комментарии 9

      +4

      Ну всё. Манускрипт Войнича, Фестский диск… наконец-то мы узнаем, о чём там, хе-хе.

        +9

        Да ладно вам, всё давно известно :)
        image

        +2
        Или придумать новый язык под существующую письменность
          0

          Эсперанто?

            0
            К слову — искуственных языков довольно много, включая минимум 3 панславянских. См. вики
          0
          Не буква может поменяться, а звук будет произноситься по-другому.
            +1

            А как вообще в мертвых языках определяли произношение? Особенно в иероглифических?

              0

              Для меня было шоком, что существует межславянский язык — искусственный язык, который понимают практически все славянские народы. В ютубе есть ролики про этот язык и тесты на носителях различных славянских языков.

                0
                Пробелы и пунктуация отсутсвуют далеко не только в мертвых языках. Ох уж этот европоцентричный взгляд.
                А переводчикам нужны не просто тексты, а параллельные корпуса.

                Работа впечатляющая, но было интересно увидеть новую расшифровку, а не прирост процентов на существующих корпусах, про которые все и так понятно (благодаря тем сам удачливым лингвистам и их ручным расшифровкам).

                Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                Самое читаемое