Как стать автором
Обновить

Комментарии 40

Я немного не по теме, но всё же интересно — возможно ли, что когда-нибудь условный ИИ изобретёт такой язык (не ЯП), который был бы понятен и удобен всем людям? Который учитывал бы их физиологические особенности (типа строения челюстей и т.д.), не содержал бы лишних звуков и букв, позволял бы строить любые конструкции из простейших сочетаний, был бы лёгким и быстрым в написании? =)
НЛО прилетело и опубликовало эту надпись здесь
Никто не будет учить полумертвый язык ради абстракного «он удобнее» и его в любом случае постигнет судьба эсперанто.
Если этот же ИИ переведет на этот язык основную часть информации созданной человеком, еще и структурирует ее, то учить такой язык будет очень полезно.
Проблема эсперанто в том, что на нем очень мало что написано, поэтому и нет смысла его учить.

В этом плане есть еще один вариант, язык для компьютеров, а не для людей. Некий промежуточный язык точно описывающий все сущности во всех языках, такой себе мета-язык один раз переведя на который можно получить точный контекстный перевод на любой другой язык. Удобен именно для общения компьютеров и передачи смысла, т.к. он должен в себя включать не только слова, но и связи между понятиями, которая будет дополняться и развиваться.

Вроде Compreno по такой парадигме языка-посредника работали?

Посмотрел Compreno, судя по описанию это больше инструмент для парсинга текста, чем собственно язык. Смысл мета-языка в том, чтобы каждое слово в отдельности максимально точно описывало сущность. В человеческом языке есть естественное ограничение на количество букв, а машинный язык может создавать слова как токены с дополнительным описанием. Грубо говоря, слово-токен 74628462363 соответствует "Лук" как растение, а 9472723654 соответствует "Лук" как оружие. При этом само слово имеет привязанную аттрибутику, начиная с описания "овощ"/"растение" и языковую специфику в контексте конкретного языка "род = мужской". При этом в конкретном тексте "лук" может означать как растение целиком, так и луковицу или перо лука. При разборе текста происходит извлечение смысла исходя из контекста повестования, но результат включает конечные токены, а не сложную композицию типа "верхняя зеленая часть растения лук". В общем идея в том, что слово мета-языка должно иметь свой смысл независимый от внешнего контекста, а вся суть взаимосвязей была частью самого языка - по сути это абсолютное аттрибутирование всего.

А "Лук" который растение - зелёный или луковицей? Луковица какого цвета, размера? Может там и полный биологический вид на латыни кодировать надо, как и указание - вершки или корешки? А если не лук, а что-то с более сложным строением? Это всё только наплодит лишние сущности и усложнит каталогизацию, хотя да, если все значения из толковых словарей и энциклопедий завернуть в универсальное хранилище и соотнести с аналогами в других языках - это может помочь с некоторыми переводами. Получится эдакая википедия на каждое значение каждого слова на каждом языке.

рашается этот вопрос вот как.
Каждому свойству сопоставляется простое число. Простых чисел — бесконечное множество. Каждая вещь описывается произведением простых чисел соответствующих свойствам.
Размеры описания будут циклопические, но алгоритм рабочий.

ru.wikipedia.org/wiki/Универсальный_язык

И доказательство теоремы Гёделя до кучи :)

А "Лук" который растение - зелёный или луковицей?

В примере как раз про это написано. Метаязык не должен иметь человеческих ограничений, это скорее пространство на котором размечены некоторые точки. Точки дополняются некоторыми атрибутами, и между ними выстраиваются некоторые связи более детально описывающие свойства объекта. Поэтому метаязык должен содержать все понятия из всех языков и может на несколько порядков превосходить все человеческие языки. Вот статистика по количеству слов в разных языках:

  • английский язык - 999 985 слов

  • китайский язык (вместе с диалектами) - более 500 000 слов

  • японский язык - 232 000 слов

  • испанский язык - 225 000 слов

  • русский - 195 000 слов

Грубая оценка 10 000 языков х 1 000 000 слов даст "всего" 10 миллиарда слов. Количество параметров нейросети Wu Dao 2.0 превышает 1.75 триллиона. Даже с самой консервативной оценкой можно ожидать роста в 1000 раз за 10 лет (та же GPT-3 имеет в 10 раз меньше параметров).

Опять же метаязык это не жесткая модель, а динамическая структура описывающая в том числе и временной контекст. А обычный человеческий язык это проекция, идея в том чтобы разметка с человеческого языка на машинный производилось с учетом контекста, при это мы как бы "учим" машину понимать смысл сказанного, а хранение и обработка производится уже с учетом извлеченного смысла.

Проблема не в количестве слов и языков (это было бы актуально для машинного перевода), а в смыслах (начиная от слов-предметов типа "яблоко" - "плод растения яблоня" - "что такое плод/растение/яблоня?" и до каких-то абстрактных научных терминов имеющих пространные определения, после которых всё равно остающиеся не совсем понятными). И в структуре языков (везде свои правила, последовательность слов, градации по роду/единственному и множественному числу/обушевлённому и неодушевлённому/...). И только потом уже во всяких нюансах типа контекста (вежливое/грубое/устаревшее/формальное-неформальное/...).

Так что выстроить паутину зависимостей вокруг относительно простого набора слов (в целом одинаковых для всех языков, тем более что многое вообще заимствовалось) - наверное самое сложное. И тут на ум приходят иероглифы, состоящие из кусочков, по которым можно примерно понять смысл слова, или египетские пиктограммы, которые по сравнению с довольно абстрактными китайскими иероглифами выглядят как картинки каких-то реальных предметов.

Так уже ж есть английский и языки математики. И если все языки мира загрузить в ИИ, на выходе получим версию английского, так как на нём больше всего написано.

У Эсперанто уже есть носители, так что непонятно, что вы имели под постигшей его судьбой. Но в мире еще овердохрена искусственных языков. В литературе и киноиндустрии их изготовление чуть ли не на поток поставлено. Есть много специалистов по созданию языков. Нет, не для программирования, а для общения.

У Эсперанто уже есть носители, так что непонятно, что вы имели под постигшей его судьбой.
Он задумывался как всеобщий международный язык, но спустя более 100 лет доля его носителей на грани погрешности относительно всего населения. ИМХО, это полный провал.

У других искусственных языков вообще нет носителей.

Да и английский в целом не самый сложный и вполне тянет на международный.

Он сложный по произношению, оно сильно отличается от написания.

Естественные языки и так стремятся к упрощению, от них со временем отваливаются сложные правила и исключения, пока это не сильно вредит основной функции языка. История знает и намеренное упрощение языков, тот же русский тому пример. Не вижу задач для AI в данном процессе, непонятно, зачем что-то выдумывать. Думаю, для жвал и клювов наши современные языки не очень подходят, конечно. Это, наверное, проблема.

Не скажу насчёт устной речи, но письменность усложняется. Сейчас, наверное, больше слов, которые пишутся не так, как слышатся. Если бы слова писались так, как слышатся, мой комментарий представлял бы из себя следующее:

Нь скажу нащот усной речь, но письминась усажняитса. Сичас, наверна, большь слоф, кторые пишатса ни так, как слышатса...

А это значит постепенно движемся в сторону от алфавита к иероглифам, т.к. для каждого слова надо отдельно учить его написание.

Вы рассматриваете короткую перспективу, языку требуется время, чтобы ассимилировать новые понятия из других языков, это нормально. Зато в результате подобных процессов обмена формируется межнациональная языковая прослойка, понятная на любом языке. В качестве примера у нас есть латинский язык, уши которого до сих пор торчат повсюду.

Письменный язык всегда искусственный, и это проблема того, кто его усложняет. До эпохи интернета устный язык был первичным

А к иероглифам мы уже давно пришли ;)

НЛО прилетело и опубликовало эту надпись здесь

где-то слышал, якобы у якутов 15 разных слов, означающих разные виды снега...)

Вообще-то и в русском можно примерно столько насчитать. Если с диалектами, так точно.

а у эфиопов?)

Путешественник Куксин рассказывал, как одному экваториальному дикому народу объяснял, что у него на родине море полгода твёрдое и можно по нему ходить пешком. Все сбегались слушать, как круто он выдумывает сказки.

А у швейцаров около ХХХ разных слов, означающих разные сорта сыра.

По-моему у них этих слов как раз намного больше.

Физиологические особенности отчасти определяются как раз языком. Например, в койсанских языках Африки есть щёлкающие звуки, которые не тренированный с детства человек физически неспособен воспроизвести.

А семантикой в разных культурах вообще беда.

Так это у всех языков так в больше или меньшей степени, отчасти поэтому и существуют акценты.

Если ИИ будет способен изобрести язык, который полный по Тьюрингу, и удобный всем (читаю, любому) людям, то поздравляю, ИИ уже давно захватил этот бренный мир

А Вы попробуйте. В этом случае, придётся сделать что-то вроде иероглифов. Тут, ведь, проблема в чём? Обычно противопоставляют звуковой способ и иеорглифический. Наверное, оптимальный вариант — это (наоборот!) сочетание звукового и иероглифического. Но для этого придятся признать, что:

  1. Отдельные звуки имеют смысл. Возможно, не вполне в том смысле, как мы это понимаем обычно. Также это означает, что звуковое сходство слов на самом деле (вопреки лингвистике), скорее всего, означает и сходство смыслов. С годами этот общий смысл утратился, остались только различия, в которых усердно копается лингвистика.

  2. Существуют определённые правила перевода одних звуков в другие. Это что-то вроде химии, периодической таблицы звуков и т.д. и т.п. То есть, имеется понятие, которое описывается при помощи определённого размещения букв универсального алфавита, и имеется класс эквивалентности на классе звуковых цепочек, ведущих к различным представлениям данного понятия на различных языках.

  3. Язык изначально свойственен природе, но, в то же время, является и результатом творения или открытия. Первое означает, что теми же понятиями оперруют и животные. Второе означает, что язык или, точнее, праязык — это универсальная знаковая система, от которой, со временем, "отвалилась" верхушка, задающая прагматику (высшую семантику). В результате такого падения произошёл эффект Вавилонской башни, когда смешались языки=народы, решающие различные задачи.

А ещё есть такая проблема, о которой говорил У. Матурана в своей "Биологии познания": всё сказанное сказано наблюдателем. Это значит, что более прадоподобна именно коннотативная теория информации. Такая теория помогает понять, почему любые попытки построить универсальный язык обречены на неудачу, поскольку информация не переносится, а привностится. В каком-то смысле, всё это смыкается с тем, о чём говорит Роджер Пенроуз в своих "Тенях разума".

Набирайте запрос в интернете "codelani язык программирования", особено из корпоративной сети, иначе неправильно поймут :)

это только Яндекс такой испорченный, у гугла вся первая страница выдачи про ЯП, я даже не понял сначала, в чём прикол

Создам свой ЯП и назову его Ы

Подпорчу статистику :-)

J.E. Sammet помогал разрабатывать COBOL и одним из первых задался вопросом

Только не "помогал", а "помогала". Jean Sammet - женщина.

Спасибо!
(правки принято в личном сообщении присылать)

Интересно, сколько в мире людей, имеющих опыт программирования, особенно старшего поколения, пик карьеры которых приходил на догитхабовскую эпоху, не имеют аккаунта на хитхабе?! Лично моё мнение, что людей считающих себя программистами, так или иначе практикующих программирование, гораздо больше чем 30 млн. Мало того не все у кого есть аккаунт на bitbucket, gitlab, пользуются github. Не все вообще используют VCS.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий