Pull to refresh
56
0
Send message
Насчет 20 разных слов для обозначения снега, я где-то читал что это миф. Но суть не в этом. Что касается снега — заметьте, тут речь не идет о 20 семантических еденицах, а о различных названиях одного и того же предмета. В русском тоже можно найти много названий-синонимов для некоторых сущностей.

Да и если бы эскимосы и вправду обнаружили 20 разных сущностей, скрытых для нас под словом «снег», например типы снега отличались бы химическим составом примесей, я не вижу в этом совсем никакой проблемы — новые сущности добавляются в классификатор и все.

Вы представляете дело так, что универсальный классификатор создать сложнее русского классификатора. Но почему? Нам нужно где-то раздобыть информацию что «чашка — это посуда», верно? Разве есть принципиальная разница, будет эта информация сохранена на русском в виде, например «чашка < — посуда» или в универсальном виде «78968 < — 1095524»?

Зато в универсальном виде это нужно сдалать один раз для всех языков, и парсер уже сможет пользоваться этой информацией. Конечно останутся особенности конкретных языков, но бОльшая часть работы уже будет содержаться в универсальном классификаторе, а парсеру останется позаботиться только об особенностях именно этого языка, не отвлекаясь на общие факты.
Нет, я не хитрю.
Я просто взял Ваш пример где в некоторой грамматике (для меня в данном случае совершенно не важно в какой) описывается отображение одного русского слова (РАЗБИВАТЬ) в английское слово (break). Я взял Ваш пример и вместо отображения в английское слово, отобразил в универсаьлный код 356748, который (предположим) обозначает «разбивать, разломать на части, ударом превратить целое в набор обломков и т.п.» Под кодом 356748 однозначно понимается некое действие, которое в разных языках будет обозначено разными словами, но если Вы или англичанин увидите как разбивают чашку, то оба поймете о чем речь и в следующий раз можете прямо сказать друг другу «356748 78968» [=разбить чашку] при этом вы поймете друг друга однозначно:)

А оценить количество смыслов в слове «разбить» несложно — в толковом словаре они перечислены.
>Есть ситуации посложнее.

Так в вашем примере слово «разбивать» это же не семантическая (смысловая) единица. Это слово многозначное, т.е. одно слово обозначает несколько разных семантических единиц. А решать проблему неоднозначных слов придется по любому, какой бы метод Вы не выбрали, потому что когда делается перевод RU->EN, нужно:
1. понять смысл(!) слова на языке RU (т.е. отобразить слово в его смысл)
2. подобрать подходящее по смыслу(!) слово в языке EN (т.е. отобразить смысл в обозначающее его слово )
а в обеих шагах 1 и 2 могут встретиться многозначные слова.

Кстати тут видно насколько проще работать с «универсальным классификатором», ведь при отображении RU->UNI, UNI->RU по крайней мере со стороны UNI имеется однозначность. А в случае RU->EN, EN->RU неоднозначность может возникать с обеих сторон и отображение получается «много значений ко многим значениям», что значительно сложнее.

А сущностей в любом языке одинаковое количество. Иначе как бы люди вообще могли общаться :)

>А хуже всего то, что придётся всё равно создавать отдельную систему для данного языка

Ну почему же хуже всего? Отдельную систему для каждого языка придется создавать по-любому. Только в «универсальном» случае правила создавать проще. Т.е у вас в грамматике вместо

RU->EN: РАЗБИВАТЬ(субъект, объект: посуда) to break

будет написано, например:

RU->UNI: РАЗБИВАТЬ(субъект, объект: посуда) 356748 (и тут уже никакая неоднозначность невозможна)

Нуууу… вот смотрите, докажем теорему «существует принципиальная возможность создания универсального классификатора»: обозначим каждое уникальное семантическое значение (смысл) X некоторым уникальным числом x. Поскольку множество семантических значений ограничено, мы справимся с этим делом в ограниченное время :)
В случае интерсемантики цели такие: «Основа идеи — перейти в технических системах от побуквенного кодирования слов текста к единому международному цифровому кодированию семантического значения, которое несёт каждое слово текста»

Я сам про этот проект узнал только из обсуждения вашей первой статьи. Упоминул потому что похоже на один мой старый проект, так что действительно «идеи… витают в воздухе».

Что касается конкретного применения для решения задачи машинного перевода, то тут, насколько я понимаю, на сегодняшний день преобладет использование в прикладных проектах именно подхода «классификация в рамках языкового поля». Т.е строится семантически обоснованные отображения типа RU->EN, EN->RU, RU->DE и т.д. Для каждой пары языков по 2 отображения.

Если отображать не один язык в другой а в некий универсальный семантический классификатор RU->UNI, UNI->RU, т.е. для каждого языка по 2 отображения.

Т.е. принципиальной разницы на этапе «классификация в рамках языкового поля» нету, при обеих подходах не избежать построения соответствующего отображения. Второй подход конечно сложнее в том стысле что универсальный «классификатор» надо еще создать. Но зато и выгод от более общего подхода прболее будет.

Это я к тому, что напрасно Вы так скептически настроены к универсальному подходу. В каждом подходе свои плюсы и минусы.
В обсуждении первой части упоминался проект «интерсемантика». Подпадает ли этот проект под «универсальные классификации всего и вся» в Вашей статье?
Спасибо за инересные статьи.

«иерархия объектов для конкретного синтактико-семантического анализатора зависит от двух тесно связанных вещей: (а) поставленной задачи; (б) картины мира анализируемого языка.»

А разве «картина мира», т.е. предметная область описываемых некоторым языком сущностей, не одна и та же для всех языков?
Не может оказаться так, что в долгосрочном плане такой подход «классификация в рамках языкового поля» просто увеличит объем работ в разы, но по сути бОльшая часть работ будет повторяться для всех языков?
Насколько я понимаю, даже получение сертификата PCI DSS не позволяет хранить все данные. Даже если сертификат есть, то можно хранить в защифрованом виде только данные с лицевой стороны карты. А с магнитной ленты и с обратной стороны карты вроде как нельзя
12 ...
11

Information

Rating
Does not participate
Registered
Activity