Pull to refresh

Comments 33

Полезная работа, особенно если заставить работать в связке с синтезом речи, для голосовых ботов.

Дире́ктора бы́ли пожило́го во́зраста.

Директоры же!

Нам нужны́ учителя́.

Учители же!

То есть вы пытаетесь научить правильному ударению в словах с ошибками?

https://en.wiktionary.org/wiki/директор#Russian

https://ru.wiktionary.org/wiki/директор

Везде "директора́"

https://en.wiktionary.org/wiki/учитель#Russian

Вариант "учи́тели" помечен как "dated"

https://ru.wiktionary.org/wiki/учитель

В знач. основоположник учения встречается также вариант склонения по схеме 2a с ударением в формах мн. ч.: учи́телиучи́телейучи́телямучи́телямиучи́телях.

Но основной вариант - "учителя́"

«Директоры» может употребляться разве что для технического термина, обозначающего что-то направляющее что-то еще. Например, «директоры — посадка по директорам».

Если люди — то директора, конечно.

Я не соглашусь полностью, что незнание иностранцем ударения у русского слова в тексте сильно затруднит понимание. Можно прочитать как написано, и с фиксированным ударением, как в польском или чешском. Все равно половина наших тоже "кто звОнит?" И прочие. Иностранцу все равно дадут скидку что иностранец, все будет в шутку обращено, как в слове "передохнуть" (передохнУть или передОхнуть). Хорошо,хоть не тоны у нас, как у китайцев разных (но даже тампомнят о созвучии)

Я очень много общался с иностранцами на русском.

У меня без проблем получается понимать речь даже с серьёзными проблемами в грамматике.

А вот при ошибках в ударении до меня не всегда сразу доходит, что же человек вообще имеет в виду.

Была история, как иностранец в СПб пытался в газетном киоске купить карто́чку (с ударением как в польском), а продавщица объясняла, мол, за картошкой надо идти в овощной.
UFO just landed and posted this here
UFO just landed and posted this here

Лингвисты описывают язык, а не «помогают» или «мешают». Ну, иногда участвуют в разработке технологий, использующих язык.

С точки зрения описания языка то, о чем вы говорите — ничуть не усложнение, грамматический строй и украинского, и русского языка подразумевает согласование форм слов по родам; наоборот, эта парадигма исторически довольно сильно засбоила в некоторых лексических группах (типа названий профессий), и этот сбой обращает на себя внимание (не впервые) и стыкуется с определенным социальным запросом, который может получить, а может не получить политическую поддержку — и быть зафиксирован в том числе в языке. А лингвисты все это будут описывать и дальше, они знают историю языка за сотни, иногда тысячи лет, и их это все не очень удивляет.

С точки зрения «сложности» одинаковое грамматическое изменение всех слов по родам, включая названия профессий, скорее «проще» (впрочем, как и альтернативный вариант — распространение общего рода), а вот как сейчас в русском — «здесь играем, здесь не играем, а здесь рыбу заворачивали» — как раз лишнее несистемное усложнение; и, да, скорее всего оно имеет социально-экономическую природу.

UFO just landed and posted this here

Да, я немного срезал угол в формулировке. Но нет ничего «простого» или «последовательного» в том, что «менеджер сказала», «швея сказала», «учительница сказала», «автор сказала». Для части профессионализмов родовая парадигма работает предсказуемо, части новых вроде как назначен общий род, часть сбоит и двоится в разных контекстах. Русский (и украинский) грамматический род действительно не означает «пол» и вообще работает довольно рандомно, судя по всему, но в отношении человеческих занятий согласование грамматики с семантикой действительно сбоит немного подозрительно, в этом отношении уже были и дискуссии, и обновления нормы и сто, и больше лет назад (обычно точечно), и это действительно достаточно регулярно приводит к тому, что из контекста неясно, действует мужчина или женщина, хотя это проще всего выразить именно грамматически. Про русские феминитивы недавно даже популярная книжка вышла от хорошего лингвиста... Хорошей лингвистки? Ирина Фуфаева, «Как называются женщины. Феминитивы: история, устройство, конкуренция». Все, как говорится, довольно сложно и интересно.

UFO just landed and posted this here
В русском варианте это звучало бы как узаконивание «врачих» и т.п.

Вы так говорите «узаконивание», как будто это что-то плохое.
Чем врачиха концептуально отличается от ткачихи или пловчихи?
UFO just landed and posted this here

Это не совсем «отдельные слова». Это грамматические формы, и идея, если считать, что за языковым строем стоит «идея», в том, что мы знаем или с большой вероятностью можем угадать род слова и модель, по которой его можно менять в зависимости от контекста (практические нужды не прибиты гвоздиками, они могут меняться ситуативно); и вот почему-то в некоторых классах слов бинарная схема исторически конкурирует с тренарной, когда добавляется общий род. Но история на то и история, что раньше могло быть так, а сейчас иначе (например потому, что стало больше женщин — специалистов в разных областях, и все чаще не видеть грамматические маркеры становится неудобно).

UFO just landed and posted this here
Общий род в русском (и, скорее всего, в украинском тоже) существует давно, и большинство таких слов не имеют отношения к профессиям: вики приводит в пример умница, молодчина, работяга, пьяница, задира, грязнуля, сирота, калека и пр. Все они грамматически согласуются по «половой принадлежности описываемого словом объекта». Все они вызывают у вас неприязнь, или только обозначения профессий?
UFO just landed and posted this here

Программистам должно быть понятно, с какими сложностями и рисками сопряжена поддержка и отладка такой системы, как любой естественный язык. Не надо хейтить лингвистов, они занимаются довольно прикольной описательной наукой, которая приносит много пользы, если присмотреться. То, что правки в нормативной грамматике, которой учат в школе и используют на официальном уровне — дело всегда сложное, компромиссное и вызывающее неприятие, понятно, но время от времени оно все равно назревает, а пользоваться в быту «неправильным» языком вам все рано никто не помешает, лишь бы было понятно.

Есть языки, которые благополучно и довольно рано отказались от грамматического рода и работают нормально (см. хотя бы английский, он вообще забил на большую часть привычной нам грамматики, устроил ад в правописании и фонетике и т.п.). Для нашей кучки славянских языков мера, которую вы предлагаете в качестве «упрощения», бесконечно травматичнее того, что вам не нравится, и никаким указом ее не провернуть.

UFO just landed and posted this here
«Узаконивание» это, как бы, не совсем «создали разные слова».
Язык не отлит в граните и определяется не словарями или чьими-то понятиями о прекрасном, а, внезапно, самими носителями. Если носители уже так говорят и им так удобно, то однажды это станет нормой, даже если сейчас режет слух.

Я, если что, не защищаю род в словах, отнюдь. Это дикий пережиток, не добавляющий ничего к сказанному и только усложняющий изучение языка. Было бы прекрасно искоренить его совсем, но увы, уже слишком поздно. А консистентность хотя бы не хуже кучи исключений.
Наличие рода делает возможной анафору: клумба в саду, за которой я ухаживаю vs. клумба в саду, за которым я ухаживаю. Попробуйте выразить это на языке без рода, например на английском.
Ваш пример, несомненно, красив, однако:
— весьма хрупок сам по себе ("куст в саду, за которым я ухаживаю").
— При недостаточно ловком обращении может и вовсе превратиться в шляпу, подъезжающую к сией станцыи и глядящую на природу в окно.
А плата, в виде комбинаторного взрыва склонений и спряжений, как-то слишком высока.

В английском, естественно, это потребует иной структуры предложения и более явного расставления акцентов. Что, скорее, хорошо.

В совсем других языках тоже можно писать красивые однострочники типа while (*s++ = *t++), а можно и не писать, смысл не пострадает.
Да, классический пример неудачной анафоры — собрание жильцов нашего дома, на котором стоял вопрос :)

На мой вкус, лучше иметь в языке выразительные средства и самому решать — по возможности, по контексту и по настроению — использовать их или нет, чем не иметь их вообще. Что в естественном, что в ЯП.
Мужчину на должности машинистки вообще непонятно как называть…
UFO just landed and posted this here

Правильно ли я понял, что:


  • Алгоритм это де-факто поиск по готовому словарю + тегам из spacy если таковые есть;
  • Общий "размер" получается словарь 500MB + spacy (несколько сотен мегабайт со всеми зависимостями?);

Также вы снимали какие-то метрики?

Алгоритм вкратце:

  • Сначала поиск по словарю. Если существует только один вариант постановки ударения, то возвращаем его.

  • Если нет, то проверяем каждый вариант постановки ударения на совместимость с тегом от Spacy. Если в результате этого остаётся только один вариант, то ставим ударение в соответсвии с этим вариантом.

Пример: "твои города"

Для слова "твои": в словаре есть только один вариант: "твои́". Его и выводим.

Для слова "города" в словаре есть две возможные интерпретации: как родительный падеж "го́рода" или как множественное число "города́". Поэтому мы проверяем совместимость каждой интерпретации с тегом от natasha-spacy. Natasha-spacy говорит, что это именительный падеж множественного числа, поэтому мы первый вариант отсеиваем и выводим "города́".

Размер словаря: 67МБ файла wordforms.dat и 2МБ файла lemmas.dat

Метрики точности морфологического анализа natasha-spacy приведены здесь: https://github.com/natasha/natasha-spacy. Ошибки в ударении могут появиться только из-за 1)неполноты словаря 2)несовершенства морфологического анализа - и ни с тем, ни с другим я ничего поделать не могу. Я специально показал в примерах, что ошибки бывают, и объяснил, чем они вызваны.

Понятно. +135 MB модель spacy + сама spacy и ее зависимости.

Посмотрел.

В качестве "ядра" (для морфологического анализа) там используется вот этот проект: https://github.com/IlyaGusev/rnnmorph

Причём, rnnmorph выдаёт результат в том же самом формате, что и natasha-spacy (возвращает тег вида "Case=Nom|Gender=Fem|Number=Sing").

То есть, возможно очень легко заменить "ядро" на rnnmorph в данном проекте. Однако, я сильно сомневаюсь, что он будет работать лучше natasha-spacy; всё-таки, natasha проверена временем, а rnnmorph, видимо, написан одним человеком (IlyaGusev).

Sign up to leave a comment.

Articles