Pull to refresh

Comments 30

Я лингвистам показал, они говорят - велосипед.

Давно уже есть, довольно надежный для силлабо-тоники.

С открытым исходным кодом? А дайте ссылку, хоть посмотрю.

Ну велосипед - не велосипед, а всё, что связано с лингвистикой у меня трепет вызывает ))

Напомнило: у нас на факультете висело объявление о спецкурсе:

«Компьютерная лингвистка»

Тут я полностью разделяю чувства! Сам всегда хотел заниматься NLP, даже читал какие-то туториалы по сентимент анализу, пытался скрейпить Фейсбук, но до дела так руки и не дошли, к сожалению.

Я потому у лингвистов в чате и сижу, хотя сам отношения не имею ?

А у слова зеленый есть два варианта: собственно, зелёный цвет, и слово из поговорки молодо-зелено.

Но ведь слова "зЕленый" же нет?

И правда. Был уверен, что это ошибка словаря, а это ошибка моя. Сейчас исправлю и обновлю статью, спасибо )

Я бы смог представить себе фразу типа "'этот мОлодо-зЕленый человечек вообще ничего не понимает".

А как подбирались коэффициенты "+2 к штрафу" и "+5 к штрафу"? Есть ли контрпримеры? (Длинные слова, в которых алгоритм ошибочно переставляет ударение?)

Ну, подобрал на ручных тестах. Наверное по хорошему нужно туда загрузить какой-то корпус стихотворений, но пока до этого не дошли руки.

Считать ли поэзией, например, верлибр — вопрос дискуссионный и выходящий за рамки данного текста

Мне кажется странным, что вокруг этого вопроса до сих пор существуют какие-то дискуссии. Если Блок, Маяковский и Бродский поэты, то почему вдруг размеры сложнее классических, и эксперименты с размерами перестают быть поэзией?

Ну тут вопрос в том, считать ли размером отсутствие размера. К сожалению эта линия рассуждений может быстро привести к тому, чтобы считать абсолютно всё искусством.

По-моему, начать надо все-таки с Пушкина: Вновь я посетил тот уголок земли, где я провел изгнанником два года незаметных... Любимейшее, кстати, стихотворение.

А почему задача ставится как: "определение размера по одной строке"? Разве не лучше будет анализировать, допустим, четверостишье? Так можно выбрать мин. дистанцию из 4х вариантов и определить размер более точно. Можно даже обратный тест провести - зная размер проанализировать строки на противоречие выбранной парадигме.

Такой метод в библиотеке тоже есть, и я о нём скользь упомянул. Сейчас я просто считаю наибольшее число совпадений по строкам. Но с близостью тоже можно.

Я взял задачу по строке потому что использовал голосовой ввод. А в нём непонятно где заканчивается одна строка и начинается другая, если читать четверостишье. Хотя можно оценить примерно по числу слогов. Но четверостишье уже длинновато для одной голосовой команды.

Ну тут вопрос в том, считать ли размером отсутствие размера.

Его ведь не обязательно должно не быть вовсе. Он может просто быть сложным и периодически меняться. В музыке это уже довольно давно норма жизни, размеры там уже не ограничиваюся двумя, тремя, и четремя четвертями. Авторы используют, если нужно, гораздо более экзотические метры, меняя их по ходу произведения, если этого требует художественная задача. Почему у литературоведов подобное обращение с метром вдруг стало вызывать какие-то вопросы мне решительно непонятно.

Скажите, будет ли нейронка?

А то лениво день за днём

В стихах выравнивать колонки,

И наблюдать, как пальцы гнём.

Персонально я не фанат ML и стараюсь решать как можно больше задач прямым алгоритмическим подходом.

Что касается разбиения фразы на строки, если я правильно понял ваш вопрос — это тоже можно алгоритмически решить с высокой точностью. Но я пока таким не занимался.

А четверостишье прикольное :)

Отлично, верно отработала первая строчка из моего любимого тестового двустрочника (хотя пришлось челюсти размять, чтобы asr не менял иль на или):

два лингвиста споря тво́рог иль творо́г
мордами друг друга били об порог

Самый обычный четырехстопный ямб

Интересно, что на этот стих алгоритм выдаст.

Георгий Шенгели — Барханы

Безводные золотистые пересыпчатые барханы
Стремятся в полусожженную неизведанную страну,
Где правят в уединении златолицые богдыханы,
Вдыхая тяжелодымную златоопийную волну.

Где в набережных фарфоровых императорские каналы
Поблескивают, переплескивают коричневой чешуей,
Где в белых обсерваториях и библиотеках опахалы
Над рукописями ветхими — точно ветер береговой.

Но медленные и смутные не колышатся караваны,
В томительную полуденную не продвинуться глубину.
Лишь яркие золотистые пересыпчатые барханы
Стремятся в полусожженную неизведанную страну.

Спасибо, узнал новый размер для себя! Теоретически можно очень быстро расширить алгоритм до способности определить этот размер, достаточно правильно маски посоставлять.

Продолжаем стишки:

Сел на пол сдал по три.

Фишек нет, есть мешки,

А в мешках – словари!

>>В общем случае, если мы представим себе стихотворение только из односложных слов, то можем читать его любым размером!

Это объясняет, почему очень легко добиться нужного размера на английском. Много односложных слов, они и выручают.

А есть смысл уменьшить штраф для безударной в ударном положении, если в этом же слове есть ударная в другом ударном положении?

В примерах '... предадимся бегу...' это норм, а '... доел сорок яблок' на том же месте - очевидно нет.

Логично, да. Как возьмусь за правки наверное учту это. Наверное нужно новый StressType вводить под такое.

Около года назад пробовал при помощи модели GPT-3 от Сбера генерировать стихи-пирожки. В процессе тоже столкнулся с проблемой ударений. В итоге остановился на russtress, работает небезупречно, но мне хватило. Сейчас увидел, что у этой библиотеки есть порт для .NET RusstressNet

Про генерацию пирожков хотел даже написать статью на Хабре, но результатом остался недоволен, возможно продолжу при следующей волне Ковида, на самоизоляции)). Вот один из более-менее удачных

оксана утром в лифте курит

а после секса курит вновь

и вновь не может выбрать между

двумя куреньем и не пить

Sign up to leave a comment.

Articles