Комментарии 12
А можете порекомендовать что-нибудь простое для поиска ударения в произвольном слове?
0
В бейслайне, что они предлагают, используется заготовленный файл со словами и на какой слог ударение падает github.com/sberbank-ai/classic-ai/tree/master/examples/phonetic-baseline/data
0
Попробуйте словарь + seq2seq.
0
Вся проблема именно в словаре. Например, мне попадался машиночитаемый Зализняк. Большой, подробный, со словоформами, но совершенно не было понятно, как его парсить: что конкретно означало первое поле, что второе и т.д.
0
Лично я распарсил викисловарь с этой целью.
0
Парсили сами страницы или у вики есть более машиночитаемый вариант? Так-то это отличная идея, там помимо ударения есть ещё и разбивка на слоги.
У вас сохранился результат?
У вас сохранился результат?
0
Парсил сам, вообще в викисловаре есть не только разбивка на слоги, но и классификация по Зализняку, часть речи, семантика и многое другое. Результат, конечно, остался. По-хорошему это нужно куда-нибудь на github и поддерживать в виде текстовой БД для дальнейшего применения, у меня просто сейчас нет мотивации всё это привести к человеческому виду.
0
Возьмите github.com/buriy/russian-nlp-datasets/releases/download/r1/stress.tar.gz, там 2.7 млн словоформ.
Примеры слов оттуда:
а`встро-венге`рский (иногда размечены двойные ударения)
сберба`нка (разные падежи)
за`мок
замо`к
ё`ж
Примеры слов оттуда:
а`встро-венге`рский (иногда размечены двойные ударения)
сберба`нка (разные падежи)
за`мок
замо`к
ё`ж
0
Сайт в одной из полезных сылок всё же называется «N+1», а не «NS+1» :)
+1
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
КлассикAI жанра: ML ищет себя в поэзии