Как стать автором
Обновить

Комментарии 12

А можете порекомендовать что-нибудь простое для поиска ударения в произвольном слове?
Большое спасибо! Это первый словарь ударений из всех что я видел, который СРАЗУ понятно как парсить.
Попробуйте словарь + seq2seq.
Вся проблема именно в словаре. Например, мне попадался машиночитаемый Зализняк. Большой, подробный, со словоформами, но совершенно не было понятно, как его парсить: что конкретно означало первое поле, что второе и т.д.
Лично я распарсил викисловарь с этой целью.
Парсили сами страницы или у вики есть более машиночитаемый вариант? Так-то это отличная идея, там помимо ударения есть ещё и разбивка на слоги.

У вас сохранился результат?
Парсил сам, вообще в викисловаре есть не только разбивка на слоги, но и классификация по Зализняку, часть речи, семантика и многое другое. Результат, конечно, остался. По-хорошему это нужно куда-нибудь на github и поддерживать в виде текстовой БД для дальнейшего применения, у меня просто сейчас нет мотивации всё это привести к человеческому виду.
Возьмите github.com/buriy/russian-nlp-datasets/releases/download/r1/stress.tar.gz, там 2.7 млн словоформ.
Примеры слов оттуда:
а`встро-венге`рский (иногда размечены двойные ударения)
сберба`нка (разные падежи)
за`мок
замо`к
ё`ж
Шикарная подпорка, спасибо
Сайт в одной из полезных сылок всё же называется «N+1», а не «NS+1» :)
Спасибо, поправили.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории