Comments 3
Интересно ещё сравнить, насколько официальные словари русского языка перекрываются с этими наборами слов: https://ruslang.ru/normativnyje_slovari
(Там было 4 словаря, но внезапно ещё несколько появилось)...
Добавлю свое IMHO.
Автор, вы грубо нарушили лицензию: брали дампы под лицензией "CC BY-SA 4.0" и сделали производный продукт, выложив его под своим авторством и лицензией "MIT". Это недопустимо, MIT позволяет брать кому угодно "ваши" списки в коммерческую эксплуатацию и закрыть "код", указав ваше имя и MIT. CC BY-SA 4.0 требует, чтобы производный продукт оставался свободным и открытым на тех же условиях.
Что касается списка слов, то есть более прагматичный подход: либа "wordfreq", которая предоставляет данные словаря (Russian Word Frequencies) в целом под той же "CC BY-SA 4.0", включая: Google Books Ngrams; Wikipedia; OpenSubtitles 2018; SUBTLEX-RU; ParaCrawl; Leeds Internet Corpus. Этот список легко фильтруется по частоте с конца, выбрасываются мусорные слова с орфографическими ошибками (у них низкая частота использования). И вот такой "идеальный" дамп было бы нельзя выкладывать под MIT, это тоже нарушение лицензии, а полученный список куда профитнее, чем на одной ruwiktionary, проверено лично.
За грубое нарушение в области открытых данных карму вам на Хабре отметил.
Спасибо за замечание.
Я действительно изначально неправильно выбрал лицензию для данных, так как словарь является производным от дампов Wiktionary (CC BY-SA 4.0), и лицензия MIT в данном случае не подходит.
Я перевел репозиторий на CC BY-SA 4.0 и добавил явное указание на эту лицензию в статье.
Ссылка на обновлённую лицензию:
https://github.com/EgorTatarnikov/rus_dict_wiktionary/blob/main/LICENSE
мнк кажется как вариант еще можно было до кучи тексты Оксимирона прогнать, который тоже признан минюстом РФ иностранным агентом. У него тоже очень интересные словесные обороты.
Список слов русского языка из Wiktionary и сравнение с pymorphy3 на примере Пушкина и Noize MC *