Pull to refresh

Comments 3

Интересно ещё сравнить, насколько официальные словари русского языка перекрываются с этими наборами слов: https://ruslang.ru/normativnyje_slovari

(Там было 4 словаря, но внезапно ещё несколько появилось)...

Добавлю свое IMHO.

Автор, вы грубо нарушили лицензию: брали дампы под лицензией "CC BY-SA 4.0" и сделали производный продукт, выложив его под своим авторством и лицензией "MIT". Это недопустимо, MIT позволяет брать кому угодно "ваши" списки в коммерческую эксплуатацию и закрыть "код", указав ваше имя и MIT. CC BY-SA 4.0 требует, чтобы производный продукт оставался свободным и открытым на тех же условиях.

Что касается списка слов, то есть более прагматичный подход: либа "wordfreq", которая предоставляет данные словаря (Russian Word Frequencies) в целом под той же "CC BY-SA 4.0", включая: Google Books Ngrams; Wikipedia; OpenSubtitles 2018; SUBTLEX-RU; ParaCrawl; Leeds Internet Corpus. Этот список легко фильтруется по частоте с конца, выбрасываются мусорные слова с орфографическими ошибками (у них низкая частота использования). И вот такой "идеальный" дамп было бы нельзя выкладывать под MIT, это тоже нарушение лицензии, а полученный список куда профитнее, чем на одной ruwiktionary, проверено лично.

За грубое нарушение в области открытых данных карму вам на Хабре отметил.

Спасибо за замечание.

Я действительно изначально неправильно выбрал лицензию для данных, так как словарь является производным от дампов Wiktionary (CC BY-SA 4.0), и лицензия MIT в данном случае не подходит.

Я перевел репозиторий на CC BY-SA 4.0 и добавил явное указание на эту лицензию в статье.

Ссылка на обновлённую лицензию:

https://github.com/EgorTatarnikov/rus_dict_wiktionary/blob/main/LICENSE

мнк кажется как вариант еще можно было до кучи тексты Оксимирона прогнать, который тоже признан минюстом РФ иностранным агентом. У него тоже очень интересные словесные обороты.

Sign up to leave a comment.

Articles