Comments 3
Разве при очистке регулярка '\W+' не заменит пунктуацию на пробелы? Чем поломает и/или сделает ненужной всю следующую обработку.
Беря только первую форму из PyMorphy, прощай омонимы. У слова может быть несколько нормальных форм и частей речи.
"Приведение к нижнему регистру " ? бред какой то! От регистра зависит значение слов и фраз: apple - яблоко, Apple - компания. Заглавные буквы выделяют начало предложений. Вся эта информация будет безвозвратно потеряна! Надо использовать стандартные методы токенизации LLM и не морочить голову! Ничего не сказано о парсинге текста, а это наиважнейший этап обработки!
Sign up to leave a comment.
Русские тексты. Работа с текстами. Предварительная обработка русских текстовых данных