Pull to refresh

Comments 3

  1. Разве при очистке регулярка '\W+' не заменит пунктуацию на пробелы? Чем поломает и/или сделает ненужной всю следующую обработку.

  2. Беря только первую форму из PyMorphy, прощай омонимы. У слова может быть несколько нормальных форм и частей речи.

Согласен ! Автор совершенно не в теме NLP! Сама постановка вопроса: предварительной обработки странна. Обработки для чего?

"Приведение к нижнему регистру " ? бред какой то! От регистра зависит значение слов и фраз: apple - яблоко, Apple - компания. Заглавные буквы выделяют начало предложений. Вся эта информация будет безвозвратно потеряна! Надо использовать стандартные методы токенизации LLM и не морочить голову! Ничего не сказано о парсинге текста, а это наиважнейший этап обработки!

Sign up to leave a comment.

Articles