agushin Feb 13 2025 at 05:16

Русские тексты. Работа с текстами. Предварительная обработка русских текстовых данных

Easy

15 min

2.8K

Big Data * Data Engineering * Natural Language Processing * Python * Artificial Intelligence

From sandbox

-1

Comments 3

Lecron Feb 13 2025 at 06:44

Разве при очистке регулярка '\W+' не заменит пунктуацию на пробелы? Чем поломает и/или сделает ненужной всю следующую обработку.
Беря только первую форму из PyMorphy, прощай омонимы. У слова может быть несколько нормальных форм и частей речи.

ioleynikov Feb 13 2025 at 18:10

Согласен ! Автор совершенно не в теме NLP! Сама постановка вопроса: предварительной обработки странна. Обработки для чего?

ioleynikov Feb 13 2025 at 18:06

"Приведение к нижнему регистру " ? бред какой то! От регистра зависит значение слов и фраз: apple - яблоко, Apple - компания. Заглавные буквы выделяют начало предложений. Вся эта информация будет безвозвратно потеряна! Надо использовать стандартные методы токенизации LLM и не морочить голову! Ничего не сказано о парсинге текста, а это наиважнейший этап обработки!