agushin13 фев 2025 в 05:16

Русские тексты. Работа с текстами. Предварительная обработка русских текстовых данных

Простой

15 мин

8.4K

Big Data * Data Engineering * Natural Language Processing * Python * Искусственный интеллект

Из песочницы

Комментарии 3

Lecron 13 фев 2025 в 06:44

Разве при очистке регулярка '\W+' не заменит пунктуацию на пробелы? Чем поломает и/или сделает ненужной всю следующую обработку.
Беря только первую форму из PyMorphy, прощай омонимы. У слова может быть несколько нормальных форм и частей речи.

ioleynikov 13 фев 2025 в 18:10

Согласен ! Автор совершенно не в теме NLP! Сама постановка вопроса: предварительной обработки странна. Обработки для чего?

ioleynikov 13 фев 2025 в 18:06

"Приведение к нижнему регистру " ? бред какой то! От регистра зависит значение слов и фраз: apple - яблоко, Apple - компания. Заглавные буквы выделяют начало предложений. Вся эта информация будет безвозвратно потеряна! Надо использовать стандартные методы токенизации LLM и не морочить голову! Ничего не сказано о парсинге текста, а это наиважнейший этап обработки!

Зарегистрируйтесь на Хабре, чтобы оставить комментарий