Как стать автором
Обновить

Русские тексты. Работа с текстами. Предварительная обработка русских текстовых данных

Уровень сложностиПростой
Время на прочтение15 мин
Количество просмотров2.2K
Всего голосов 4: ↑1 и ↓3-1
Комментарии3

Комментарии 3

  1. Разве при очистке регулярка '\W+' не заменит пунктуацию на пробелы? Чем поломает и/или сделает ненужной всю следующую обработку.

  2. Беря только первую форму из PyMorphy, прощай омонимы. У слова может быть несколько нормальных форм и частей речи.

Согласен ! Автор совершенно не в теме NLP! Сама постановка вопроса: предварительной обработки странна. Обработки для чего?

"Приведение к нижнему регистру " ? бред какой то! От регистра зависит значение слов и фраз: apple - яблоко, Apple - компания. Заглавные буквы выделяют начало предложений. Вся эта информация будет безвозвратно потеряна! Надо использовать стандартные методы токенизации LLM и не морочить голову! Ничего не сказано о парсинге текста, а это наиважнейший этап обработки!

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации