Работа с текстовыми данными в scikit-learn (перевод документации) — часть 1
6 мин
Данная статья представляет перевод главы, обучающей работе с текстовыми данными, из официальной документации scikit-learn.
Цель этой главы — это исследование некоторых из самых важных инструментов в scikit-learn на одной частной задаче: анализ коллекции текстовых документов (новостные статьи) на 20 различных тематик.
В этой главе мы рассмотрим как:
Цель этой главы — это исследование некоторых из самых важных инструментов в scikit-learn на одной частной задаче: анализ коллекции текстовых документов (новостные статьи) на 20 различных тематик.
В этой главе мы рассмотрим как:
- загрузить содержимое файла и категории
- выделить вектора признаков, подходящих для машинного обучения
- обучить одномерную модель выполнять категоризацию
- использовать стратегию grid search, чтобы найти наилучшую конфигурацию для извлечения признаков и для классификатора













