Читать далее
Java Developer
Кластеризация и классификация больших Текстовых данных с помощью машинного обучения на Java. Статья #2 — Алгоритмы
18 мин
6.5KПривет, Хабр! Сегодня будет продолжение темы Кластеризация и классификация больших Текстовых данных с помощью машинного обучения на Java. Данная статья является продолжением первой статьи.
Статья будет содержать Теорию, и реализацию алгоритмов который я применял.
+4
Кластеризация и классификация больших Текстовых данных с помощью машинного обучения на Java. Статья #1 — Теория
19 мин
15KДанная статья будет состоять из 3 частей (Теория/Методы и алгоритмы для решение задач/Разработка и реализация на Java) для описания полной картины. Первая статья будет включать только теорию, чтобы подготовить умы читателей.
Цель статьи:
- Частичная или полная автоматизация задачи кластеризации и классификации больших данных, а именно текстовых данных.
- Применение алгоритмов машинного обучение “без учителя” (кластеризация) и “с учителем” (классификация).
- Анализ текущих решений задач.
Задачки, которые будут рассматриваться в целом:
- Разработка и применение алгоритмов и методов обработки естественного языка.
- Разработка и применение методов кластеризации для определения кластерных групп входных документов.
- Применение методов классификации для определения предмета каждых кластерных групп.
- Разработка веб-интерфейса на основе Java Vaadin
Гипотезы, которые я вывел из задачки и при обучении теории:
- Классификация кластерных групп определяет абстрактные и более ценные скрытые знания, игнорируя шумы, чем классификация отдельных объектов.
- Точность кластеризации прямо пропорциональна количеству кластерных групп и обратно пропорциональна количеству объектов в одной кластерной группе.
Забегая вперед, кому интересен сам алгоритм, вот обзор.
Алгоритм программного обеспечение для машинного обучения состоит из 3 основных частей:
- Обработка естественного языка.
- токенизация;
- лемматизация;
- стоп-листинг;
- частота слов;
- Методы кластеризации.
TF-IDF ;
SVD;
нахождение кластерных групп;
- Методы классификации – Aylien API.
Итак, начнем теорию.
+3
Информация
- В рейтинге
- Не участвует
- Откуда
- Алматы (Алма-Ата), Алма-Атинская обл., Казахстан
- Дата рождения
- Зарегистрирован
- Активность