Datactive Apr 6 at 11:30

Анализ новостей с помощью сегментации и кластеризации временных рядов

10 min

6.2K

OTUS corporate blogPython*Data visualization*Machine learning*

From sandbox

+20

Comments 9

Mirilis Apr 6 at 21:24

очень круто! очень интересный инструмент получается. Вас теперь могут пригласить в Ленту аналитиком)

Datactive Apr 6 at 21:24

Спасибо! Интересный вариант)

vagon333 Apr 7 at 09:08

Любопытный подход.

Можно-ли определить каталог категорий для незнакомой области?
Или нужно начинать с некоторого списка категорий, а затем корректировать (сужать/расширять)?

У меня 600+к новостей из разных источников (банковские, с 1990) и определение трендов может быть полезен для читателей.

Datactive Apr 7 at 14:05

Интересный вопрос! Думаю, что есть более продвинутые методы выделения ключевых слов из новостей, и на основании этого уже можно будет определять либо сразу какие-то крупные высокочастотные категории, либо потом с помощью того же W2V более узкие

Edwward Apr 7 at 13:48

Интересно. но, я не понял цели Вашего исследования. Результаты полученны вполне ожидаемые и очевидные.

Datactive Apr 7 at 13:53

Тут скорее цель была продемонстрировать эти методы на реальных данных, для начала в учебных целях

Alexander26984 Apr 7 at 13:53

Я так никогда не делал, поэтому интересно, сколько времени заняла первая часть кода с парсингом 365 страниц и выделением 93к строк для дф?

Datactive Apr 7 at 13:55

Парсинг страниц за одну дату занимает примерно 10-12 секунд

IduMimo71 Apr 8 at 12:32

Очень интересно! Всегда раздражала имитация новостей в играх - по-моему, отсюда можно что-то применить для хорошей модели блока событий в выдуманных мирах - события мира, недоинформированность СМИ, преднамеренные и непреднамеренные искажения и откровенные фейки в зависимости от культуры обществ и целей СМИ, утеря связующих событий между казалось бы несвязанными сообщениями.