Как стать автором
Обновить

Комментарии 9

очень круто! очень интересный инструмент получается. Вас теперь могут пригласить в Ленту аналитиком)

Спасибо! Интересный вариант)

Любопытный подход.

Можно-ли определить каталог категорий для незнакомой области?
Или нужно начинать с некоторого списка категорий, а затем корректировать (сужать/расширять)?

У меня 600+к новостей из разных источников (банковские, с 1990) и определение трендов может быть полезен для читателей.

Интересный вопрос! Думаю, что есть более продвинутые методы выделения ключевых слов из новостей, и на основании этого уже можно будет определять либо сразу какие-то крупные высокочастотные категории, либо потом с помощью того же W2V более узкие

Интересно. но, я не понял цели Вашего исследования. Результаты полученны вполне ожидаемые и очевидные.

Тут скорее цель была продемонстрировать эти методы на реальных данных, для начала в учебных целях

Я так никогда не делал, поэтому интересно, сколько времени заняла первая часть кода с парсингом 365 страниц и выделением 93к строк для дф?

Парсинг страниц за одну дату занимает примерно 10-12 секунд

Очень интересно! Всегда раздражала имитация новостей в играх - по-моему, отсюда можно что-то применить для хорошей модели блока событий в выдуманных мирах - события мира, недоинформированность СМИ, преднамеренные и непреднамеренные искажения и откровенные фейки в зависимости от культуры обществ и целей СМИ, утеря связующих событий между казалось бы несвязанными сообщениями.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий