Pull to refresh

Comments 5

Кажется, тут что-то пропущено. Новости же были не из одного слова? А тогда как вы строили вектор новости из векторов слов? Это же тоже можно по-разному делать. Кроме того, можно было попробовать topic modeling новостям сделать, то бишь LDA или как его там. А вдруг бы на топиках кластеризация лучше взлетела.

У меня сын (студент ВШЭ СпБ) делал точно такую же лабораторную работу по питону, а я ему помогал немного, знаю... И, судя по всему, использовал ту же методичку: нижний регистр, стоп-слова, лемматизация, токенизация, кластеризация; тот же Word2Vec и KMeans; картинки те же. Правда в отличие от, данные брались иные, и кластеризация отработала как надо. Хорошо что этого достаточно на статью на Хабре :)

Ну или если достаточно, то можно дополнить её ссылкой на те методические материалы, на основе которых этот "неудачный опыт" (с) ставился.

Интересно было бы сравнить результаты не только метриками моделей на векторизированных параметрах, но и просто посмотреть на сами новости, которые попали в аномалии на разных моделях - еще лучше как-то прогнать их через разметку целевой аудиторией биржевых игроков, чтобы иметь обучение с подкреплением.

А насколько вообще идея рассмотрения новостей по отдельности релевантна задаче - предсказания влияния на биржу? Не разумно ли ожидать, что одна и та же новость - в зависимости от контекста всей ситуации в мире - может вызвать различную реакцию на биржах, ну или хотя бы различную по интенсивности, если не по знаку?

А в чем собственно заключается неудачность опыта?)

Sign up to leave a comment.

Articles