Comments 16
Застрял на этапе открытия исходного датасета.
Наконец-то советская байка про спецотдел гебни, придумывающий анекдоты, пробила себе ход в реальную жизнь.
Мелкое замечание. Как вы можете видеть, слово filter
является встроенной функцией питона, и именно поэтому оно подсвечивается в вашем коде. Не используйте названия встроенных функций в качестве имён своих переменных. А так исследование вполне. )
Какая-то статистика собрана, с чем-то поигрались, но выводы (нормальные/полезные) не сделаны... Без обид, но похоже на некачественно сделанный анализ!
Ну ту ведь как, начать с того, "что есть польза". И нет обид, подскажите, какую пользу вы бы видели в такой работе? Будет для меня ориентиром, если не сейчас, то в дальнейшем.
Ну, давайте думать вместе. А какая польза может быть с рандомных топиков?
То есть, ставьте гипотезы, а потом их уже доказывайте или опровергайте.
Спасибо, договорились. Стадии "разоблачения", т.е. детальному анализу для доказательства гипотезы, что полученные топики воспроизводимы, я посвящу следующую работу.
Ну, может они и воспроизводимы, например, можно собрать топик, в котором будет слово "её". Однозначно воспроизводимо. Но полезен ли кому-то такой топик?
Основная проблема рандомных топиков -- их неинтерпретируемость.
Скушна
История о том, как прочитать 120 тысяч анекдотов и не рассмеяться раньше времени