Комментарии 8
бдсм
API — это очень специфический путь, который может оборваться в любой момент.
Гораздо интереснее было бы почитать про сбор данных через selenium, благо пакет RSelenium запускается из коробки, без бубна.
Гораздо интереснее было бы почитать про сбор данных через selenium, благо пакет RSelenium запускается из коробки, без бубна.
мне в API отказали. Но я честно написал что для исследования и nlp. Теперь придется идти путем селениума)))) Благо аккаунты продаются и стоят не дорого.
мне в API отказали.
Вот-вот. Или, как было у меня, работаешь с апи, и вдруг тебе что-то перестают отдавать, потому что __важная_причина_от_владельцев_апи__.
Ну такое. Если есть возможность использовать API, то, имхо, лучше использовать именно API. С Selenium тоже можно регулярно огребать… Обновления дизайна, блокировки по IP(приходится закупать прокси) и всякое прочее. Да и ресурсов больше кушает
Для русского, стоп-слова есть в пакете tm,
а стемминг можно сделать из пакета SnowcallC
а стемминг можно сделать из пакета SnowcallC
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Data-mining и Твиттер