ildarchegg Dec 4 2017 at 15:31

Анализируй это — Lenta.ru

47 min

24K

Data Mining*Big Data*R*Open data*

+18

Comments 23

Diaskhan Dec 4 2017 at 16:03

Обожаю Ленту за ее UI !

netcitizen Dec 4 2017 at 16:14

А я всё мечтаю добраться и сделать какой-то семантический анализ заголовков и содержания новостей Ленты, чтобы подтвердить или опровергнуть своё личное ощущение по поводу сильно упавшего качества её контента за последние годы.
Возможно стоило чуть по-другому оформить разбивку по рубрикам, т.к. субъективно она выглядит плохо читаемой.

Спасибо за статью и датасет.

ildarchegg Dec 4 2017 at 16:18

Я тоже мечтаю, но понятия не имею как это сделать. Буду рад если поделитесь результами, а лучше ссылкой на статью на хабре, где это опишите)

netcitizen Dec 4 2017 at 16:28

Займусь, как будет время непременно.
Не совсем по теме, но близко была хорошая статья feriat с аналитикой по Медузе.

ildarchegg Dec 4 2017 at 16:35

Спасибо, очень интересно. У меня в блокноте отмечен пункт по поводу шар в соцсетях — попробовать проанализировать почему одни статьи шарят в ФБ, другие в ВК и прочее. Ну и в продолжение почему одни статьи камментят больше — может какие ключевые слова в статье вызывают срач.

woworks Dec 4 2017 at 16:41

# Stop using anal as a variable!
# Wherever I look I see anal this and anal that!
# So please stop.
# Use analyze or xbvvzr or whatever and not anal_insert or anal_check

habrahabr.ru/post/343168

quantum Dec 4 2017 at 17:05

> Ну а с wget мне помог справиться все тот же гугл.
> Несмотря на то, что вся разработка велась в среде macOS, необходимость использования wget… пришлось сузить среду исполнения до Windows

Эмм, первая же ссылка в гугле ru.wikipedia.org/wiki/Wget:
Wget[3] — (GNU Wget) свободная неинтерактивная консольная программа для загрузки файлов по сети.… Программа включена почти во все дистрибутивы GNU/Linux.

Что есть на линуксе, то есть и на маке…

ildarchegg Dec 4 2017 at 17:28

хм… со мной все ясно… я думал wget для windows, curl для linux)

RomanL Dec 4 2017 at 17:17

Отличное имя домена, очень подходит ))

Crysdd Dec 4 2017 at 18:27

Многопоточность на коленке в линуксе (ну и в маке, наверное) вообще не проблема.

cat lenta.urls | xargs -P 100 -n1 wget

Вместо wget в этом коде можно подставить любую команду или скрипт.

BeppeGrillo Dec 4 2017 at 20:00

lenta-anal.ru

Хороший домен, нужны деньги будут можно немного другим еее контентом… тематическим наполнить

feudor1 Dec 5 2017 at 03:14

если с домена поставить переадресацию на lenta.ru то это будет пользоватся спросом чтобы давать ссылки на ленту через эту переадресацию. А еще для таких целей подойдет домен lentav.ru

befree Dec 5 2017 at 13:09

Часть про закачку и парсинг невольно вызвала улыбку и напомнила картинку про удивительный мир программирования.
Со своей стороны могу сказать, что я увлекаюсь JS в целом и Node.JS в частности. Как-то раз мне захотелось пограбить сайт Интерфакс. Там со ссылками на новости все проще гораздо у них в ссылке просто числовой идентификатор новости.
Так вот, я использовал интрументы cheerio ( www.npmjs.com/package/cheerio ) для парсинга по CSS-селекторам и needle ( www.npmjs.com/package/needle ) для закачки страницы. Из-за асинхронной модели в Javascript количество запросов к серверу было просто нечеловеческое, вплоть до того, что от некоторых запросов сайт Интерфакса начинал отбрыкиваться. Я точно не помню уже, но 1000 новостей сохранялись в json за вполне вменяемое время — не более двух минут.
Возможно, вам в языке R надо было искать не многопоточные средства, а смотреть как там дела обстоят с асинхронностью.

atikhonov Dec 6 2017 at 09:47

Да, можно через «фьючерсы» попробовать

atikhonov Dec 6 2017 at 09:46

<не в ту ветку>

Closius Dec 6 2017 at 09:59

Так ну окей распарсили. А дальше то что? Или это статья просто про то как данные собирать?

ildarchegg Dec 6 2017 at 10:02

Вопрос более чем правильный. Это именно один тех вопросов, на который я хотел найти ответ, публикуя эту статью. Уверен, что при грамотном подходе из этих данных можно вытащить много интересного. Вот и прощу помощь зала. И про «статья просто про то как данные собирать» тоже верно, делюсь опытом, может кто-то для себя почерпнет, а может кто-то укажет на неоптимальность или существующие более правильные подходы.

ElvinFox Dec 7 2017 at 16:20

Большое спасибо за статью, как раз размышлял над data mining в R (раньше думал что эффективней связка Python crawler -> DataBase -> Rstudio)

Хотел бы предложить вопросы\направления для дальнейшего исследования df:
1. Облака тегов\ключевых слов по неделям\дням\годам
2. Попробовать сделать нечто похожее
3. Сопоставить тенденции п.1 с различными индикаторами (курс рубля, нефти и т.д.)

ildarchegg Dec 7 2017 at 16:26

Спасибо за подсказки, про облако себе отметил. Про тональность тоже думал, но пока не знаю как это делать в контексте русского языка (не нашел словаря позитив-негатив). Про сопоставить с индикаторами — тоже записал.

а про питон — я сейчас как раз работаю над вторым мини проектом — суть будет схожая, но из-за особенностей (опишу когда опубликую статью с результатами) решил попробовать питон. посмотрим что получится)

third112 Dec 8 2017 at 05:23

И так, эта статья будет посвящена добыванию и очистке данных, которые будут пригодны для анализа Lenta.ru.

Какого анализа? Не понял постановки задачи. И где выводы?

ildarchegg Dec 8 2017 at 10:32

Однако если быть честным, то подходя к выбору объекта я практически не учитывал вопросы «а что я буду с этой датой делать» и «какие вопросы буду задавать».

Так что хз какого анализа. Тут я по сути выступил в роли дата инженера. А что с этой датой делать должен ответить дата саентолог. И выводы он же сделать должен)

Myonin Apr 5 2018 at 09:20

Хотел поиграться с данными, но не получилось. Файл lenta-ru-data-set_19990901_20171204.json при распаковке выдаёт ошибку CRC. MongoDB где-то половину объектов из json распознаёт. Файл точно целый? Возможно, это у меня где-то косяк.

Myonin Nov 13 2018 at 16:33

Совершеннолетняя журналистика: от России до Кремля

-1

Show the best of all time