Как стать автором
Обновить

Комментарии 71

Спасибо. Давно не видел интересного дата-майнинга по Вконтакте, все только рукопожатия считают
А можно, пожалуйста, ссылочку на аналогичный майнинг по рукопожатиям?
Ну куча же, только на Хабре штук 5 точно. Гуглите «вконтакте рукопожатия»
Да, статья хорошая, вот только жаль, что завтра автор отправится прямиком в read-only за ссылку на свой сайт в самом конце поста.
Ещё не поздно добавить пост в хаб «Я пиарюсь», на всякий случай.
Война и мир в топе? Привет тебе, вселенная лицемерия и лжи.
На самом деле графики хорошо показывают, что читают очень и очень немногие. Те кто указал Толстого и Достоевского явно школьники, которых заставили прочесть, или недолекие люди, которые не смогли вспомнить больше ничего.
Булгаков из той же выборки, Ремарк — мейнстрим. Ясно что есть исключения, и находятся те, кто читал и понравилось.
А почему вы считаете Ремарка мейнстримом?

То есть, я его люблю, почти всё опубликованное прочитал, но в школьной программе его нет, да и ощущение стыда как-то сегодня не в моде.
Субъективное восприятие, много людей, которые не замечены в чтении или вообще в каких-либо интеллектуальных действах указывают Ремарка в любимых авторах. Это как Коэльо и 50 оттенков серого.
Повторюсь, это не касается всех, а только лишь большинство.
Дак они его скорее всего и не читают. Популярны цитаты и люди, читающие его, вот и указывают.
Сам Ремарк далёк от Коэльевского мейнстрима.
Очень интересно, что Ремарк сейчас так популярен именно в России. Большинство немецких студентов его никогда не читало, а на моём курсе в России была настоящая «эпидемия»! И в метро помню повсюду Триумфальную арку и Трёх товарищей.
Потому как та вакханалия, которую он описывает на примере Европы 20-40х как никогда близка нынешней России. Увы.
Ответ ожидаемый, но не думаю, что верный. Кроме того во времена вакханалии про вакханалию обычно смотреть и читать не очень любят.
Ремарка по крайней мере не дают в школе. Я думаю, что как минимум половина из указавших его знают, что Эрих Мария — это не муж и жена.
Мне кажется, в школьных программах есть «На западном фронте без перемен», но думаю, что это не самая популярная его книга из читаемых в России.
В программе нулевых не было, возможно и добавили позже.
Те кто указал Толстого и Достоевского явно школьники, которых заставили прочесть, или недолекие люди, которые не смогли вспомнить больше ничего.

Вообще-то факт указания фамилии в списке книг не говорит о том, что книга была прочитана.
Просто люди с «тонкой душевной организацией» считают своим долгом указать быдлу, что знакомы с творчеством великих! Даже если не открывали ни одной их книги.
Это возможно, но приведу и контраргумент: в случае обнаружения лжи друзья могут высмеять, коллеги разочароваться и пр. А пускать пыль в глаза незнакомым людям — зачем?
Проблема в том, что всем… пофиг. Мягко говоря.
Друзья даже читать не будут то, что там написано. А уж коллеги и подавно.
А те кто прочитают — не будут спрашивать.
Профиль в соц сетях — он чтобы казаться, а не быть.
В профилях всегда пишут о себе самое лучше приукрашивая и привирая.
Есть из этого даже занятный факт: серфинг в соц сетях уменьшает самооценку и вызывает депрессию.
Причина: друзья и знакомые живут, выглядят и добиваются большего, чем зритель.
Зритель знает, где у него на странице правда указана, а где приврано. При этом чужой профиль воспринимает как 100% правду… И впадает в депресняк, потому что вокруг все красивые успешные, один он лузер.
Правда пруф на это исследование сейчас не дам — не сохранился линк.
Я знаю об этом феномене, из моего окружения никто на такое не попадался, все о своих знакомых, как правило, знают правду. Даже обратное наблюдал: успешные не постят мусор и хвастовство, у них нет времени.
Насчёт Толстого ничего не скажу, но вот «Братьев Карамазовых» читал не так давно в первый раз и впечатление получил сильнейшее. В школе, думаю, прочитал бы по диагонали, если бы вообще прочитал.
Я недавно перечитал «Мертвые души» и порадовался тому, что эту ересь я не осилил в школе.
Полагаю, Достоевский столь недосягаем благодаря блондинкам!) Им внушили, что «илитная телочка» обязана быть знакома с его творчеством))
Одно из объяснений — люди смотрели фильм Война и мир, но это предположение, нужно проверять. К тому же это культурные сообщества, однозначно, что в бизнес или иных сообществах Толстой не будет в топе.
Эк вы обобщили!
Для участия в голосовании не требуется регистрация.

Странно, а у меня e-mail требуют и просят ввести код подтверждения, который туда выслали.
А как вы данные из Контакта вытаскивали? Там же, вроде, серьёзные сложности с парсингом и соответствием пользовательскому соглашению. Или что-то поменялось?
Я не автор, но отвечу.
Там есть небольшой список основных полей, который API возвращает всем и всегда без какого-либо токена, и список дополнительных. Есть также поле hidden, которое говорит о том, что пользователь поставил флажок в настройках, что его страница не видна из интернета. В случае, если этот флажок 1, а у вас нет пользовательского токена, передаются только запрошенные поля из основного списка, иначе передаются все поля, которые вы запросили.
В реальной жизни пользовательский токен получить легко: устанавливаете ваше приложение на любого подконтрольного вам пользователя, и токен у вас, можно смотреть все, что захотите.
Ниже есть ответ, уточню лишь, что мы использовали только API Вконтакте официальным способом, он дает все открытые поля, ограничения там вполне нормальные.
В голосовании участвуют произведения художественной литературы любой длины, любого жанра, написанные на любом языке в любой период времени.

И не одной зарубежной книги/книги на английском языке в топ 20. Это странно.
Вы считаете, что в России и СНГ много народу читает литературу на английском?
Ну, мне кажется, что хотя бы переводы читают довольно многие. По крайне мере, таких людей уж точно больше, чем тех, кто прочитал Войну и Мир.
А много среди них людей, которые указывают весь список прочитанной литературы вконтакте?:)
Это да, в этом, вы, видимо, правы.
Я так понимаю речь не о сборе инфы в контакте, а о голосовании на 100bestbooks.ru.
Потому что как раз в контактовской статистики иностранных авторов полно.
Давно заметил, что почти все голосовали и рейтинги книг в вконтакте — не объективны.
Многие ставят «Мастер и Маргарита» на первое место, но мало кто из тех, кого я спрашивал, смогли объяснить, чем же их это книга поразила.

И признайтесь, что каждый хочет выглядеть лучше в глазах знакомых и друзей, поэтому многие и пишут в «Любимые книги» Толстого, Достоевского и т.д. А по факту, читали их в школе и с того времени книг не открывали.
А надо?
Достойной литературы столько, что перечитывать что-то стоит, только если очень хочется.
Уже сейчас великих произведений столько, что один человек не способен их прочитать за всю свою жизнь…
Вообще я не прав, конечно. Каждое классическое произведение стоит прочитать минимум дважды:
Первый раз в школе, второй раз — когда сможешь понять.
Хуже того — понять можно много раз, в каждом возрасте всякий раз по новому ;-)
А у меня всегда проблема — не знаю, что почитать :(
НЛО прилетело и опубликовало эту надпись здесь
Я там был, но легче не стало. Проблема выбора осталась :)
Во вконтакте есть сообщество «Тысяча чертей, какая книга!» vk.com/amazingbook. Публикуют каждый день книги с абсолютно разной тематикой, и к каждому аннотацию добавляют. Проблема с выбором может быстро отпасть и появится проблема поиска свободного времени.
Многие ставят Мастер и Маргарита, потому что не так давно вышел одноименный и не самый плохой сериал. Не было бы сериала — никто бы и не вспомнил. И да, списки книг очень сильно повторяют школьную программу. У меня много читающих друзей, Стругацких прочитали все, а осознанно добраться до Достоевского смогли очень немногие. Так что графики меня не то чтобы озадачили, они вообще не имеют отношения к реальности.

В топе должны быть Маринина, Коэльо, Бах, Лукьяненко, Перумов и Толкин, а никого из них нет не то чтобы в десятке, они вообще в список не попали! Так что как указали выше, исходные данные — сплошное лицемерие и ложь, за исключением упомянутых групп, где означенные авторы упомянуты.

А сам анализ… Я ожидал выкладки, а не результативную статистику, построить гистограмму по уже извлеченным данным дело нехитрое.
Понимаю ваши сомнения, но у нас культурные сообщества, а не вообще все люди в городе. Во-вторых, перечисленные вами авторы есть в списках, но они не в топе, а может быть они не являются любимыми. Еще мы обрезали результаты до топ 30, чисто чтобы не загромождать. А что вы понимаете под выкладками?
Ну вы же понимаете, что анализ профилей и упоминаний по сути разные вещи, что тут было неоднократно отмечено. Т.е. вы анализировали не любимых авторов, а авторов, которые повышают значимость упомянувшего их, и тех авторов, которые есть в школьной программе.

Под выкладками я понимаю методику майнинга данных — как вы вычленяли авторов из интересов, какие технологии использовали, с какими проблемами столкнулись.
И все-таки я настаиваю, что нет данных сомневаться в достоверности указанных книг — или дайте ссылку на анализ, что люди врут Вконтакте, и причем сколько процентов и кто именно. Пока такого анализа я не встречал.
Ниже в комменте писал, что у вранья есть и обратная сторона: друзья и знакомые высмеют, если увидят книги, которые вы не читали, но указали. Я, например, долго вообще никаких книг не указывал, т.к. не хотел, чтобы все это видели.
Что касается упоминаний — это вообще другая задача, т.к. нужно проводить анализ контекста упоминания, факт упоминания тоже не означает факт чтения. В этом случае лучше анализ делать онлайн библиотек тогда уж.

В статье я решил остановиться на результатах анализа, а не на том, как его делать, т.к. это уже другая тема. Проблемы были с выделением авторов и книг из той каши, которую юзеры пишут в этом поле. Не решена проблема снятия неоднозначности с фамилиями типа Толстой (их 3).
Я вдруг подумал, что если вы анализировали исключительно культурные сообщества, то результаты вашего анализа могут вполне отвечать действительности, срез-то действительно не по всем людям. Кстати, было бы интересно разделить на группы уже авторов и сделать еще несколько рейтингов. Ну например, «русская классика», «русский модерн», «русские соврмененные», «западная классика», «западные современные» и так далее.

Было бы действительно очень интересно почитать про то, как вы решили эти проблемы.
Слишком мало читают Ремарка. Очень жаль. Могло бы всё быть по-другому, будь народ образованнее…
А это общедоступные API?
А вместе с тем, судя по опросу ВЦИОМ:
Россияне считают Дарью Донцову писателем года, сообщает ТАСС.

Лучшими среди музыкантов стали певец Филипп Киркоров и композитор Игорь Крутой, а Григорий Лепс и Стас Михайлов разделили вторую позицию.

Актером года россияне считают Дмитрия Нагиева.

Самыми популярными телепередачами остаются ток-шоу «Пусть говорят» и «Голос». Сериалом года стал «Физрук», а лучшим фильмом, как и в прошлом году, — «Сталинград»
Так смешно, что даже грустно
Любит наш народ, всякое…
Ну тут наверно аудитория несколько отличается от аудитории ВКонтакте.
Анализ себя не оправдал, на мой взгляд. Соглашусь с комментариями: в основном указывают «для понта» Достоевского и Булгакова да репостят цитатки из павликов. В моём аккаунте значилась пара любимых книг, но потом убрал. Не увидел смысла держать такие данные в вк.

Радует, что есть отдельные ресурсы, по которым видно, что остались читающие люди (фантлаб, лайвлиб).
А что за прелестное произведение «буквы и бумага» в списке лучших книг рвет все рекорды?
Раз уз устроили саморекламу, то хотя бы причесали отчёты оформление ужасно, бессмысленные нули в графиках, цифры наезжают друг на друга, произведение Гашека вовсе обрезано да ещё в начале.
Какие к чёрту биг даты, когда даже вычитка вашей статистики глазами рябит левыми данными. Сент_Экзюпери, ИльфПетров — реально все фанаты пишут имена этих авторов так? А два отдельных графика для произведений «Мастер» и «и Маргарита» или «Герой» и «нашего времени» — это что? Очень сомнительная статистика, у вас проблемы с парсингом.
Все верно, на самом деле есть и ляпы, которые вы не перечислили. Все учтем. По слитному написанию: я для простоты так представлял данные из рейтинга, т.к. бывают длинные фамилии и названия, да так и оставил. Это просто аспект реализации.
Еще стоит проблема снятия неоднозначности: если пишут Толстой, то понять, кого из трех Толстых имеют ввиду очень сложно.
Почему? Я думаю Лем был бы счастлив увидеть себя в одном списке с Достоевским и Толстым. Естественно на разных уровнях, но в одном списке
Стакан наполовину полон, да :)
Если бы при указании произведения в своих предпочтениях необходимо было ответить на несколько уточняющих вопросов (исключительно по тексту книги для подтверждения ее прочтения), то картина была бы несколько иной и книги в топе тоже были бы другие.
Только бездельники и праздные люди читают художественную литературу. Читайте учебники, научпоп, научные и философские труды. Вся стагнация и деградация, которая сегодня происходит в мире — следствие чтения художественной литературы. Долой сакрализацию художественных произведений в массы! Будьте думающими мужиками, черт подери!
Толстовато. Фильмы вы тоже только документальные смотрите?
Если это троллинг, то получилось толстовато.
Если это серьезно… то у вас проблемы.
Топ книг составляет школьная программа.
Статья была бы очень крутой если бы автор выложил хотя бы часть БД в общий доступ с более простой системой доступа чем сейчас. Убил 10 минут времени не получив образца БД — сделайте свой сайт понятнее.

Отпишитесь пожалуйста те, у кого получится преодолеть их долбанутую систему доступа к демо.
А это только мне кажется, что 65000 — это не совсем BigData, если данные вытаскивались только из профилей? Очевидно же, что результат анализа профиля показывает не то, что люди реально читают, а то, что они хотели бы, что бы другие думали, что они читают. Мы же все понимаем, что профиль — это не то, что человек есть, а то, что чем он хотел бы казаться в глазах других. Интересно было бы анализировать комментарии и диалоги и считать там упоминания книг и авторов. Вот это была бы совсем другая, действительно интересная и актуальная статистика.

Ну и вообще ничего не сказано про технологии извлечения данных, а гистограммы в Экзеле все строить умеют. На графиках нет даже второго измерения.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории