Комментарии 71
Спасибо. Давно не видел интересного дата-майнинга по Вконтакте, все только рукопожатия считают
А можно, пожалуйста, ссылочку на аналогичный майнинг по рукопожатиям?
Да, статья хорошая, вот только жаль, что завтра автор отправится прямиком в read-only за ссылку на свой сайт в самом конце поста.
Война и мир в топе? Привет тебе, вселенная лицемерия и лжи.
На самом деле графики хорошо показывают, что читают очень и очень немногие. Те кто указал Толстого и Достоевского явно школьники, которых заставили прочесть, или недолекие люди, которые не смогли вспомнить больше ничего.
Булгаков из той же выборки, Ремарк — мейнстрим. Ясно что есть исключения, и находятся те, кто читал и понравилось.
А почему вы считаете Ремарка мейнстримом?
То есть, я его люблю, почти всё опубликованное прочитал, но в школьной программе его нет, да и ощущение стыда как-то сегодня не в моде.
То есть, я его люблю, почти всё опубликованное прочитал, но в школьной программе его нет, да и ощущение стыда как-то сегодня не в моде.
Субъективное восприятие, много людей, которые не замечены в чтении или вообще в каких-либо интеллектуальных действах указывают Ремарка в любимых авторах. Это как Коэльо и 50 оттенков серого.
Повторюсь, это не касается всех, а только лишь большинство.
Повторюсь, это не касается всех, а только лишь большинство.
Дак они его скорее всего и не читают. Популярны цитаты и люди, читающие его, вот и указывают.
Сам Ремарк далёк от Коэльевского мейнстрима.
Сам Ремарк далёк от Коэльевского мейнстрима.
Очень интересно, что Ремарк сейчас так популярен именно в России. Большинство немецких студентов его никогда не читало, а на моём курсе в России была настоящая «эпидемия»! И в метро помню повсюду Триумфальную арку и Трёх товарищей.
Ремарка по крайней мере не дают в школе. Я думаю, что как минимум половина из указавших его знают, что Эрих Мария — это не муж и жена.
Те кто указал Толстого и Достоевского явно школьники, которых заставили прочесть, или недолекие люди, которые не смогли вспомнить больше ничего.
Вообще-то факт указания фамилии в списке книг не говорит о том, что книга была прочитана.
Просто люди с «тонкой душевной организацией» считают своим долгом указать быдлу, что знакомы с творчеством великих! Даже если не открывали ни одной их книги.
Это возможно, но приведу и контраргумент: в случае обнаружения лжи друзья могут высмеять, коллеги разочароваться и пр. А пускать пыль в глаза незнакомым людям — зачем?
Проблема в том, что всем… пофиг. Мягко говоря.
Друзья даже читать не будут то, что там написано. А уж коллеги и подавно.
А те кто прочитают — не будут спрашивать.
Профиль в соц сетях — он чтобы казаться, а не быть.
В профилях всегда пишут о себе самое лучше приукрашивая и привирая.
Есть из этого даже занятный факт: серфинг в соц сетях уменьшает самооценку и вызывает депрессию.
Причина: друзья и знакомые живут, выглядят и добиваются большего, чем зритель.
Зритель знает, где у него на странице правда указана, а где приврано. При этом чужой профиль воспринимает как 100% правду… И впадает в депресняк, потому что вокруг все красивые успешные, один он лузер.
Правда пруф на это исследование сейчас не дам — не сохранился линк.
Друзья даже читать не будут то, что там написано. А уж коллеги и подавно.
А те кто прочитают — не будут спрашивать.
Профиль в соц сетях — он чтобы казаться, а не быть.
В профилях всегда пишут о себе самое лучше приукрашивая и привирая.
Есть из этого даже занятный факт: серфинг в соц сетях уменьшает самооценку и вызывает депрессию.
Причина: друзья и знакомые живут, выглядят и добиваются большего, чем зритель.
Зритель знает, где у него на странице правда указана, а где приврано. При этом чужой профиль воспринимает как 100% правду… И впадает в депресняк, потому что вокруг все красивые успешные, один он лузер.
Правда пруф на это исследование сейчас не дам — не сохранился линк.
Насчёт Толстого ничего не скажу, но вот «Братьев Карамазовых» читал не так давно в первый раз и впечатление получил сильнейшее. В школе, думаю, прочитал бы по диагонали, если бы вообще прочитал.
Полагаю, Достоевский столь недосягаем благодаря блондинкам!) Им внушили, что «илитная телочка» обязана быть знакома с его творчеством))
Одно из объяснений — люди смотрели фильм Война и мир, но это предположение, нужно проверять. К тому же это культурные сообщества, однозначно, что в бизнес или иных сообществах Толстой не будет в топе.
Эк вы обобщили!
Для участия в голосовании не требуется регистрация.
Странно, а у меня e-mail требуют и просят ввести код подтверждения, который туда выслали.
А как вы данные из Контакта вытаскивали? Там же, вроде, серьёзные сложности с парсингом и соответствием пользовательскому соглашению. Или что-то поменялось?
Я не автор, но отвечу.
Там есть небольшой список основных полей, который API возвращает всем и всегда без какого-либо токена, и список дополнительных. Есть также поле hidden, которое говорит о том, что пользователь поставил флажок в настройках, что его страница не видна из интернета. В случае, если этот флажок 1, а у вас нет пользовательского токена, передаются только запрошенные поля из основного списка, иначе передаются все поля, которые вы запросили.
В реальной жизни пользовательский токен получить легко: устанавливаете ваше приложение на любого подконтрольного вам пользователя, и токен у вас, можно смотреть все, что захотите.
Там есть небольшой список основных полей, который API возвращает всем и всегда без какого-либо токена, и список дополнительных. Есть также поле hidden, которое говорит о том, что пользователь поставил флажок в настройках, что его страница не видна из интернета. В случае, если этот флажок 1, а у вас нет пользовательского токена, передаются только запрошенные поля из основного списка, иначе передаются все поля, которые вы запросили.
В реальной жизни пользовательский токен получить легко: устанавливаете ваше приложение на любого подконтрольного вам пользователя, и токен у вас, можно смотреть все, что захотите.
Ниже есть ответ, уточню лишь, что мы использовали только API Вконтакте официальным способом, он дает все открытые поля, ограничения там вполне нормальные.
В голосовании участвуют произведения художественной литературы любой длины, любого жанра, написанные на любом языке в любой период времени.
И не одной зарубежной книги/книги на английском языке в топ 20. Это странно.
И не одной зарубежной книги/книги на английском языке в топ 20. Это странно.
Вы считаете, что в России и СНГ много народу читает литературу на английском?
Давно заметил, что почти все голосовали и рейтинги книг в вконтакте — не объективны.
Многие ставят «Мастер и Маргарита» на первое место, но мало кто из тех, кого я спрашивал, смогли объяснить, чем же их это книга поразила.
И признайтесь, что каждый хочет выглядеть лучше в глазах знакомых и друзей, поэтому многие и пишут в «Любимые книги» Толстого, Достоевского и т.д. А по факту, читали их в школе и с того времени книг не открывали.
Многие ставят «Мастер и Маргарита» на первое место, но мало кто из тех, кого я спрашивал, смогли объяснить, чем же их это книга поразила.
И признайтесь, что каждый хочет выглядеть лучше в глазах знакомых и друзей, поэтому многие и пишут в «Любимые книги» Толстого, Достоевского и т.д. А по факту, читали их в школе и с того времени книг не открывали.
А надо?
Достойной литературы столько, что перечитывать что-то стоит, только если очень хочется.
Уже сейчас великих произведений столько, что один человек не способен их прочитать за всю свою жизнь…
Достойной литературы столько, что перечитывать что-то стоит, только если очень хочется.
Уже сейчас великих произведений столько, что один человек не способен их прочитать за всю свою жизнь…
Вообще я не прав, конечно. Каждое классическое произведение стоит прочитать минимум дважды:
Первый раз в школе, второй раз — когда сможешь понять.
Первый раз в школе, второй раз — когда сможешь понять.
А у меня всегда проблема — не знаю, что почитать :(
НЛО прилетело и опубликовало эту надпись здесь
Я там был, но легче не стало. Проблема выбора осталась :)
Во вконтакте есть сообщество «Тысяча чертей, какая книга!» vk.com/amazingbook. Публикуют каждый день книги с абсолютно разной тематикой, и к каждому аннотацию добавляют. Проблема с выбором может быстро отпасть и появится проблема поиска свободного времени.
Многие ставят Мастер и Маргарита, потому что не так давно вышел одноименный и не самый плохой сериал. Не было бы сериала — никто бы и не вспомнил. И да, списки книг очень сильно повторяют школьную программу. У меня много читающих друзей, Стругацких прочитали все, а осознанно добраться до Достоевского смогли очень немногие. Так что графики меня не то чтобы озадачили, они вообще не имеют отношения к реальности.
В топе должны быть Маринина, Коэльо, Бах, Лукьяненко, Перумов и Толкин, а никого из них нет не то чтобы в десятке, они вообще в список не попали! Так что как указали выше, исходные данные — сплошное лицемерие и ложь, за исключением упомянутых групп, где означенные авторы упомянуты.
А сам анализ… Я ожидал выкладки, а не результативную статистику, построить гистограмму по уже извлеченным данным дело нехитрое.
В топе должны быть Маринина, Коэльо, Бах, Лукьяненко, Перумов и Толкин, а никого из них нет не то чтобы в десятке, они вообще в список не попали! Так что как указали выше, исходные данные — сплошное лицемерие и ложь, за исключением упомянутых групп, где означенные авторы упомянуты.
А сам анализ… Я ожидал выкладки, а не результативную статистику, построить гистограмму по уже извлеченным данным дело нехитрое.
Понимаю ваши сомнения, но у нас культурные сообщества, а не вообще все люди в городе. Во-вторых, перечисленные вами авторы есть в списках, но они не в топе, а может быть они не являются любимыми. Еще мы обрезали результаты до топ 30, чисто чтобы не загромождать. А что вы понимаете под выкладками?
Ну вы же понимаете, что анализ профилей и упоминаний по сути разные вещи, что тут было неоднократно отмечено. Т.е. вы анализировали не любимых авторов, а авторов, которые повышают значимость упомянувшего их, и тех авторов, которые есть в школьной программе.
Под выкладками я понимаю методику майнинга данных — как вы вычленяли авторов из интересов, какие технологии использовали, с какими проблемами столкнулись.
Под выкладками я понимаю методику майнинга данных — как вы вычленяли авторов из интересов, какие технологии использовали, с какими проблемами столкнулись.
И все-таки я настаиваю, что нет данных сомневаться в достоверности указанных книг — или дайте ссылку на анализ, что люди врут Вконтакте, и причем сколько процентов и кто именно. Пока такого анализа я не встречал.
Ниже в комменте писал, что у вранья есть и обратная сторона: друзья и знакомые высмеют, если увидят книги, которые вы не читали, но указали. Я, например, долго вообще никаких книг не указывал, т.к. не хотел, чтобы все это видели.
Что касается упоминаний — это вообще другая задача, т.к. нужно проводить анализ контекста упоминания, факт упоминания тоже не означает факт чтения. В этом случае лучше анализ делать онлайн библиотек тогда уж.
В статье я решил остановиться на результатах анализа, а не на том, как его делать, т.к. это уже другая тема. Проблемы были с выделением авторов и книг из той каши, которую юзеры пишут в этом поле. Не решена проблема снятия неоднозначности с фамилиями типа Толстой (их 3).
Ниже в комменте писал, что у вранья есть и обратная сторона: друзья и знакомые высмеют, если увидят книги, которые вы не читали, но указали. Я, например, долго вообще никаких книг не указывал, т.к. не хотел, чтобы все это видели.
Что касается упоминаний — это вообще другая задача, т.к. нужно проводить анализ контекста упоминания, факт упоминания тоже не означает факт чтения. В этом случае лучше анализ делать онлайн библиотек тогда уж.
В статье я решил остановиться на результатах анализа, а не на том, как его делать, т.к. это уже другая тема. Проблемы были с выделением авторов и книг из той каши, которую юзеры пишут в этом поле. Не решена проблема снятия неоднозначности с фамилиями типа Толстой (их 3).
Я вдруг подумал, что если вы анализировали исключительно культурные сообщества, то результаты вашего анализа могут вполне отвечать действительности, срез-то действительно не по всем людям. Кстати, было бы интересно разделить на группы уже авторов и сделать еще несколько рейтингов. Ну например, «русская классика», «русский модерн», «русские соврмененные», «западная классика», «западные современные» и так далее.
Было бы действительно очень интересно почитать про то, как вы решили эти проблемы.
Было бы действительно очень интересно почитать про то, как вы решили эти проблемы.
Слишком мало читают Ремарка. Очень жаль. Могло бы всё быть по-другому, будь народ образованнее…
А это общедоступные API?
А вместе с тем, судя по опросу ВЦИОМ:
Россияне считают Дарью Донцову писателем года, сообщает ТАСС.
Лучшими среди музыкантов стали певец Филипп Киркоров и композитор Игорь Крутой, а Григорий Лепс и Стас Михайлов разделили вторую позицию.
Актером года россияне считают Дмитрия Нагиева.
Самыми популярными телепередачами остаются ток-шоу «Пусть говорят» и «Голос». Сериалом года стал «Физрук», а лучшим фильмом, как и в прошлом году, — «Сталинград»
Анализ себя не оправдал, на мой взгляд. Соглашусь с комментариями: в основном указывают «для понта» Достоевского и Булгакова да репостят цитатки из павликов. В моём аккаунте значилась пара любимых книг, но потом убрал. Не увидел смысла держать такие данные в вк.
Радует, что есть отдельные ресурсы, по которым видно, что остались читающие люди (фантлаб, лайвлиб).
Радует, что есть отдельные ресурсы, по которым видно, что остались читающие люди (фантлаб, лайвлиб).
А что за прелестное произведение «буквы и бумага» в списке лучших книг рвет все рекорды?
Раз уз устроили саморекламу, то хотя бы причесали отчёты оформление ужасно, бессмысленные нули в графиках, цифры наезжают друг на друга, произведение Гашека вовсе обрезано да ещё в начале.
Какие к чёрту биг даты, когда даже вычитка вашей статистики глазами рябит левыми данными. Сент_Экзюпери, ИльфПетров — реально все фанаты пишут имена этих авторов так? А два отдельных графика для произведений «Мастер» и «и Маргарита» или «Герой» и «нашего времени» — это что? Очень сомнительная статистика, у вас проблемы с парсингом.
Какие к чёрту биг даты, когда даже вычитка вашей статистики глазами рябит левыми данными. Сент_Экзюпери, ИльфПетров — реально все фанаты пишут имена этих авторов так? А два отдельных графика для произведений «Мастер» и «и Маргарита» или «Герой» и «нашего времени» — это что? Очень сомнительная статистика, у вас проблемы с парсингом.
Все верно, на самом деле есть и ляпы, которые вы не перечислили. Все учтем. По слитному написанию: я для простоты так представлял данные из рейтинга, т.к. бывают длинные фамилии и названия, да так и оставил. Это просто аспект реализации.
Еще стоит проблема снятия неоднозначности: если пишут Толстой, то понять, кого из трех Толстых имеют ввиду очень сложно.
Еще стоит проблема снятия неоднозначности: если пишут Толстой, то понять, кого из трех Толстых имеют ввиду очень сложно.
За Лема обидно немного.
Если бы при указании произведения в своих предпочтениях необходимо было ответить на несколько уточняющих вопросов (исключительно по тексту книги для подтверждения ее прочтения), то картина была бы несколько иной и книги в топе тоже были бы другие.
Только бездельники и праздные люди читают художественную литературу. Читайте учебники, научпоп, научные и философские труды. Вся стагнация и деградация, которая сегодня происходит в мире — следствие чтения художественной литературы. Долой сакрализацию художественных произведений в массы! Будьте думающими мужиками, черт подери!
Топ книг составляет школьная программа.
Статья была бы очень крутой если бы автор выложил хотя бы часть БД в общий доступ с более простой системой доступа чем сейчас. Убил 10 минут времени не получив образца БД — сделайте свой сайт понятнее.
Отпишитесь пожалуйста те, у кого получится преодолеть их долбанутую систему доступа к демо.
Отпишитесь пожалуйста те, у кого получится преодолеть их долбанутую систему доступа к демо.
А это только мне кажется, что 65000 — это не совсем BigData, если данные вытаскивались только из профилей? Очевидно же, что результат анализа профиля показывает не то, что люди реально читают, а то, что они хотели бы, что бы другие думали, что они читают. Мы же все понимаем, что профиль — это не то, что человек есть, а то, что чем он хотел бы казаться в глазах других. Интересно было бы анализировать комментарии и диалоги и считать там упоминания книг и авторов. Вот это была бы совсем другая, действительно интересная и актуальная статистика.
Ну и вообще ничего не сказано про технологии извлечения данных, а гистограммы в Экзеле все строить умеют. На графиках нет даже второго измерения.
Ну и вообще ничего не сказано про технологии извлечения данных, а гистограммы в Экзеле все строить умеют. На графиках нет даже второго измерения.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Анализ Вконтакте на примере книжных предпочтений участников культурных сообществ