Как стать автором
Обновить
7
0
Александр Толмач @sobach

Пользователь

Отправить сообщение
«Обвязка» под свою базу данных мест, действительно, есть. Но пробный запрос по places.search в центре Москвы показывает, что этой базой практически не пользуются. Кремлевский дворец — всего 24 чекина, Оружейная палата — 8 чекинов и т.д. В общем, ситуация примерно ясна. Еще раз спасибо за материал.
Тут другое — судя по примерам в документации, если чекин транслируется из другой сети (Instagram, например), то привязки к базе мест ВКонтакте нет. Только координаты. Но, видимо, есть механизм чекина именно внутри ВКонтакта с использованием его базы мест. Тогда информация о месте должна быть. Видимо, вопрос надо сформулировать так — на практике — какой % чекинов ссылается на «внутриконтактную» базу мест, помимо координат?
По Foursquare — желаю, очень желаю. В «черновиках» маринуются три заготовки под посты. Но… то самое слово. Может на праздниках новогодних закончу что-то.
Ого! Только собрался обратиться к Places во ВКонтакте (после Foursquare) — и тут такой подарок. Спасибо большое! Подскажите еще такую вещь — не совсем понял из текста и документации — places.getCheckins возвращает какие-либо идентификаторы мест (именно как объектов «социального пространства», а не как широту-долготу в физическом) и есть ли у ВК база этих мест? Т.е., нужны не только long и lat, но и то что это условное «кафе „снежинка“». В примере из документации — в ответе есть поле place_id — вроде бы это оно, но оно везде нулевое. А как на практике?
Спасибо за уточнение. Интересно. Т.е., лучше полностью перевести все на OSM?
А вот сделаю в следующей версии так, что 80% изображения будет занимать одна Москва. Вот тогда точно будет волна, что никого не заботит… (о:
За ссылки на Москву спасибо. По поводу склеивания в граф. пакете — а зачем, если так все склеивается и в рамках R? Про Shiny — пытался использовать несколько раз, но мне он пока кажется сыроватым. Хотя и крайне интересным.
По поводу опустить вниз — согласен. Попробую. Спасибо! Про границы надо будет подумать еще.
Где-то год назад пытался изучить вопрос реконструкции возраста по косвенным признакам во ВКонтакте. Сравнивал прогнозный возраст и указанный пользователем. На случайных пользователях (где были боты, всяческие коллективные и заброшенные аккаунты): прогноз по местам обучения (школы + вузы) — в 90% ошибка не превышала ±3 года. Если делать прогноз исходя из возраста друзей — то «попадание» ±3 года было в 71% случаев. Распределение ошибок было ближе к нормальному (без смещений). Т.к. при обработке возраст часто группируется в 4-5 категорий — мне такой результат показался достаточным. И кстати — «выбросы» в 10 лет и больше чаще всего были там, где указанный пользователем возраст был явно «ненастоящим». В принципе, можно попробовать сделать классификатор качества прогноза — это могло бы еще повысить точность. Так что не все так плохо :)
Ага. Спасибо еще раз! В основном — понятно, нюансы — должны остаться в секрете.: о)
Спасибо! Как раз то, что и было интересно. К сожалению, не могу проголосовать.
Если еще не надоел со своими вопросами (на самом деле, интересно): почему используете свои словари, а не доступные свободно GeoNames или еще что-то? В свободных все так плохо?
Думаю, что большинство читателей хабра осознают разницу между соцопросами, счетчиками и вашим подходом по оценке аудитории. Все они имеют свои плюсы и минусы, каждый показывает что-то свое, но глобально вроде бы все «об одном».
Прелесть вашего подхода — в объемах данных, основной недостаток — необходимость оценивания параметров (в данном случае — живости и геолокации).
Я хочу понимать степень достоверности ваших оценок. Фальсифицируемость — основной критерий научности. Соответственно, информация о доле «нетегируемых» вами пользователей только улучшила бы мнение о вас и вашем подходе. Вы же по какой-то неведомой причине в ответ на просьбу указать точность пишите о «разработанных алгоритмах, которые нельзя разглашать».
То же самое с ботами. Популярность проблемы отсева ботов сложно переоценить. И опять все упирается к оценкам: насколько хорош ваш алгоритм в сравнении с другими? Не могут быть секретными такие оценки.
И еще один вопрос возник. Я правильно понимаю, что вот этот твиттер-пользователь вошел в число 451 039 активных пользователей-москвичей? В июне он твитил. Причем много. А сколько еще таких активных в Москве и других регионах?
Disclaimer: аккаунт для примера выбран совершенно случайным образом по спам-тегу #RT.
Список доступных для сбора/анализа полей профиля пользователя доступен по ссылке в предыдущем моем комментарии. Если это не time_zone и не location, то даже боюсь предположить, что именно вы используете. Name? Profile_image_url? Followers_count? Просто названия полей. Без тонкостей. По поводу анализа сообщений — известно же, что напрямую геотегированы порядка 1% всех сообщений. Остальные опять оценены «собственным алгоритмом геолокации»?
Тогда дайте accuracy&precision оценки вашего алгоритма. Пока самый лучший из известных мне алгоритмов способен «предсказать» локацию пользователя в 79% случаев с точностью в 100 миль. Это для мира. Если сосредоточиться только на России, оценки неизбежно ухудшатся.
Но даже с такими оценками говорить о превосходстве над данными социологических служб надо аккуратнее.
Честно говоря, причины мне абсолютно непонятны. Я же не спрашиваю пошаговый алгоритм. Меня просто интересует, какие поля user-object используются? Определяемый самим пользователем location (указанный далеко не у всех), time_zone (выдающий иногда «космические» результаты), может быть вообще из твитов гео-термины извлекаются (было бы круто)?
Просветите, как осуществлялась «привязка» пользователей к региону? Особенно интересует Twitter. А то в способе учета только про активность.
И да я не в коем случае не отговариваю использовать R.

И не отговорите :) IMHO, для каждой задачи — свой инструмент, и надо эти инструменты знать. Просто благодаря Вам я понял, что мой вариант не оптимальный, но по-прежнему интересный.
Судя по этому, данные по существующим странам и границам у basemap посвежее, чем у maps для R. Да, я все больше убеждаюсь, что pure python вариант был бы гораздо лаконичнее и проще. Надо будет как-нибудь попробовать.
Кажется, я где-то читал о проблемах, но сам не столкнулся (гистограмма в тексте — подписи осей отобразились без проблем). В данном случае — прикладной задачи как таковой и нет. Если в более общем виде — то и круг задач получается общий: «возможности исследований в соцсетях, процессы происходящие там же и тенденции». Как-то так. Прошу прощения за такую неопределенность.
Спасибо большое! Попробую сегодня посмотреть-поизучать. Да, вариант «все_в_одном» (все в python), особенно при решении прикладной задачи был бы удобнее.
1

Информация

В рейтинге
Не участвует
Откуда
Москва, Москва и Московская обл., Россия
Дата рождения
Зарегистрирован
Активность