Профессор экономики Янис Варуфакис из Афин, консультировавший компанию Valve во время создания рынков виртуальных товаров в играх Dota 2 и Team Fortress 2, стал министром финансов Греции — tjournal.ru/paper/greece-economics-dota
Измерялась относительная величина — позитив, деленный на негатив. Культурные особенности — сдержанность — не могли на нем сказаться. Поскольку в этом случае вы также сдержаны и в выражении негатива.
Подобная методика исследования уровня напряженности в региональном разрезе по социальным медиа не нова. Ее проводят исследовательские группы в разных странах. Например в университете Вермонта — russian.rt.com/article/4847. Мы его немного адаптировали для увеличения точности — взяли эмоциональные высказывания только от первого лица и в настоящем времени; составили русскоязычный словарь выражения эмоций (провели соответствующий частотный анализ выражений на русском языке); взяли не только Твиттер, а все русскоязычные соцмедиа (поскольку проникновение Твиттера у нас не слишком большой, особенно по регионам).
Основная предпосылка исследования — при повышении негатива в окружении человека увеличивается его раздражительность, которая часто проявляется по отношению к посторонним вещам, а не к причине раздражения (плохо на работе, пойду пну собаку; когда мне хорошо, я вижу больше позитива, чем негатива). Меряем выражение эмоций — можем сделать вывод об удовлетворенности жизнью.
Кстати, сарказ и ирония — это менее 0,1% всего объема сообщений. Никак не сказывается на общих результатах.
Для SSM-щиков, и вообще для маркетологов. Аудиторию в целом (посетителей) исследуют для продажи рекламы, а активных авторов — для взаимодействия с ними (формирования сообщества, повышения лояльности пр.), для маркетинговых и социологических исследований.
Очень странное мнение… Вообще-то речь идет о базе в 7 млрд. сообщений (более 50 терабайт), новых записей 400-500 в секунду, с реалтайм анализом (определение языка, разворачивание ссылок, обновление и анализ авторов, анализ спам-ботов и пр.). Анализ произведен по 650 млн сообщений (4,5 терабайт). Серверов несколько десятков (специализированных HP). Мало?
По Одноклассникам сбор идет только по группам (особенность API ОК). Данные были бы нерепрезентативны. Работаем над этим. Надеюсь, к следующему исследованию решим вопрос.
Более 60 установок за сутки :) По отзывам и пожаланиям доработано: опциональная возможность «невидимого скроллинга», а также защита от ошибок встраивания (возникала при зажимании фрейма стилями сайта)
Вопросы сбора и хранения данных у нас уже решены. Это та самая Платформа, о которой говорилось в статье. Вы правы, создание такой системы стоит ооочень дорого.
Там есть и сбор RSS с автопополнением лент, с самообучающемся расписанием сбора, и сбор по шаблонам, и сбор по API и многое другое. Все источники отмодерированы вручную на качество сбора, все проблемы парсинга решены. Все это хранится на десятках серверов в NoSQL базе и индексированом виде в нашем поисковике. Сейчас в базе 2,7 млрд сообщений, в день собирается около 10 млн новых. Статистику по источникам можно посмотреть здесь, попробовать поиск по базе можно здесь
Позволю себе дополнить ответы CvetKomm: естественно за основу изначально были взяты открытые геобазы. Но пришлось их очень сильно перерабатывать и дополнять вариантами написаний городов, стран, регионов и т.п.
Поскольку множественные случаи одинаковых названий городов (Москва в России и Москва в США), то реализованы не только простые весовые параметры, но и лингвистические параметры — например, язык сообщений. Есть еще множество нюансов, но, в целом, думаю понятно :-)
Основная проблема — проблема определения пользователем что же именно ему нужно. Технические возможности Платформы позволяют использовать разнообразные многопараметрические фильтрации. Планируются как привычные для многих простые привязки лент к тематикам, так и более продвинутые методы фильтрации отдельных новостей через автоклассификацию.
Поиск/фильтрация новостей по заданным темам (поиск по ключевым словам) — один из краеугольных камней продукта, именно этот метод, мы надеемся, станет основным и привычным для обычных людей, даже не знающих о существовании RSS :-)
По сути это предоставление возможности коммерческих систем мониторинга СМИ и соцмедиа для массовой аудитории.
Большое спасибо, сейчас у нас основная работа — по функциональному дизайну продукта. Мы обязательно свяжемся с Вами на этапе альфа-тестирования приложения под Android. Напишите, пожалуйста, Ваши контакты на info@palitrumlab.ru
Большое спасибо всем откликнувшимся. Feedly, как лидера рынка, мы смотрели и понимаем его недостатки. Если Вы им продолжаете пользоваться, то напишите, пожалуйста, что Вас там удерживает?
Про InoReader и TheOldReader — спасибо за новодку, уже смотрим. Напишите, пожалуйста, что в них Вам нравится по сравнению с Google Reader.
feebbin.me — почему Вы выбрали этот продукт, а не другие?
Основная предпосылка исследования — при повышении негатива в окружении человека увеличивается его раздражительность, которая часто проявляется по отношению к посторонним вещам, а не к причине раздражения (плохо на работе, пойду пну собаку; когда мне хорошо, я вижу больше позитива, чем негатива). Меряем выражение эмоций — можем сделать вывод об удовлетворенности жизнью.
Кстати, сарказ и ирония — это менее 0,1% всего объема сообщений. Никак не сказывается на общих результатах.
Так что не «пенсионеры», а нечто другое…
Там есть и сбор RSS с автопополнением лент, с самообучающемся расписанием сбора, и сбор по шаблонам, и сбор по API и многое другое. Все источники отмодерированы вручную на качество сбора, все проблемы парсинга решены. Все это хранится на десятках серверов в NoSQL базе и индексированом виде в нашем поисковике. Сейчас в базе 2,7 млрд сообщений, в день собирается около 10 млн новых. Статистику по источникам можно посмотреть здесь, попробовать поиск по базе можно здесь
Поскольку множественные случаи одинаковых названий городов (Москва в России и Москва в США), то реализованы не только простые весовые параметры, но и лингвистические параметры — например, язык сообщений. Есть еще множество нюансов, но, в целом, думаю понятно :-)
Основная проблема — проблема определения пользователем что же именно ему нужно. Технические возможности Платформы позволяют использовать разнообразные многопараметрические фильтрации. Планируются как привычные для многих простые привязки лент к тематикам, так и более продвинутые методы фильтрации отдельных новостей через автоклассификацию.
Поиск/фильтрация новостей по заданным темам (поиск по ключевым словам) — один из краеугольных камней продукта, именно этот метод, мы надеемся, станет основным и привычным для обычных людей, даже не знающих о существовании RSS :-)
По сути это предоставление возможности коммерческих систем мониторинга СМИ и соцмедиа для массовой аудитории.
Про InoReader и TheOldReader — спасибо за новодку, уже смотрим. Напишите, пожалуйста, что в них Вам нравится по сравнению с Google Reader.
feebbin.me — почему Вы выбрали этот продукт, а не другие?