Никакого уникального ключа нет. Это обычный последовательный по времени поток данных соцмедиа с фильтром по слову «я» (с включенной морфологией). Механистический подход «взвесить в граммах» — никому не интересен.
Эвристика и эвристические методы — см. https://ru.wikipedia.org/wiki/%D0%AD%D0%B2%D1%80%D0%B8%D1%81%D1%82%D0%B8%D0%BA%D0%B0
Стандартные инструменты SMA-систем автоматически используют статистические эвристики с использованием мета-данных, например:
Dropbox (бесплатный) выдал два письма-прежупреждения (слишком много загрузок) и закрыл доступ. Сейчас коллеги закачают на другой хостинг, ссылки поменяем.
P.S. Не очень понял насчет PHP — что в нем такого плохого? Разные части Платформ написаны на разных языках и средствах: и PHP, и C/С++, и Java, кое где и ассемблер встречается.
По теме: у Вас есть доступ к данным, соответственно Вы можете реализовать свою идею/эвристику на каком удобном Вам инструменте. Без всякого цирка.
Для аналитиков и лингвистов (для «гипсовых заготовок») удобен Python, поскольку доступно много готовых библиотек…
Один из самых прекрасных мульт-персонажей. Столько желающих «вломить» этому козленку было ;)
Если по серьезному, то (IMHO) сила новых направлений с подобными технологиями — в прогностике. Не в анализе (подсчете) прошлого, а в предсказании будущих процессов. Но это уже отдельный большой разговор.
2. Заработать. PaaS — отичная схема множества стартапов и компаний для реализаций потребностей клиентов в Slack, Bitrix24, Google Adwords и множества других.
Мы — технологическая компания, и не можем покрыть растущий пул потребностей людей и различных индустрий. Обеспечить данными, лингвистикой, мета-данными — это для нас ближе.
P.S. Скопипастил небольшую подборку из списка запросов-хотелок людей, компаний, госструктур:
— Динамика распространения гриппа (аналог Google Flu) по городам России.
— Кто еще пойдет на мероприятие?
— Где родились и где живут сейчас – карта и волны миграции
— Автоклассификация интересов аккаунта.
— Родительский контроль за семейными аккаунтами, упоминаний ребенка
— Рейтинг сущностей (люди, предметы, события), используемых в данном/ых аккаунте/ах.
— Кластеризация и персонализация инфопотоков
— Подборка дня — что произошло у моих друзей и медиа-персон: лента, кластеризация по моим интересам — Топ-10.
— Нахождение «друзей по интересам», а не знакомых.
— Сообщения и фотки людей, находящихся рядом.
…
1. DropBox позволяет скачать без регистрации. Ссылки на отказ от регистрации и перехода к процессу скачивания находятся внизу страниц.
2. К сожалению, у нас другая проблема: идей (собственных и клиентов) слишком много, чтобы успеть все реализовать :( Поэтому и принято стратегическое решение двигаться к предоставлению доступа к Платформам данных, чтобы сторонние команды могли покрыть существующие и новые потребности.
3. Впечатлитесь верхней планкой (которая тоже не предел). Было бы за что.
Спасибо за оценку )
Для скриншота был использован один из наших внутренних инструментов — удобно для проведения экспресс-оценки по реал-тайм или за конкретный период. Включает лингвистику и простейшие фильтры, работает шустро.
Из подобного публичного — можно использовать строку поиска на сайте Brand Analytics, система выдаст общую мощность за несколько дней и последние пару десятков сообщений.
Конечно, для серьезного подхода и доступа к расширенным мета-данным, аналитике и пр. уже потребуются коммерческие системы, но в данном случае достаточно было получить мощность события в социуме.
Коллеги, честно говоря уже напрягает повторять прописные истины… Смешивать сбор новостей (через RSS или разные системы watchdogs) и миллиарды сообщений соцмедиа (см. описание выше в статье) — это непрофессионально. Не вижу смысла тратить свое и ваше мнение на подобное. Для "истинноверующих" в ляляфа лучше отписаться от данного блога — так будет всем спокойней.
А, понятно, Вы — профессионал, продающий услуги аналитики. Тогда давайте без сюсюканий. Полная система (типа Palantir) должна содержать 3 обязательных блока: сбор, хранение, анализ. Ваша система, как и HP Atonomy (которую, напомню, HP купил за $12млрд) содержит только 2: хранение и анализ. Попытка дешево купить качественный "сбор", чтобы выглядеть полноценной системой — такого не бывает. Просто потому, что таких систем очень немного и создание таковых стоит много миллионов $$$ (удавленный Apple TopSy, Gnip, DataSift).
Рассматривая Ваши требования (надеюсь, что это Ваши требования, а не требования работодателя к Вам — инчае это больше похоже на использование дешевого рабского труда) с точки зрения ИДЕИ технократического вижна: следуя правилу Парето — 80% ваших усилий приносит 20% результата, и 20% усилий приносит 80% результатов. Выделите часть времени в 20% и освободите 80% своего времени.
Т.е имеет смысл разделить задачу как минимум на несколько процедур:
1) Определить факторы и проявления природы информационных всплесков. Например, всплески всегда связаны с 1-2-3 компаниями, значит имеет смысл отдельным подэтапом выделить мониторинг этих компаний. Или всплески происходят в понедельник. Или связаны с выходом нового сериала. Или большей частью идут через Твиттер или конкретный тематиеский форум… Поищите, Вы же эксперт, давно работая над такой ёмкой задачей. Она потребует исследования и приложения мозгов. Но это лучше, чем каждый день прикладывать руки.
2) Второй, трудоатратный, этап включается только после получения сигнала от первого этапа.
Освободившееся время можно направить на что-то более полезное, чем "мартышкин труд" по ручному поиску в куче источников.
Нам не хотелось бы, чтобы наше визионерство и обсуждение ИДЕИ изменений жизни и поведения человечества (социума как минимума) трактовалось бы как промоушен/реклама/впаривание Brand Analytics (BA). BA — это один из мощных специализированных коммерческих инструментов, который в состоянии решать крутые супер-пупер задачи мирового, национального и корпоративного уровня. Большинство из тех структур в разных странах, которым нужно решать такие задачи и проблемы — уже знают и используют подобные инструменты.
BA — это лишь одно из решений из многих, коорое работает на базе нашей Платформы, и мы обсуждаем формы и методы создания (включая и сторонние команды и активных людей) еще большего количества продуктов и решений, надеемся, не обязательно платных.
Для Вашего случая вполне подойдет поисковая строка внизу страницы http://br-analytics.ru — думаю, что в Вашем случае не так много упоминаний Вашей компании, так что раз в день достаточно поискать название и получите упоминания, если они есть. Или воспользуйтесь другим продуктом коллег из BA — Brand Analytics Express (http://br-analytics.ru/express) — получите недорогой мониторинг (недорогой — потому что ТОЛЬКО мониторинг, без аналитических модулей) упоминаний БЕЗ абонентской платы.
Нам важно услышать запросы людей, команд и микробизнесов, чтобы сформировать запросы к нашим партнерам-командам для формирования бесплатных или лайт-продуктов, так что спасибо за Ваш комментарий, — записали.
В дополнение 2 момента на смещение акцентов в самом обществе людей:
Известная байка/быль: когда в Белом Доме прикрепленной дюжине журналистов из крупняка-агентств сообщили о смерти Бен Ладена — все журналисты сначала дали инфу в своеи Твиттере, и только потом сообщили в редакции.
Публичная медийная активность публичных медийных персон — М.Захаровой (ФБ), Пушкова (Твиттер), Р.Кадырова (Инстаграм), П.Гагариной (Инстаграм) — ведется в соцмедиа (соцсетях), и только потом переносится (дублируются) в СМИ. Почему и зачем так — опускаем, думаю, понятно.
Слишком общий вопрос, поэтому мазками. Судя по "Ы" Вы прекрасно сможете дополнить фактографию.
Не стОит разделять одно (СМИ) от другого (соцмедиа), лучше менять представление: Соцмедиа = СМИ+комментарии+соцсети+(микро)блоги+отзовики+форумы+фото/видео/аудиа/стрим...
Русскоязычный сегмент: 1 млрд контента в месяц, из которых материалов СМИ (включая комментарии) — всего 5 млн. Меньше 1%. Мал золотник, но дорог (пока).
Все "нормальные" системы накапливают данные соцмедиа (включая СМИ). Публичный список +10.000 ресурсов (российские, русскоязычные, казахские, популярные импортные), с полезной информацией (динамика, кол-во комментариев) — http://br-analytics.ru/statistics/
Персональный агрегатор — то, что из внешних источников выбираете Вы для своего чтения. В материале акцент на то, что персональное СМИ — это Вы сами, это тот контент, который будет произведен.
На скриншоте — часть рабочего экрана давней системы выявления трендов на полном потоке соцмедиа (десятки миллионов сообщений в сутки в реал-тайм режиме), разрабатывалась для отделов мониторинга ведущих информ-агентств.
Mediametrics, в виду ограниченности его подхода — "последыш": фиксирует заходы на ограниченный набор сайтов СМИ, которые производят, по сути, вторичный контент (кроме 1% эксклюзива), поэтому ведь и создаются группы/отделы мониторинга.
Только фактография. Посмотрел самые свежие данные (публично станут доступны сегодня-завтра) по ссылкам на популярные русскоязычные ресурсы за февраль — ежемесячная аналитика по 1 млрд публикаций в соцмедиа и СМИ: из Топ-20 вылетел последний ТМ-ресурс, GeekTimes. Год-полгода назад в топе всегда был Хабр и ГТ, иногда даже Мегамозг пробивался.
Снижение количества "внешних" ссылок (из FB, ВК, Twi, тематических ресурсов и пр.) — явный признак 1) инкапсуляции сообщества, 2) количества и уровня спецов/материалов. Собственно по этому признаку мы не стали продолжать "Гигант" на Хабре, а на ММ присутствие до окончания оплаченного аккаунта. Далее — посмотрим на тренд.
Для любителей цифирек и раздумий «что бы это могло значить» вот еще один информационный срез по соцсетям, который получен от одного из популярных счетчиков: суточная статистика переходов из разных соцсетей на 100.000 мелких и средних сайтов (нет крупных порталов, популярных новостных и развлекательных ресурсов):
Выводы можно делать, конечно, разные, на мой взгляд подобный вид статистики можно рассматривать как уровень капсуляции или самодостаточности социума ресурса: например, обсуждаются темы и проблемы, которые не связаны с внешними событиями и ситуациями, или инертность людей, не привыкших уходить с из своего мирка общения на внешние ресурсы.
1. Видимо Вы один из очередных невнимательных директоров одноклассников? Материал на ММ был размещен 14-го января. Ваши добавки на ресурсе появились на следующий день. Информация об исследовании индустрии полезна для аудитории ММ и не зацикливается на одних ОК. Свыше 300 ссылок на материал ММ отправлены в ВК, Фейсбук, Твиттере, Инстаграме, для людей данная информация полезна.
2. При чем здесь вера? Мне лично все равно сколько и чего в ОК, я не пользуюсь ОК. Есть цифры пропускной способности и формат данных вашего API, Вам всего-то нужно увязать цифры.
Верить Вам на слово, что 24 миллиона? Пожалуйста, верим. Только определитесь и укажите 24 миллиона чего? Активных авторов в Топ-100.000 группах? — Не верится, не бьется по цифрам и логике.
Активных авторов публичных сообщений вообще? Написавших что-то в личку друг другу? Сформулируйте и проаудируйте, если считаете важным. Делов-то.
3. То есть Вы так рассматриваете свои действия? :-)
А если по-серьезному, то, во-первых, ОК можно смело поздравить с тактической победой — опубликованный аудит доходов ОК выше, чем у ВК. Желаю, чтобы победа не оказалась Пирровой, стратегически конкуренты делают сильные шаги, например ВотсАп, за которым стоит Фейсбук, стал полностью бесплатным и отказался от рекламы. Сильный стратегический ход. Вот об этом и стоит подумать «директору одноклассников». Бодание по подсчетам тоже нужно, но не директорское это дело. Директоры ФБ, ВК, ЖЖ и пр. во всяком случае понимают важность внешнего аудита.
1. В комментах достаточно было ссылки.
2. По Вашей же ссылке уже дан хороший коммент по рассчетам «расширенного» API OK. 1.3 миллиона, пусть даже 2.5 миллиона при фантастике, что скорость света бесконечна и задержек в интернете нет. Это все равно мелочь на фоне 15 миллионов API ВКонтакте, 12 миллионов Twitter и 10 миллионов Facebook (речь про русскоязычные потоки данных).
3. Добавлю дегтя: говорить о запрете граберов — глупость на уровне школьника. И не потому, что распределенная система граберов «не ловится», а потому что это медленная процедура, которая может принести еще 40-50 тысяч комментов. Всего. Это вообще не добавка даже к куцему API OK для групп.
Эвристика и эвристические методы — см. https://ru.wikipedia.org/wiki/%D0%AD%D0%B2%D1%80%D0%B8%D1%81%D1%82%D0%B8%D0%BA%D0%B0
Стандартные инструменты SMA-систем автоматически используют статистические эвристики с использованием мета-данных, например:
и
По теме: у Вас есть доступ к данным, соответственно Вы можете реализовать свою идею/эвристику на каком удобном Вам инструменте. Без всякого цирка.
Для аналитиков и лингвистов (для «гипсовых заготовок») удобен Python, поскольку доступно много готовых библиотек…
Если по серьезному, то (IMHO) сила новых направлений с подобными технологиями — в прогностике. Не в анализе (подсчете) прошлого, а в предсказании будущих процессов. Но это уже отдельный большой разговор.
Мы — технологическая компания, и не можем покрыть растущий пул потребностей людей и различных индустрий. Обеспечить данными, лингвистикой, мета-данными — это для нас ближе.
P.S. Скопипастил небольшую подборку из списка запросов-хотелок людей, компаний, госструктур:
— Динамика распространения гриппа (аналог Google Flu) по городам России.
— Кто еще пойдет на мероприятие?
— Где родились и где живут сейчас – карта и волны миграции
— Автоклассификация интересов аккаунта.
— Родительский контроль за семейными аккаунтами, упоминаний ребенка
— Рейтинг сущностей (люди, предметы, события), используемых в данном/ых аккаунте/ах.
— Кластеризация и персонализация инфопотоков
— Подборка дня — что произошло у моих друзей и медиа-персон: лента, кластеризация по моим интересам — Топ-10.
— Нахождение «друзей по интересам», а не знакомых.
— Сообщения и фотки людей, находящихся рядом.
…
2. К сожалению, у нас другая проблема: идей (собственных и клиентов) слишком много, чтобы успеть все реализовать :( Поэтому и принято стратегическое решение двигаться к предоставлению доступа к Платформам данных, чтобы сторонние команды могли покрыть существующие и новые потребности.
3. Впечатлитесь верхней планкой (которая тоже не предел). Было бы за что.
Для скриншота был использован один из наших внутренних инструментов — удобно для проведения экспресс-оценки по реал-тайм или за конкретный период. Включает лингвистику и простейшие фильтры, работает шустро.
Из подобного публичного — можно использовать строку поиска на сайте Brand Analytics, система выдаст общую мощность за несколько дней и последние пару десятков сообщений.
Конечно, для серьезного подхода и доступа к расширенным мета-данным, аналитике и пр. уже потребуются коммерческие системы, но в данном случае достаточно было получить мощность события в социуме.
Т.е имеет смысл разделить задачу как минимум на несколько процедур:
1) Определить факторы и проявления природы информационных всплесков. Например, всплески всегда связаны с 1-2-3 компаниями, значит имеет смысл отдельным подэтапом выделить мониторинг этих компаний. Или всплески происходят в понедельник. Или связаны с выходом нового сериала. Или большей частью идут через Твиттер или конкретный тематиеский форум… Поищите, Вы же эксперт, давно работая над такой ёмкой задачей. Она потребует исследования и приложения мозгов. Но это лучше, чем каждый день прикладывать руки.
2) Второй, трудоатратный, этап включается только после получения сигнала от первого этапа.
Освободившееся время можно направить на что-то более полезное, чем "мартышкин труд" по ручному поиску в куче источников.
Из публичных "проявлений" данных технологий можно сослаться на МедиаТренды Brand Analytics, там множество разных возможностей — на любителей. Мне, например, комфортно читать в 3-х часовом формате "Самое обсуждаемое" с отключенным ВК
https://br-analytics.ru/mediatrends/?layout=layout_table&hubs=news&hubs=blog&hubs=fb&hubs=instagram&hubs=youtube&hubs=ok&hubs=mymail
Mediametrics, в виду ограниченности его подхода — "последыш": фиксирует заходы на ограниченный набор сайтов СМИ, которые производят, по сути, вторичный контент (кроме 1% эксклюзива), поэтому ведь и создаются группы/отделы мониторинга.
Снижение количества "внешних" ссылок (из FB, ВК, Twi, тематических ресурсов и пр.) — явный признак 1) инкапсуляции сообщества, 2) количества и уровня спецов/материалов. Собственно по этому признаку мы не стали продолжать "Гигант" на Хабре, а на ММ присутствие до окончания оплаченного аккаунта. Далее — посмотрим на тренд.
vkontakte.ru: 433.758
facebook.com: 115.947
twitter.com: 28.085
livejournal.com: 14.367
liveinternet.ru: 2.798
mirtesen.ru: 2.312
odnoklassniki.ru: 1.417
Выводы можно делать, конечно, разные, на мой взгляд подобный вид статистики можно рассматривать как уровень капсуляции или самодостаточности социума ресурса: например, обсуждаются темы и проблемы, которые не связаны с внешними событиями и ситуациями, или инертность людей, не привыкших уходить с из своего мирка общения на внешние ресурсы.
2. При чем здесь вера? Мне лично все равно сколько и чего в ОК, я не пользуюсь ОК. Есть цифры пропускной способности и формат данных вашего API, Вам всего-то нужно увязать цифры.
Верить Вам на слово, что 24 миллиона? Пожалуйста, верим. Только определитесь и укажите 24 миллиона чего? Активных авторов в Топ-100.000 группах? — Не верится, не бьется по цифрам и логике.
Активных авторов публичных сообщений вообще? Написавших что-то в личку друг другу? Сформулируйте и проаудируйте, если считаете важным. Делов-то.
3. То есть Вы так рассматриваете свои действия? :-)
А если по-серьезному, то, во-первых, ОК можно смело поздравить с тактической победой — опубликованный аудит доходов ОК выше, чем у ВК. Желаю, чтобы победа не оказалась Пирровой, стратегически конкуренты делают сильные шаги, например ВотсАп, за которым стоит Фейсбук, стал полностью бесплатным и отказался от рекламы. Сильный стратегический ход. Вот об этом и стоит подумать «директору одноклассников». Бодание по подсчетам тоже нужно, но не директорское это дело. Директоры ФБ, ВК, ЖЖ и пр. во всяком случае понимают важность внешнего аудита.
2. По Вашей же ссылке уже дан хороший коммент по рассчетам «расширенного» API OK. 1.3 миллиона, пусть даже 2.5 миллиона при фантастике, что скорость света бесконечна и задержек в интернете нет. Это все равно мелочь на фоне 15 миллионов API ВКонтакте, 12 миллионов Twitter и 10 миллионов Facebook (речь про русскоязычные потоки данных).
3. Добавлю дегтя: говорить о запрете граберов — глупость на уровне школьника. И не потому, что распределенная система граберов «не ловится», а потому что это медленная процедура, которая может принести еще 40-50 тысяч комментов. Всего. Это вообще не добавка даже к куцему API OK для групп.