Комментарии / Профиль OzzyTech / Хабр

Пользователь

Подписчики

ПрофильСтатьи40ПостыНовостиКомментарии95

Работа мечты и бесплатный кластер на 1 миллион мета-данных

OzzyTech 22 июн 2016 в 08:13

Никакого уникального ключа нет. Это обычный последовательный по времени поток данных соцмедиа с фильтром по слову «я» (с включенной морфологией). Механистический подход «взвесить в граммах» — никому не интересен.
Эвристика и эвристические методы — см. https://ru.wikipedia.org/wiki/%D0%AD%D0%B2%D1%80%D0%B8%D1%81%D1%82%D0%B8%D0%BA%D0%B0

Стандартные инструменты SMA-систем автоматически используют статистические эвристики с использованием мета-данных, например:

Работа мечты и бесплатный кластер на 1 миллион мета-данных

OzzyTech 21 июн 2016 в 10:25

CSV — доступен на Я.Диске. JSON заодно решили оптимизировать (из стандартного отчета SMA, который не особо оптимизирован для таких объемов) по весу

Работа мечты и бесплатный кластер на 1 миллион мета-данных

OzzyTech 21 июн 2016 в 09:55

Dropbox (бесплатный) выдал два письма-прежупреждения (слишком много загрузок) и закрыл доступ. Сейчас коллеги закачают на другой хостинг, ссылки поменяем.

Работа мечты и бесплатный кластер на 1 миллион мета-данных

OzzyTech 20 июн 2016 в 20:18

P.S. Не очень понял насчет PHP — что в нем такого плохого? Разные части Платформ написаны на разных языках и средствах: и PHP, и C/С++, и Java, кое где и ассемблер встречается.

По теме: у Вас есть доступ к данным, соответственно Вы можете реализовать свою идею/эвристику на каком удобном Вам инструменте. Без всякого цирка.

Для аналитиков и лингвистов (для «гипсовых заготовок») удобен Python, поскольку доступно много готовых библиотек…

Работа мечты и бесплатный кластер на 1 миллион мета-данных

OzzyTech 20 июн 2016 в 19:22

Один из самых прекрасных мульт-персонажей. Столько желающих «вломить» этому козленку было ;)
Если по серьезному, то (IMHO) сила новых направлений с подобными технологиями — в прогностике. Не в анализе (подсчете) прошлого, а в предсказании будущих процессов. Но это уже отдельный большой разговор.

Работа мечты и бесплатный кластер на 1 миллион мета-данных

OzzyTech 20 июн 2016 в 18:48

2. Заработать. PaaS — отичная схема множества стартапов и компаний для реализаций потребностей клиентов в Slack, Bitrix24, Google Adwords и множества других.
Мы — технологическая компания, и не можем покрыть растущий пул потребностей людей и различных индустрий. Обеспечить данными, лингвистикой, мета-данными — это для нас ближе.

P.S. Скопипастил небольшую подборку из списка запросов-хотелок людей, компаний, госструктур:
— Динамика распространения гриппа (аналог Google Flu) по городам России.
— Кто еще пойдет на мероприятие?
— Где родились и где живут сейчас – карта и волны миграции
— Автоклассификация интересов аккаунта.
— Родительский контроль за семейными аккаунтами, упоминаний ребенка
— Рейтинг сущностей (люди, предметы, события), используемых в данном/ых аккаунте/ах.
— Кластеризация и персонализация инфопотоков
— Подборка дня — что произошло у моих друзей и медиа-персон: лента, кластеризация по моим интересам — Топ-10.
— Нахождение «друзей по интересам», а не знакомых.
— Сообщения и фотки людей, находящихся рядом.
…

Работа мечты и бесплатный кластер на 1 миллион мета-данных

OzzyTech 20 июн 2016 в 18:24

1. DropBox позволяет скачать без регистрации. Ссылки на отказ от регистрации и перехода к процессу скачивания находятся внизу страниц.

2. К сожалению, у нас другая проблема: идей (собственных и клиентов) слишком много, чтобы успеть все реализовать :( Поэтому и принято стратегическое решение двигаться к предоставлению доступа к Платформам данных, чтобы сторонние команды могли покрыть существующие и новые потребности.

3. Впечатлитесь верхней планкой (которая тоже не предел). Было бы за что.

Работа мечты и бесплатный кластер на 1 миллион мета-данных

OzzyTech 20 июн 2016 в 18:22

Ответил не в ветку. Исправил

Дайджест индустрии социальных медиа. 24/04 — 30/04

OzzyTech 3 мая 2016 в 10:53

Спасибо за оценку )
Для скриншота был использован один из наших внутренних инструментов — удобно для проведения экспресс-оценки по реал-тайм или за конкретный период. Включает лингвистику и простейшие фильтры, работает шустро.

Из подобного публичного — можно использовать строку поиска на сайте Brand Analytics, система выдаст общую мощность за несколько дней и последние пару десятков сообщений.

Конечно, для серьезного подхода и доступа к расширенным мета-данным, аналитике и пр. уже потребуются коммерческие системы, но в данном случае достаточно было получить мощность события в социуме.

OzzyTech 25 мар 2016 в 10:25

Коллеги, честно говоря уже напрягает повторять прописные истины… Смешивать сбор новостей (через RSS или разные системы watchdogs) и миллиарды сообщений соцмедиа (см. описание выше в статье) — это непрофессионально. Не вижу смысла тратить свое и ваше мнение на подобное. Для "истинноверующих" в ляляфа лучше отписаться от данного блога — так будет всем спокойней.

OzzyTech 25 мар 2016 в 09:17

А, понятно, Вы — профессионал, продающий услуги аналитики. Тогда давайте без сюсюканий. Полная система (типа Palantir) должна содержать 3 обязательных блока: сбор, хранение, анализ. Ваша система, как и HP Atonomy (которую, напомню, HP купил за $12млрд) содержит только 2: хранение и анализ. Попытка дешево купить качественный "сбор", чтобы выглядеть полноценной системой — такого не бывает. Просто потому, что таких систем очень немного и создание таковых стоит много миллионов $$$ (удавленный Apple TopSy, Gnip, DataSift).

OzzyTech 25 мар 2016 в 08:38

Рассматривая Ваши требования (надеюсь, что это Ваши требования, а не требования работодателя к Вам — инчае это больше похоже на использование дешевого рабского труда) с точки зрения ИДЕИ технократического вижна: следуя правилу Парето — 80% ваших усилий приносит 20% результата, и 20% усилий приносит 80% результатов. Выделите часть времени в 20% и освободите 80% своего времени.
Т.е имеет смысл разделить задачу как минимум на несколько процедур:
1) Определить факторы и проявления природы информационных всплесков. Например, всплески всегда связаны с 1-2-3 компаниями, значит имеет смысл отдельным подэтапом выделить мониторинг этих компаний. Или всплески происходят в понедельник. Или связаны с выходом нового сериала. Или большей частью идут через Твиттер или конкретный тематиеский форум… Поищите, Вы же эксперт, давно работая над такой ёмкой задачей. Она потребует исследования и приложения мозгов. Но это лучше, чем каждый день прикладывать руки.
2) Второй, трудоатратный, этап включается только после получения сигнала от первого этапа.
Освободившееся время можно направить на что-то более полезное, чем "мартышкин труд" по ручному поиску в куче источников.

OzzyTech 25 мар 2016 в 07:20

Нам не хотелось бы, чтобы наше визионерство и обсуждение ИДЕИ изменений жизни и поведения человечества (социума как минимума) трактовалось бы как промоушен/реклама/впаривание Brand Analytics (BA). BA — это один из мощных специализированных коммерческих инструментов, который в состоянии решать крутые супер-пупер задачи мирового, национального и корпоративного уровня. Большинство из тех структур в разных странах, которым нужно решать такие задачи и проблемы — уже знают и используют подобные инструменты.
BA — это лишь одно из решений из многих, коорое работает на базе нашей Платформы, и мы обсуждаем формы и методы создания (включая и сторонние команды и активных людей) еще большего количества продуктов и решений, надеемся, не обязательно платных.
Для Вашего случая вполне подойдет поисковая строка внизу страницы http://br-analytics.ru — думаю, что в Вашем случае не так много упоминаний Вашей компании, так что раз в день достаточно поискать название и получите упоминания, если они есть. Или воспользуйтесь другим продуктом коллег из BA — Brand Analytics Express (http://br-analytics.ru/express) — получите недорогой мониторинг (недорогой — потому что ТОЛЬКО мониторинг, без аналитических модулей) упоминаний БЕЗ абонентской платы.
Нам важно услышать запросы людей, команд и микробизнесов, чтобы сформировать запросы к нашим партнерам-командам для формирования бесплатных или лайт-продуктов, так что спасибо за Ваш комментарий, — записали.

OzzyTech 25 мар 2016 в 07:08

В дополнение 2 момента на смещение акцентов в самом обществе людей:

Известная байка/быль: когда в Белом Доме прикрепленной дюжине журналистов из крупняка-агентств сообщили о смерти Бен Ладена — все журналисты сначала дали инфу в своеи Твиттере, и только потом сообщили в редакции.
Публичная медийная активность публичных медийных персон — М.Захаровой (ФБ), Пушкова (Твиттер), Р.Кадырова (Инстаграм), П.Гагариной (Инстаграм) — ведется в соцмедиа (соцсетях), и только потом переносится (дублируются) в СМИ. Почему и зачем так — опускаем, думаю, понятно.

OzzyTech 25 мар 2016 в 07:03

Слишком общий вопрос, поэтому мазками. Судя по "Ы" Вы прекрасно сможете дополнить фактографию.

Не стОит разделять одно (СМИ) от другого (соцмедиа), лучше менять представление: Соцмедиа = СМИ+комментарии+соцсети+(микро)блоги+отзовики+форумы+фото/видео/аудиа/стрим...
Русскоязычный сегмент: 1 млрд контента в месяц, из которых материалов СМИ (включая комментарии) — всего 5 млн. Меньше 1%. Мал золотник, но дорог (пока).
Все "нормальные" системы накапливают данные соцмедиа (включая СМИ). Публичный список +10.000 ресурсов (российские, русскоязычные, казахские, популярные импортные), с полезной информацией (динамика, кол-во комментариев) — http://br-analytics.ru/statistics/
Персональный агрегатор — то, что из внешних источников выбираете Вы для своего чтения. В материале акцент на то, что персональное СМИ — это Вы сами, это тот контент, который будет произведен.
Спасибо за поддержку.

OzzyTech 22 мар 2016 в 19:27

На скриншоте — часть рабочего экрана давней системы выявления трендов на полном потоке соцмедиа (десятки миллионов сообщений в сутки в реал-тайм режиме), разрабатывалась для отделов мониторинга ведущих информ-агентств.

Из публичных "проявлений" данных технологий можно сослаться на МедиаТренды Brand Analytics, там множество разных возможностей — на любителей. Мне, например, комфортно читать в 3-х часовом формате "Самое обсуждаемое" с отключенным ВК
https://br-analytics.ru/mediatrends/?layout=layout_table&hubs=news&hubs=blog&hubs=fb&hubs=instagram&hubs=youtube&hubs=ok&hubs=mymail

Mediametrics, в виду ограниченности его подхода — "последыш": фиксирует заходы на ограниченный набор сайтов СМИ, которые производят, по сути, вторичный контент (кроме 1% эксклюзива), поэтому ведь и создаются группы/отделы мониторинга.

Почему умер Хабр. Что делать и куда бежать

OzzyTech 2 мар 2016 в 13:52

Только фактография. Посмотрел самые свежие данные (публично станут доступны сегодня-завтра) по ссылкам на популярные русскоязычные ресурсы за февраль — ежемесячная аналитика по 1 млрд публикаций в соцмедиа и СМИ: из Топ-20 вылетел последний ТМ-ресурс, GeekTimes. Год-полгода назад в топе всегда был Хабр и ГТ, иногда даже Мегамозг пробивался.

Снижение количества "внешних" ссылок (из FB, ВК, Twi, тематических ресурсов и пр.) — явный признак 1) инкапсуляции сообщества, 2) количества и уровня спецов/материалов. Собственно по этому признаку мы не стали продолжать "Гигант" на Хабре, а на ММ присутствие до окончания оплаченного аккаунта. Далее — посмотрим на тренд.

Кто все эти люди? Новое исследование активной аудитории ВК, Fb, Twi, Inst, ОК, ММ и ЖЖ

OzzyTech 22 янв 2016 в 18:32

Для любителей цифирек и раздумий «что бы это могло значить» вот еще один информационный срез по соцсетям, который получен от одного из популярных счетчиков: суточная статистика переходов из разных соцсетей на 100.000 мелких и средних сайтов (нет крупных порталов, популярных новостных и развлекательных ресурсов):

vkontakte.ru: 433.758
facebook.com: 115.947
twitter.com: 28.085
livejournal.com: 14.367
liveinternet.ru: 2.798
mirtesen.ru: 2.312
odnoklassniki.ru: 1.417

Выводы можно делать, конечно, разные, на мой взгляд подобный вид статистики можно рассматривать как уровень капсуляции или самодостаточности социума ресурса: например, обсуждаются темы и проблемы, которые не связаны с внешними событиями и ситуациями, или инертность людей, не привыкших уходить с из своего мирка общения на внешние ресурсы.

Кто все эти люди? Новое исследование активной аудитории ВК, Fb, Twi, Inst, ОК, ММ и ЖЖ

OzzyTech 22 янв 2016 в 14:16

1. Видимо Вы один из очередных невнимательных директоров одноклассников? Материал на ММ был размещен 14-го января. Ваши добавки на ресурсе появились на следующий день. Информация об исследовании индустрии полезна для аудитории ММ и не зацикливается на одних ОК. Свыше 300 ссылок на материал ММ отправлены в ВК, Фейсбук, Твиттере, Инстаграме, для людей данная информация полезна.

2. При чем здесь вера? Мне лично все равно сколько и чего в ОК, я не пользуюсь ОК. Есть цифры пропускной способности и формат данных вашего API, Вам всего-то нужно увязать цифры.

Верить Вам на слово, что 24 миллиона? Пожалуйста, верим. Только определитесь и укажите 24 миллиона чего? Активных авторов в Топ-100.000 группах? — Не верится, не бьется по цифрам и логике.
Активных авторов публичных сообщений вообще? Написавших что-то в личку друг другу? Сформулируйте и проаудируйте, если считаете важным. Делов-то.

3. То есть Вы так рассматриваете свои действия? :-)
А если по-серьезному, то, во-первых, ОК можно смело поздравить с тактической победой — опубликованный аудит доходов ОК выше, чем у ВК. Желаю, чтобы победа не оказалась Пирровой, стратегически конкуренты делают сильные шаги, например ВотсАп, за которым стоит Фейсбук, стал полностью бесплатным и отказался от рекламы. Сильный стратегический ход. Вот об этом и стоит подумать «директору одноклассников». Бодание по подсчетам тоже нужно, но не директорское это дело. Директоры ФБ, ВК, ЖЖ и пр. во всяком случае понимают важность внешнего аудита.

Кто все эти люди? Новое исследование активной аудитории ВК, Fb, Twi, Inst, ОК, ММ и ЖЖ

OzzyTech 21 янв 2016 в 20:13

1. В комментах достаточно было ссылки.
2. По Вашей же ссылке уже дан хороший коммент по рассчетам «расширенного» API OK. 1.3 миллиона, пусть даже 2.5 миллиона при фантастике, что скорость света бесконечна и задержек в интернете нет. Это все равно мелочь на фоне 15 миллионов API ВКонтакте, 12 миллионов Twitter и 10 миллионов Facebook (речь про русскоязычные потоки данных).
3. Добавлю дегтя: говорить о запрете граберов — глупость на уровне школьника. И не потому, что распределенная система граберов «не ловится», а потому что это медленная процедура, которая может принести еще 40-50 тысяч комментов. Всего. Это вообще не добавка даже к куцему API OK для групп.

-1

2 3 4 5