Pull to refresh
4
0
Send message
Открытые данные по России, Украине и Казахстану доступны на www.slideshare.net/Taylli01/presentations
В скором времени ждем данные на 2016 год.
Публичный открытый рейтинг _влиятельности_ по русскоязычным соцсетям за сентябрь (август, июль) — как по авторам, так и по группам:
br-analytics.ru/statistics/author_top?hub_id=3&date=201509&period_type=month&author_type=1&sortField=ER&region_id=0

Mention — давнишний хороший мониторинговый сервис, закрывающий ограниченность по источникам Гугл Алертс. Разница во всех системах — в используемых Платформах (сбора, накопления и т.п.). BA и BA Express, а также еще несколько аналитических систем крупных агентств и корпораций, включая HP Atonomy, базируются на нашей Платформе PL.

Совсем коротко по особенностям Mention:
— Сбор: акцентируется на англоязычном сегменте; FB (это самый «неприятный» источник) фактически нет — только тот аккаунт, который укажет сам клиент; сбор начинается с момента «подписки» клиентом, нет ретроспективы вообще (хотя может повезти, если вы сядете на хвост вашего же запроса другого клиента);
— Архив: сообщения будут доступны только 24ч;
У Платформы PL, и соответственно, мониторинговых и аналитических систем типа BA/BA Express:
— Сбор: акцент на русскоязычные источники, ex-USSR, Восточно и Западная Европа; FB — один из самых больших в мире (7-8 млн в сутки); ВК, ОК, ММ, ЖЖ и др. — с крупными источниками у нас прямые соглашения;
— Архив: с осени 2012 года; ретроспектива по Express — 7 дней, BA — 1-3 месяца. Глубже — отдельная процедура.

Можно посоветовать использовать и бесплатный Алертс (он ограничен сайтами и чуть Твиттером) и добавить по мере необходимости (важности имеющейся задачи) коммерческие системы типа Express или Mention.
На самом деле — все с точностью до наоборот. «Это» — уже используется «не по назначению» несколько лет как. Месяц назад Palantir — крупнейшая структура мониторинга, работающая со многими правительственными, военными и специальными службами США — получила очередные инвестиции — $450 млн. Капитализация компании достигла $20 млрд.

Так что бояться и «пить Боржоми» (с) — уже давно поздно. А вот использовать технологии в мирных целях — давно пора.

В России есть несколько систем мониторинга соцмедиа (не только СМИ, а именно соцмедиа), которые лет 5 уже используются коммерческими структурами для разных задач — маркетинговых, PR, техподдержки и пр.
Не вижу противоречий: Вы говорите о «лечении» уже сложившейся проблемы («завелся потенциальный наркоман прогульщик»), в материале один из аспектов касался мониторинга «фазы контакта». Парень что, сам и на свои покупал травку и алкоголь?
Приведенный Вами пример из жизни — хороший прецедент реакции ближайшего окружения, справившегося с ситуацией самостоятельно, без надежды на запоздалую помощь государства.
В Платформе такой функционал есть, на нем строятся, например, Рейтинги СМИ, блогеров, медиа-персон (ежемесячные исследования совместно с Lenta.ru и РИА Новости, вот данные за сентябрь по СМИ — http://lenta.ru/articles/2015/09/08/ba_august/)

Переслал Ваш вопрос руководителю проектов BA — планируют расширить Express на такой функционал к середине октября.
Можно закрывать глаза, можно смотреть на мир открытыми глазами. Вопросы воспитания, как и семейные, и интимные — из области этики общества. Сейчас общество не успевает за инфо-тенденциями, нужно искать новые варианты взаимоотношений внутри социума.

Мы не решим здесь общецивилизационных проблем, я коснулся только технического аспекта, не более. Ответьте себе на вопросы: этично заходить в комнату ребенка, чтобы «подсмотреть» убрал ли он постель? Этично требовать школьный дневник? Этично не дергаться, если дите вернулось домой к утру? — В каждой из цивилизаций и этносов будут свои ответы.

Рвутся, или как минимум, диспропорцируются культурологические связи между поколениями, в результате — отсутствие разговоров по душам (ребенка с года сажают на спину ТВ и мультиков, с 3-х лет — за комптютерную игрушку, в 6 лет награждают смартфоном и т.д.). Раньше взросление происходило к 12-16 годам, сейчас к 25-30, после двух-трех разводов. Можно закрывать глаза, тогда нашими близкими займутся другие.

Насчет опросов — сейчас это уже не модно. Тем более по такой теме да среди пары десятков гиков. 35 млн пользователей соцмедиа в России высказываются сами, без опросов, по многим-многим темам. Можно послушать всех нас и многие вопросы найдут свои ответы.

Для размышления простая фактография («в простоте — величие»):
— за 17-ое сентября в русскоязычных соцмедиа слово (и лингво-производные) «Ребенок» (Дети и т.п.) мы все вместе упомянули — 389 182 раза.
— «Родитель» и производные — 108 920 раз;
— «Я» (мое, меня, мой, ...) — 3 711 689 раза.

На мой взгляд, неправильная постановка вопроса: «Есть некая фигня, а для чего можно ее использовать?» ;)

Высокоскоростная лингвистика появилась _вследствие_ новых потребностей: выросший в тысячи-миллионы раз потоки неструктурированной информации, требующие обработки и анализа.

Если у Вас таких задач или такой потребности нет, то можно (а может и нужно) изобретать: кто-то придумывает сервисы «только позитивные ролики с YouTube!», «самые позитивные фотки Инстаграм за день!»

А в это время администрации мегаполисов задыхаются от выросшего потока входящей корреспонденции и растет необходимость перенаправить обращения граждан в правильный департамент. Или МЧС с редакциями СМИ не знают что случился «челябинский метеорит», потому как есть только устаревшие технологии «на словарях» NER и невозможно увидеть новую сущность…
1. Вот здесь презентация с несколькими реальными практическими кейсами, которые невозможны без применения высокоскоростной автоматической тональности:
www.slideshare.net/Taylli01/sociological-research-in-social-media

2. «Эту штуку» (высокоскоростную лингвистику), для европейских языков, IBM недавно купил за $100млн (AlchemyAPI) — без таких систем сейчас практически не двинуться во множестве направлений.

3. Вчера Rambler приобрел 51% RCO (говорят, что за 75млн.р) — компания, которая обладает определенными наработками и клиентами в лингвистическом секторе.
Кстати, по лингвистической части Ваших вопросов: ровно три месяца назад IBM купил Алхимиков. За $100млн. А чуть раньше заключил стратегический альянс с Твиттером. И зачем IBM-то это делает? Тем более на фоне своих миллиардных вложений за прошлые десятилетия в лингвистические центры по всему миру… Но и об этом уже много чего написано, в том числе и в наших блогах.
Конечно есть. Топси с Твиттером (до продажи Apple) проводили массу публичных «мероприятий», включая прогностику по выборам президента (Обама против не-помню-кого, например).

А ответил Вам еще в позапрошлом веке Артур Конан-Дойль устами своего бессметрного героя:
"— Уинвуд Рид хорошо сказал об этом, — продолжал Холмс. — Он говорит, что отдельный человек — это неразрешимая загадка, зато в совокупности люди представляют собой некое математическое единство и подчинены определенным законам. Разве можно, например, предсказать действия отдельного человека, но поведение целого коллектива можно, оказывается, предсказать с большей точностью. Индивидуумы различаются между собой, но процентное отношение человеческих характеров в любом коллективе остается постоянным. Так говорит статистика. "
По существу: ответ на Ваше недоумение наберите «купертино Topsy» в Яндексе — все ссылки будут ответами.
И уж совсем плохо, когда трактовка переворачивается с ног на голову, как сделал достаточно популярный блогер:

philologist.livejournal.com/7605883.html
«Чечня заняла 1 место по уровню ненависти среди российских регионов

Характерно, что в других регионах Северного Кавказа мироощущение жителей не намного лучше. Так, в рейтинге любви 84-е, предпоследнее, место занял Дагестан, 83-е — Ингушетия, 81-е — Кабардино-Балкария, 80-е — Карачаево-Черкесия, 78-е — Северная Осетия. Как отмечает Brand Analytics, в предыдущих рейтингах были похожие результаты.»

Вот так вот и получается, что «социологи» из Brand Analytics, ослепшие от просмотра 320 миллионов текстов якобы узнали, что Кавказ всех ненавидит :(

А в источнике всего-то говорится, что несмотря на все перепетии в стране и мире Любовь все равно побеждает Ненависть. Везде и Всегда.

Кстати, вот прекрасный пример «с другой колокольни» (медийно-журналисткой):
www.klg.aif.ru/society/kaliningradcy_stali_menshe_govorit_o_lyubvi_i_bolshe_rugatsya_v_socsetyah

«Калининград, 11 июня — АиФ-Калининград.
Социологи проанализировали публичные сообщения россиян в Twitter, ВКонтакте, LiveJournal, YouTube, Facebook.
Исследовали просмотрели 320 млн русскоязычных сообщений от 25 млн авторов...»

1. Почему социлоги?
2. Кто-то из технарей может себе представить исследователей, «просматривающих 320 млн сообщений»? Жизни не хватит ))

Журналисткие штампы и подходы ничуть не лучше штампов и подходов технократов
Думаю, что после такого многомыслия обсуждать тему дальше смысла просто нет… Глупые дяди из Купертино (Apple) зря выложили $200млн за Топси, а Твиттер немного побольше за Гнип — просто идиоты: надо было всего лишь обратиться к dyadyaSerezha.

Приведенные Вами «лингвистические» примеры утончёны и симпатичны, только вот в них также не много смысла в приложении к миллионам высказываниям миллионов людей. Хотя и про это уже много раз говорили и тратить время для рассказа про ЗБЧ, Бернулли и Муавра-Лапаласа на очередной выплеск не хочется.

Когда найдете полчаса и сделаете свой наколеночный анализ — с удовольствием послушаем.

На досуге можно добавить к восприятию и мощной смысловой связки с «big data» очередной новости:

«Федеральная налоговая служба официально открывает в Дубне федеральный Центр обработки данных (ЦОД) — часть крупнейшего в истории РФ проекта в сфере big data.»

Около года удавалось отбивать попытки связать Big data <-> Big Brother даже в области RTB, теперь уже навряд ли.
Проблема идентификации — важный (иногда важнейший) аспект, который нельзя недооценивать. На создание чего-то нового, «понятного» на уровне ощущений для большой части общества, требует огромных ресурсов. Если сущность не понятна целевой-группе/обществу или размыта — будет только мешать. На «понятность» термина Интернет (в 90-х ходило много шуток и смешных случаев непонятливости восприятия новой сущности, были и другие «неточные именования» — типа экстранет) обществу потребовалось 10 лет. 5 лет потраченных на SMM — впустую. Такая же бодяга (выплывет-невыплывет) идет с оперативной социологией, IoT, размытостью PR и др.

Непонятный термин-сущность — это повышение порога (узнаваемости, продаж, денег на R&D), еще хуже, когда сущностью можно пугать общество (СПИД, Эбола, Большой Брат).

Странно конечно говорить такие прописные истины…
На одном «стандартном» сервере (некая стандартная конфигурация) — до 500 кбайт/сек.
И спасибо за отзыв :)
На мой взгляд, в первом абзаце у Вас получилась очень хорошее описание идеологии Hadoop ))
Подобный подход идеально описывает, например, задачу по генетике с разбором цепочек ДНК, состоящих всего из нескольких кирпичиков, или потоковых несвязанных (или малосвязанных) данных — чеков в магазине, новых резюме в рекрутинг и т.д. Все то, что характерихуется у математиков цепочками Маркова с нулевой длиной.

Выскажу личную трактовку с «неприличной» аналогией (физики и химики гордо закидают яблоками) — ситуация аналогично неопределенности Гейзенберга и переход от атомов к молекулам: для «правильных» объемов Big Data нужно и достаточно столько, чтобы _совокупность данных_ производила НОВУЮ сущность-данные, которые будут вести себя совершенно _иначе_ (электрон превращается из частицы волной).

Если мы как о примере говорим про &A (data scientist), то до недавнего времени был только мозг человека, который на интуиции находил решение (Шеркол Холмс). Сейчас, с развитием инструментария, который хоть немного, но уже подвинул (расширил) «компьютерные мозги» от просто «молотилки чисел» в сторону лингвистики-семантики-взаимосвязей-анализа, появляется более широкое поле выявление НОВЫХ сущностей-связей-агрегаций.

Грубо говоря, как автомобиль позволил ЛЮБОМУ человеку убыстриться в 20 раз, как вертолет позволил прыгнуть в высоту в 1000 раз, так и Big Data должны позволить любому человеку, а не только Шерлоку Холмсу, в 100 раз повысить наблюдательность.
Уважаемый meta4, сложно ответить на комментарий в подобном духе (тональности). Тратить время на проблему различия-восприятия «цвета платья» или неколичественного уровня быстроты обработки лингвомодулей — бессмысленно.

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Registered
Activity