Работа мечты и бесплатный кластер на 1 миллион мета-данных

    Доброго времени суток!

    Мы решили дать публичный доступ к архиву 1 млн насыщенных мета-данными сообщений соцмедиа (несколько сотен источников, включая посты и комментарии соцсетей, блогов, форумов, СМИ и т.п.).
    Предлагаем попробовать свои силы в создании различных эвристик, закладываемых в классические SMA-системы (Social Media Analytics). Чем больше эвристик вы придумаете и сможете реализовать, тем выше ваш класс в Data Scientist. Возможно в вас живет настоящий профи: Data Scientist — одна из крутых профессий ближайшего будущего!

    Для состоявшихся фанатов-профи — это возможность проверить и показать свои способности, а также, при обоюдном желании и радости, получить годовой контракт на $30.000 — $50.000.



    Подробнее под катом

    Стратегический ситуационный уровень:

    — Ежедневно человечество генерит десятки (30-40) млрд онлайн-сообщений, из которых 5-7% публичных.
    — Русскоязычные сообщения составляют 2-3% мирового потока, т.е. ~100 млн в сутки.
    — В отличие от структурированных данных (чеки в магазине, информация о звонках, электронные платежи и пр.) НЕструктурированные данные требуют других инструментов для создания аналитических систем и подходов к анализу данных аналитиками: скоростная лингвистика, нечеткие мета-данные, «размазанная» геолокация, выявление и противодействие «чужому разуму» (ботам) и т.д., и т.п.

    Тактический уровень:

    — Человечество практически «закончилось» — темпы прироста в онлайн и генерации контента составляют естественные единицы процентов.
    — Платформы сбора данных, а также первичного анализа (SMA — Social Media Analytics), включая и лингвистические модули (обычно самые медленные процессы) вышли на промышленный уровень, справляясь с текущими потоками генерации данных.
    — Теперь дело за «мозгами» — какие (адаптивные) алгоритмы AI (ИИ, искусственного интеллекта или машинного самообучения) будут создаваться, развиваться и применяться для решения реальных задач человеческого социума.

    Понятийный пример (см. картинку выше):

    Есть набор насыщенных мета-данными соцмедиа-сообщений, а также некий стандартный набор эвристик, выработанных аналитиками для клиентов в течение нескольких лет, например: количество сообщений (иногда с разбивкой по периоду), разблюдовка по коммуникационным каналам и т.д. Если сообщения дополнить «непрямой» информацией мета-данных, отсуствующих в исходном сообщении (т.е. задействовать «мозги и память»), то для твитов можно доопределить пол (отсутствующее поле в аккаунте), а для комментария к статье в СМИ доопределить, например, гео по фразе «Болею за наших в Париже». Тогда можно создать НОВУЮ эвристику — показать сообщения на карте, актуализируя такие аттрибуты, как концентрация и гео-динамика события.

    Насыщение и расширение мета-данных — сама по себе интересная задача, которая уже частично и в разной степени успешности решается в крупных компаниях (IBM, Google, MS), и соцсетях (Facebook, Twitter, LinkedIn). Для этих процессов чаще всего задействуют появляющиеся новые технологии — например, определение людей по фотографиям, или получение доступа к данным о физических перемещениях людей (телеком-метки).

    Наступает момент, когда технологии и задачи выходят на следующий уровень «мозговитости» — когда системы САМОСТОЯТЕЛЬНО находят новые закономерности и делают прогноз о развитии событий и ситуаций.

    Подобные фазы развития прошли, например, автоматические финансовые роботы: на анализе прошлых данных строились различные модели и эвристики, которые далее в автоматическом режиме работают и зарабатывают (как минимум разработчики этих роботов).

    Профессия Data Scientist предполагает некоего кентавра: смесь программиста с аналитиком. Чего в кентавре больше — дело важное, но вторичное, главное — результат деятельности специалиста. По прогнозам исследовательских агентств потребность DS только в США составит 180.000 человек.

    Конкретика:

    1. 1млн+ публичных сообщений с мета-данными выложены в публичный доступ:
    CSV, 55 мб
    JSON, 350 мб (традиционный json. Один массив с 1млн+ объектами)
    JSON, 415 мб (Один json-объект на 1 строку, разделитель LF ("\n") )
    Данные представляют собой некую выборку за ~6 часов одного дня.

    2. Для интересующихся и желающих попробовать свои силы и возможности — попробуйте «повторить» простейшие эвристики, закладываемые в классические SMA-системы. Чем больше эвристик вы придумаете (подсмотрите) и сможете реализовать, тем выше ваш класс в DS. В обязательном порядке найдите критерий выборки данного 1 млн сообщений. Напомню, что по статистике дневной набор русскоязычного потока ~100 млн, значит за несколько часов должно было бы быть 10-15 млн, а в выборке — только 1 млн. Что могло быть критерием выборки? Небольшая подсказка — обычно простые выборки делаются по словам («ключевикам»).

    3. На Хабре периодически появляются посты по анализу неструктурированных данных, вполне возможно, что кто-то из фанатов-профи согласится участвовать в нашем новом R&D-спиноффе на постоянной основе (годовой контракт, $30-50тыс). Не имеет значение пол, возраст, образование, место проживания, значение имеет только результат, который нужно реализовать на данном наборе данных, и желание творить и создавать НОВЫЕ эвристики.

    Каким результатом может похвастаться профи:

    — Стандартные статистики SMA — данных полей в мета-данных вполне хватает для понимания.
    — Расширение новыми мета-данными, за счет сбора дополнительных данных по авторам набора из соцсетей, например: женат/холост, учится/работает, дети/родители.
    — «Интеллектуальные» мета-данные — очень сильный плюс. Например: динамика тональности высказываний, или кластеризация интересов.
    — И, конечно, НОВЫЕ эвристики, которые только придут в голову.

    Если будет получаться что-то интересное — присылайте на sz@palitrumlab.ru.
    Код присылать не надо! Только таблички или картинки с результатами.

    P.S. К существующей Платформе данных SDS и лингвистической платформе EurekaEngine мы сейчас ведем разработку Платформы мета-данных. Надеемся, что к концу года мы сможем обеспечить доступ ко всем Платформам для разработчиков разных уровней, а также групп и команд, в целях создания сторонних новых решений и систем, для работы которых необходимо получать открытые данные из соцмедиа и публичные наборы данных.

    UPD: не прошло и часа, как пришли первые «картинки» с эвристиками «А что за выборка»:



    UPD2: Dropbox закрыл доступ после пары тысяч скачиваний, CSV и JSON доступен на Я.Диске, Заодно выложена версия JSON с одним объектом на строку.
    PalitrumLab
    Компания
    Реклама
    AdBlock похитил этот баннер, но баннеры не зубы — отрастут

    Подробнее

    Комментарии 18

      +4
      Вы бы данные выложили, на собственный сервер, а не на DropBox, который требует регистрацию. Не солидно.
      Похоже у вас не хватает собственной фантазии для эвристик и вам нужны идеи, может лучше провести конкурс с призами? Чем обещать трудоустройство, которое лично меня не впечатляет нижней планкой.
        0
        1. DropBox позволяет скачать без регистрации. Ссылки на отказ от регистрации и перехода к процессу скачивания находятся внизу страниц.

        2. К сожалению, у нас другая проблема: идей (собственных и клиентов) слишком много, чтобы успеть все реализовать :( Поэтому и принято стратегическое решение двигаться к предоставлению доступа к Платформам данных, чтобы сторонние команды могли покрыть существующие и новые потребности.

        3. Впечатлитесь верхней планкой (которая тоже не предел). Было бы за что.
          0
          Ответил чуть ниже, увы исправить уже не могу.
        0
        Ответил не в ветку. Исправил
          +1
          1. Поверьте таких как я будет много. Можете из-за банальной вещи — упустить кого-то стоящего. Но дело хозяйское, лично я использую свой сервер для подачи материалов, чтобы не было лишних проблем.

          2. И какова мотивация сторонних команд?

          3. Я скептик. Верхняя — средний уровень аутсорсера для США. Хорошая вполне, во ее бы и сделал нижней — мотивированных людей значительно прибавится, тем более, говорите, что и больше можно.
            0
            2. Заработать. PaaS — отичная схема множества стартапов и компаний для реализаций потребностей клиентов в Slack, Bitrix24, Google Adwords и множества других.
            Мы — технологическая компания, и не можем покрыть растущий пул потребностей людей и различных индустрий. Обеспечить данными, лингвистикой, мета-данными — это для нас ближе.

            P.S. Скопипастил небольшую подборку из списка запросов-хотелок людей, компаний, госструктур:
            — Динамика распространения гриппа (аналог Google Flu) по городам России.
            — Кто еще пойдет на мероприятие?
            — Где родились и где живут сейчас – карта и волны миграции
            — Автоклассификация интересов аккаунта.
            — Родительский контроль за семейными аккаунтами, упоминаний ребенка
            — Рейтинг сущностей (люди, предметы, события), используемых в данном/ых аккаунте/ах.
            — Кластеризация и персонализация инфопотоков
            — Подборка дня — что произошло у моих друзей и медиа-персон: лента, кластеризация по моим интересам — Топ-10.
            — Нахождение «друзей по интересам», а не знакомых.
            — Сообщения и фотки людей, находящихся рядом.

              0
              Спасибо за развернутый ответ.
              Почему-то вспомнил мультик про козленка, который всех посчитал.
                0
                Один из самых прекрасных мульт-персонажей. Столько желающих «вломить» этому козленку было ;)
                Если по серьезному, то (IMHO) сила новых направлений с подобными технологиями — в прогностике. Не в анализе (подсчете) прошлого, а в предсказании будущих процессов. Но это уже отдельный большой разговор.
          –6
          Можно много всего красивого понаписать, покрасоваться, а потом узнать, что у вас эта ваша платформа сделано на пхп. и все как-то сразу плавно превращается в цирк…
            +2
            P.S. Не очень понял насчет PHP — что в нем такого плохого? Разные части Платформ написаны на разных языках и средствах: и PHP, и C/С++, и Java, кое где и ассемблер встречается.

            По теме: у Вас есть доступ к данным, соответственно Вы можете реализовать свою идею/эвристику на каком удобном Вам инструменте. Без всякого цирка.

            Для аналитиков и лингвистов (для «гипсовых заготовок») удобен Python, поскольку доступно много готовых библиотек…
            –3
            что же тут не понятного? делать сервисы на пхп — это не серьезно. это говорит о том, что нанять хороших специалистов вы не можете. поэтому разговоры по «нижняя планка 30K $ в год» и есть цирк.
              0
              проблема со скачиванием

              Error (429)
              This account's links are generating too much traffic and have been temporarily disabled!
                0
                Dropbox (бесплатный) выдал два письма-прежупреждения (слишком много загрузок) и закрыл доступ. Сейчас коллеги закачают на другой хостинг, ссылки поменяем.
                  0
                  CSV — доступен на Я.Диске. JSON заодно решили оптимизировать (из стандартного отчета SMA, который не особо оптимизирован для таких объемов) по весу
                    0
                    За оптимизированный JSON отдельное спасибо )
                    0
                    Подобные большие файлы лучше раздавать через торрентовские магнит-ссылки.
                  +1
                  В вашей таблице есть уникальный ключ? Как вы собираетесь проверять результат исследований?
                  В JSON-файле 1 013 063 записей, при этом уникальных idExternal — 1 011 071.
                  Например — cat ./messages.json | grep \«idExternal\»:\«5-41:\» | wc -l
                  1205

                  Уникальных url еще меньше — 977462.

                  Поясните, как вы будете сопоставлять «эвристики» с исходными данными и, вообще, что вы подразумеваете под термином «эвристика»?
                    0
                    Никакого уникального ключа нет. Это обычный последовательный по времени поток данных соцмедиа с фильтром по слову «я» (с включенной морфологией). Механистический подход «взвесить в граммах» — никому не интересен.
                    Эвристика и эвристические методы — см. https://ru.wikipedia.org/wiki/%D0%AD%D0%B2%D1%80%D0%B8%D1%81%D1%82%D0%B8%D0%BA%D0%B0

                    Стандартные инструменты SMA-систем автоматически используют статистические эвристики с использованием мета-данных, например:

                    и

                  Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                  Самое читаемое