Обновить

Комментарии 10

• Тестом (от слова «тесто», а не «тест») выступает наша любимая Платформа, о который мы уже писали в блоге;
• Для доверия к продуктам возьмем только крупные СМИ, агентства и сайты госструктур;
• Иностранщину нашинкуем модулем определения языков;
• Добавим домашний сыр корпоративного изготовления;
• Поперчим экспресс- и эксперт-аккаунтами соцмедиа;
• Поставим на быстрый огонь распределенной системы сбора данных;
• Разложим на тематические тарелки авто классификацией;
• А выбор масла и тертого сыра оставим на усмотрение потребителя.


Объясните пожалуйста без кулинарных терминов хотя бы этот кусок.
Я так понимаю здесь описаны технические детали реализации, было бы интересно узнать.
Спасибо
Платформа iLook — уникальная российская разработка для широкого круга современных задач класса Online Big Data & Analytics. Платформа iLook позволяет в реальном масштабе времени собирать, накапливать и осуществлять различные выборки и агрегации больших массивов данных из социальных медиа (социальных сетей, микроблогов, блогов, тематических сайтов, форумов и т.п.) с автоматическим определением тональности текстов. На текущий момент ежедневный поток составляет 5-10 млн сообщений в сутки (свыше 100 сообщений в секунду).

Для доверия к продуктам возьмем только крупные СМИ, агентства и сайты госструктур
— мы ограничили список источников только авторитетными площадками, такие как
rbc.ru, lenta.ru, oracle.com, duma.gov.ru, government.ru и д.р.

В системе МеМо был подключен наш разработанный модуль определения языков, мы уже рассказывали о нем в нашем блоге — почитать можно тут
habrahabr.ru/company/palitrumlab/blog/191416/

Система МеМо как пример за 2013-10-15 собрала 13657 новостей — для работы с таким объемом данных в системе используется автоматическая классификация текстов по пред настроенным тематикам. Система поддерживает полнотекстовый поиск и позволяет создавать собственные фильтры под различные нужды.
Спасибо.

Меня больше всего интересует сбор информации. Я так понимаю, что для каждого источника информации писали свой парсер или использовали родной API? Поэтому и ограничено количество источников информации?

Или есть какой-то универсальный метод?
Метод сбора действительно для каждого источника индивидуальный. Но количество источников ограниченно совсем не поэтому.
МеМо получает информацию от платформы iLook, количество источников которой можно оценить тут.
Количество источников в самом МеМо ограниченно для удобства пользователя, задача которого отслеживать информационное поле вокруг события или персоны не во всех социальных медиа, а опираясь только на сообщения авторитетных ресурсов/блоггеров и т.д.
спасибо за ответ
А пощупать этот МеМо где то возможно, или он только для своих?
Пока существующая реализация заточена под конкретного заказчика (оптимизирована по набору источников и тд), поэтому публично мы её не демонстрируем (есть свои «политические» тонкости и секретности). Но в ближайших планах реализация открытого варианта, так что скоро будет можно )
А это не оно? www.media-monitor.ru/
нет, это не оно)
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Информация

Сайт
palitrumlab.ru
Дата регистрации
Дата основания
2012
Численность
Неизвестно