Pull to refresh

Comments 26

Активно участвую в работе над этим проектом и мне он очень нравится. Приглашаю интересующихся тоже поучаствовать в нём :)
Для начала надо присоединиться к ods.ai — потому что всё это в рамках сообщества. Потом искать где там #ml4sg
а вы тащите в том числе количество просмотров новости? если да — можно попробовать посчитать влияние новостей о кассовых сборах фильмов в зависимости от освещения в прессе рекордов в первый — второй — третий викенд. Если проклюнется что нибудь интересное, можно попробовать монетизировать
Я думаю, что этим и без нас занимаются, конечно. Сейчас мы просмотры не парсим. Когда-нибудь обязательно будем.

Без просмотров, особенно персонализированных, боюсь, это слишком не интересно для монетизации. Разве что спекулятивной)


Есть вообще какие-либо перспективы изучения этих графиков окромя удовлетворения собственного любопытства?

Мы же не задачу рекомендаций решаем. То есть вопрос стоит «что пишут», а не «что читают». И тем более не «что предложить почитать». Если брать именно этот проект в чистом виде — то это скорее археология. Но я уже говорил в другом комментарии, что есть бизнес-задачи, где то же самое монетизируется. Только на других данных. Например то же самое «что пишут» в соцсетях простые пользователи даёт ответ на вопрос «что читают» и «что интересно», соответственно и «что предложить почитать». Странно говорить о возможностях инструмента не глядя на сам инструмент, а только на то, к чему его сейчас применили.

Если пытаться охарактеризовать проект с точки зрения того, чем он не является, то разумеется выглядеть будет абсурдно. В данном случае проект не является ни в каком качестве бизнесом. Ни стартапом, ни POC для какого-то стартапа, ни чем похожим. Поэтому вопросы о монетизации надо было бы задавать начиная с вопроса «а нужна ли монетизация?». Ответ — вообще не обязательно. С деньгами и работниками конечно будет эффективнее, но задачи тогда тоже будут другие.

Я говорил, что в проекте предполагаются не только эти графики, поэтому не будем перспективы проекта сжимать в рамки того, что уже нарисовали. Я немного ответил на этот вопрос здесь habr.com/ru/company/ods/blog/460287/#comment_20466025

Дополню, что дата-журналистика находит свою нишу и пользуется спросом. Сам факт того, что люди читают новости, показывает то, что людям интересно, что происходит. То есть если вы переживаете по поводу аудитории — не переживайте.

По поводу просмотров всё таки отвечу. Во-первых мы их всё равно рано или поздно скачаем. Во-вторых пока больше других фундаментальных задач, без которых просмотры бесполезны. В третьих — сначала мы собрали разные индексы о просмотрах самих СМИ, не конкретных статей, отранжировали и начали качать с самых популярных. Лента_ру везде в примерах только потому что она была уже скачана до нас.
Я извиняюсь за нескромный вопрос, 80 человек! достаточно сомнительный по монетизации проект, как вы собираетесь собственно поддерживать работу такого количества человек над таким относительно бесполезным проектом как анализ 'новостей' рунета?
не согласен, что проект бесполезный. Новостной поток — это своеобразный «пульс» общества. Клубок новостей — это как некий общественный «мозг», который совокупно реагирует на происходящее. Его анализ — потенциальный ключ к прогнозированию и принятию решений. Решения могут быть разные — общественные, планы развития, и даже ставки на биржах. имхо
80 человек, из которых 2-4 бывают активны постоянно, около 20 вносили какой-то вклад в проект. У нас за ЗП никто не работает, в том числе и я. И никто и не надеялся на какие-то вознаграждения. Монетизация не была целью никогда. Я пытался пояснить мотивацию участников в разделе «команда» и формат таких проектов в разделе «краткая справка». В общем, нет необходимости поддерживать 80 человек, их которых 60 ограничились только тем, что заполнили заявку на участие.

Тем не менее на нас выходят организации, которым интересно применять подобные подходы к своим данным и задачам. Так что потенциал для монетизации есть, но немного в других рамках, уже вне всего этого движа.

Как это применять? Примеры можно? Действительно ли он вообще позволяет что-то выуживать?

Изначальная идея применений примерно как то, что описано до ката. То есть чисто проверка гипотез о том, что происходит и как об этом пишут. Готовят ли почву для каких-то действий или событий, пытаются ли отвлечь внимание. С несколькими источниками можно будет сравнивать перекос в направленности или находить заимствования. Ещё интересные обзоры истории можно делать, как в том примере с лицами. Там видно, например, как на политическую арену выходили персоны из ИТ, а до этого там был только Гейтс, хотя в тот момент всех интересовало только его богатство. Для рекламщиков и пиарщиков здесь тоже есть интерес. Я сам, к сожалению, не очень понимаю их мир, но отслеживать влияние медиа — это очень важная для них задача.

Проект отличный, жаль что я попадаю в категорию нинзь за фатальным недостатком свободного времени по семейным обстоятельствам.


В плане веб-разработки там поляна широкая для творчества! А объем по моему мнению не запредельный. Идеально для желающих научиться делать современно и красиво.

Сделать что-то один раз, или посоветовать подход — тоже хороший вариант участия.
Мне кажется было бы интересно искать корреляции графиков, например человек интересуется новостями про победы в спорте, по идее система должна ему показать все новости с такими-же графиками и с зависимыми. Такие-же это, понятно, новости с пиками в тех же местах где пики того что я ищу, а зависимые — это, например, новости о фанатах/беспорядках, пик которых обычно следует (но не совпадает) за пиком спортивных новостей. Или наоборот, пик каких-то новостей всегда будет предшествовать тому что я ищу.
У нас есть в планах воспроизвести одну работу на эту тему. В ней ищут совпадение по пикам разных устойчивых фраз во временных рядах. Там это применяли к предвыборным кампаниям США на базе твитов и политических блогов, и обнаруживали кто за кем повторяет. Возможности применения такого подхода, конечно гораздо шире. Алгоритм называется K-Spectral Centroid Clustering, а проект memetracker. Meme здесь в том смысле, в каком его Докинз вводил.

По поводу визуализации, есть хороший обзор здесь: http://jmlda.org/papers/doc/2015/no11/Aysina2015Survey.pdf


К сожалению, там нету ссылок на активные и открытые проекты. Нашел только вот эти две статьи с описанием исследовательских проектов:


Спасибо, почитаю. Пока только картинки посмотрел. Мы тоже пробовали steamgraph, stacked area и прочее из предложенного. Из-за огромного количества тем графики в таком виде получаются сильно перегружены. Пришли к тому, что хорошо сделанный bump chart и ridgeline plot пока лучший вариант. Но в любом случае выводить вообще всё не получится. Мы хотим давать пользователю выбор, как отображать. Пока только выбор из двух форматов.
Планируете ли Вы использовать вручную предопределённые сложносоставные темы (в виде графа с векторами оценки взаимосвязей). Корректно составленный граф позволяет оценивать валидность источников СМИ (по аналогии с группами вопросов для проверки валидности (лживости) в психологических тестах).
Честно говоря, я не понял о чём вы. То есть по отдельности понимаю куски идей, а как это всё вместе связано не понял. Мы очень надеемся на иерархические модели — наверное это можно назвать сложносоставными темами, и они строят дерево тем, да, то есть граф. Мысль про валидность, психологические тесты и вопросы не понял совсем.
Подразумевал: полезные для жизни результаты обычно учитывают валидность источников. Для какой-то изучаемой темы мы вручную строим шаблон из нескольких элементов со взаимосвязями. Например «сын моего отца мне не брат» — правильный ответ «Я». Если в результате анализа конкретного СМИ этот паттерн не проходит (например, утверждается, что ответ «сестра»), то у такого источника занижается оценка валидности (компетентности) по данной теме.
Спасибо, интересно. Там похоже долго нужно разбираться.
а в открытом доступе для всех вы планируете результаты вашей обработки показывать?
В идеале хорошо бы вам превратиться не только в визуализатор, но и в экструдер новостей, чтобы новости превращались в краткую лаконичную саммари, содержащую лишь значимый факт из новости, без всей этой кликбейтной шелухи.
А то тошнит уже от нынешних «новостей»

и круто было бы конечно семантически связывать новости. чтобы от каждой можно было проследить цепочку в исторической перспективе, с цифрами динамики, графиками и т.п.
Да, в открытом доступе будет, как только до приличного вида доведём.
Суммаризация текстов — довольно сложная задача, но в принципе всё для этого есть. Можно будет этим заняться, когда с текущим пулом задач разберёмся.

Связывать новости друг с другом семантически — это уже похоже на предмет для серьёзной научной работы, то есть это не просто техническая проблема. Мы такое любим, но тут понятно, что это надолго и результаты могут быть разные.
Спасибо за идеи.
Подумалось тут на досуге, можно ли посчитать скорость и направление миграции новостей в сми? ну например оригинал РБК и клоны со ссылками и без, и так для разных ресурсов. По идее можно смоделировать карту миграции новостей по темам от разных источников (проблема может быть в поиске оригинала) и построить на этой логике неплохой агрегатор новостей
Sign up to leave a comment.