Как стать автором
Обновить
52
0
Святослав @iggisv9t

Пользователь

Отправить сообщение
На самом деле там без подбора параметров большого смысла в конкретных числах нет. Важна только динамика и сравнение этой динамики при разных симуляциях. Поэтому с числами информативности не будет сильно больше.
Это очень похоже на то, что мы делаем вот в этом проекте habr.com/ru/company/ods/blog/460287
Может быть мы сможем как-то объединить усилия?

По поводу LDA и гранулярности до темы отдельного события есть несколько соображений. Во-первых, иерархические модели. То есть попросту делать тематическое моделирование внутри темы заново каждый раз (хотя строго говоря там всё сложнее). Мы пробовали из этого парочку подходов и получалось интересно. Во-вторых, выделение событий во времени, то есть не совсем тематизация даже, но оно очень хорошо выделяет конкретные события из новостей и их перепечатки и цитирования. Есть работа на эту тему www.memetracker.org. Мы хотим попробовать повторить у себя.
Для начала можно уменьшить размер кружков. В gephi есть noverlap укладка (и не только в gephi) она специально раздвигает узлы, так чтобы они перестали накладываться. То есть сначала делается та, которая удобна, потом noverlap. Мне ещё нравится, как с этим справляется Yifan Hu, но с таким плотным комком, он скорее всего не поможет. В Force Atlas тоже есть параметр prevent overlap. А так, если степени вершин распределены примерно равномерно, то Fruchterman and Reingold неплохой выбор — он просто стремится всё расположить равномерно. А вообще устранение наложений во многих укладках решается просто масштабированием. Просто растягивают холст, но это эквивалентно уменьшению диаметра. То есть решение просто за счёт настроек отображения.
Ну тут всё просто. GraphViz и Gephi кросс-платформенные, igraph — просто библиотека, тоже везде ставится, graphistry — веб-сервис, а всё остальное надо самому собирать из исходников, а потом городить поверх что-то, что будет рисовать результат по координатам.
Вот graphistry как раз подобный веб-сервис. Но там ограничение на размеры, и дорого.
Спасибо. Обязательно попробую теперь. Cytoscape выглядел приятнее, чем gephi, может быть получится на него перейти.
О, шикарная штука! У меня товарищ недавно делал карту интернета через LargeViz только без интерактива. Там 2.5М вершин было. Я находил для таких интерактивных демо shingle.js — рассказывал об этом в одной из предыдущих своих статей. Вот тут демо iggisv9t.xyz/imdb/index.html — оно подгружает вершины и рёбра по зуму. А сама статья тут habr.com/ru/company/ods/blog/348110
Картинки интересные. Пока кажется, что для больших графов оно не подойдёт, потому что, например, хордовая диаграмма уже на тысячах объектов совсем перестаёт читаться.
Он больше для извлечения признаков. Документация, на момент, когда я пробовал, больше пересказывала статью о том, как они это придумали, а более менее толковые инструкции были на гитхабе в ридми. Но там всё равно нужно было много всего выяснять методом проб и ошибок. Понравилось, что требует относительно немного ресурсов. А вот эмбеддинги посмотреть я так и не смог.
Я даже находил эту штуку раньше. Кажется, что для деревьев это лучше всего будет работать.
Пробовал года два назад. Может быть сейчас что-то поменялось, но тогда он вешал систему ещё при загрузке графа.
Я graphviz для таких размеров не использую. А gephi с openOrd и Multigravity ForceAtlas 2 вывозит до миллиона. Вы ведь поменяли в конфиге максимальный размер памяти доступный gephi? Чёрный комок можно размазать, если поставить в force atlas режим linlog, но скорее всего он его упрёт в квадратик. Хотя в статье есть иллюстрация, где gephi уложил 173К. И в одной из предыдущих статей я ещё из этого интерактивный сайт делал.

С читаемостью можно поработать ещё если настроить отображения. Убрать отрисовку рёбер, потому что их слишком много, уменьшить размер отображения вершин.
Или можно сразу переходить на LargeViz.
Я, бывало, ждал дни пока досчитается sfdp, когда ещё не знал о других инстрментах.
В gephi можно поставить graphviz как плагин и пробовать уложить сначала им, а потом какой-то другой укладкой. Но для больших графов это будет бесполезно. Я пользуюсь укладкой dot для мелких графов, тоже через плагин. Удобно, что уложено как дерево, а возможности для анализа из gephi.

Я понял свою ошибку. Действительно упустил момент, что есть разные типы операций.

Ну строго говоря да, в статье считают для 1 и 3, а я для произвольной пары. Надо сначала разобраться как часто совпадают другие пары и насколько это отличается от равномерного.
Я не нашёл упоминание парадокса дней рождений ни в одном комментарии. Если считать, что у нас 10 цифр и код 4 знака, то вероятность, что две цифры будут совпадать получится 1 — 10*9*8*7 / 10000 = 0.496. В статье посчитали вероятность, что две цифры будут равны какой-то конкретной цифре, а не просто совпадут. Потому парадокс дней рождений и парадокс.

У человека удивительная способность находить закономерности там, где их нет. А анализ на случайность надо делать совсем по-другому. Например нарисовать гистограмму кодов хотя-бы, или провести статистический тест.
Да, в открытом доступе будет, как только до приличного вида доведём.
Суммаризация текстов — довольно сложная задача, но в принципе всё для этого есть. Можно будет этим заняться, когда с текущим пулом задач разберёмся.

Связывать новости друг с другом семантически — это уже похоже на предмет для серьёзной научной работы, то есть это не просто техническая проблема. Мы такое любим, но тут понятно, что это надолго и результаты могут быть разные.
Спасибо за идеи.
Спасибо, интересно. Там похоже долго нужно разбираться.
Мы же не задачу рекомендаций решаем. То есть вопрос стоит «что пишут», а не «что читают». И тем более не «что предложить почитать». Если брать именно этот проект в чистом виде — то это скорее археология. Но я уже говорил в другом комментарии, что есть бизнес-задачи, где то же самое монетизируется. Только на других данных. Например то же самое «что пишут» в соцсетях простые пользователи даёт ответ на вопрос «что читают» и «что интересно», соответственно и «что предложить почитать». Странно говорить о возможностях инструмента не глядя на сам инструмент, а только на то, к чему его сейчас применили.

Если пытаться охарактеризовать проект с точки зрения того, чем он не является, то разумеется выглядеть будет абсурдно. В данном случае проект не является ни в каком качестве бизнесом. Ни стартапом, ни POC для какого-то стартапа, ни чем похожим. Поэтому вопросы о монетизации надо было бы задавать начиная с вопроса «а нужна ли монетизация?». Ответ — вообще не обязательно. С деньгами и работниками конечно будет эффективнее, но задачи тогда тоже будут другие.

Я говорил, что в проекте предполагаются не только эти графики, поэтому не будем перспективы проекта сжимать в рамки того, что уже нарисовали. Я немного ответил на этот вопрос здесь habr.com/ru/company/ods/blog/460287/#comment_20466025

Дополню, что дата-журналистика находит свою нишу и пользуется спросом. Сам факт того, что люди читают новости, показывает то, что людям интересно, что происходит. То есть если вы переживаете по поводу аудитории — не переживайте.

По поводу просмотров всё таки отвечу. Во-первых мы их всё равно рано или поздно скачаем. Во-вторых пока больше других фундаментальных задач, без которых просмотры бесполезны. В третьих — сначала мы собрали разные индексы о просмотрах самих СМИ, не конкретных статей, отранжировали и начали качать с самых популярных. Лента_ру везде в примерах только потому что она была уже скачана до нас.
Изначальная идея применений примерно как то, что описано до ката. То есть чисто проверка гипотез о том, что происходит и как об этом пишут. Готовят ли почву для каких-то действий или событий, пытаются ли отвлечь внимание. С несколькими источниками можно будет сравнивать перекос в направленности или находить заимствования. Ещё интересные обзоры истории можно делать, как в том примере с лицами. Там видно, например, как на политическую арену выходили персоны из ИТ, а до этого там был только Гейтс, хотя в тот момент всех интересовало только его богатство. Для рекламщиков и пиарщиков здесь тоже есть интерес. Я сам, к сожалению, не очень понимаю их мир, но отслеживать влияние медиа — это очень важная для них задача.
1

Информация

В рейтинге
Не участвует
Откуда
Санкт-Петербург, Санкт-Петербург и область, Россия
Работает в
Зарегистрирован
Активность