Комментарии / Профиль iggisv9t / Хабр

Святослав@iggisv9t

Пользователь

Подписчики

Что если представить habr в виде obsidian-графа?

iggisv9t 24 сен 2025 в 07:51

d3 -- это всё-таки библиотека. В обсидиане скорее всего тоже он. Я просто хотел предложить что-то, что оптимизированно под болшие графы. Gephi использует opengl, а cosmograph -- webgl. И это готовые инструменты. Не надо ничего переписывать, только данные засовывай и всё.

Что если представить habr в виде obsidian-графа?

iggisv9t 23 сен 2025 в 17:08

Методология конечно интересная. Если вдруг захочется пошатать большие объёмы то есть рецепты когда не надо загонять всё в обсидиан, а сразу в ПО для визуализации графов.

Нужен csv файлик соедржащий все рёбра с заголовком Source,Target и просто список пар айдишников (или заголовков), статьи где указана ссылка и статьи куда она ссылается. Дальше это можно загнать в Gephi -- это не самый гладкий GUI и нужно дольше разбираться что дальше делать (force atlas укладку как минимум). Или попроще и покрасивее прямо в браузере в https://cosmograph.app/ -- всё это спокойно потащит и сотни тысяч вершин даже на скромном железе.

Распространение сферического коня в вакууме по территории РФ

iggisv9t 30 мар 2020 в 09:54

На самом деле там без подбора параметров большого смысла в конкретных числах нет. Важна только динамика и сравнение этой динамики при разных симуляциях. Поэтому с числами информативности не будет сильно больше.

Тематическое моделирование новостей с помощью факторного анализа

iggisv9t 21 окт 2019 в 16:43

Это очень похоже на то, что мы делаем вот в этом проекте habr.com/ru/company/ods/blog/460287
Может быть мы сможем как-то объединить усилия?

По поводу LDA и гранулярности до темы отдельного события есть несколько соображений. Во-первых, иерархические модели. То есть попросту делать тематическое моделирование внутри темы заново каждый раз (хотя строго говоря там всё сложнее). Мы пробовали из этого парочку подходов и получалось интересно. Во-вторых, выделение событий во времени, то есть не совсем тематизация даже, но оно очень хорошо выделяет конкретные события из новостей и их перепечатки и цитирования. Есть работа на эту тему www.memetracker.org. Мы хотим попробовать повторить у себя.

Визуализация больших графов для самых маленьких

iggisv9t 18 сен 2019 в 16:45

Для начала можно уменьшить размер кружков. В gephi есть noverlap укладка (и не только в gephi) она специально раздвигает узлы, так чтобы они перестали накладываться. То есть сначала делается та, которая удобна, потом noverlap. Мне ещё нравится, как с этим справляется Yifan Hu, но с таким плотным комком, он скорее всего не поможет. В Force Atlas тоже есть параметр prevent overlap. А так, если степени вершин распределены примерно равномерно, то Fruchterman and Reingold неплохой выбор — он просто стремится всё расположить равномерно. А вообще устранение наложений во многих укладках решается просто масштабированием. Просто растягивают холст, но это эквивалентно уменьшению диаметра. То есть решение просто за счёт настроек отображения.

Визуализация больших графов для самых маленьких

iggisv9t 7 сен 2019 в 18:57

Ну тут всё просто. GraphViz и Gephi кросс-платформенные, igraph — просто библиотека, тоже везде ставится, graphistry — веб-сервис, а всё остальное надо самому собирать из исходников, а потом городить поверх что-то, что будет рисовать результат по координатам.

Визуализация больших графов для самых маленьких

iggisv9t 5 сен 2019 в 14:43

Вот graphistry как раз подобный веб-сервис. Но там ограничение на размеры, и дорого.

Визуализация больших графов для самых маленьких

iggisv9t 5 сен 2019 в 14:42

Спасибо. Обязательно попробую теперь. Cytoscape выглядел приятнее, чем gephi, может быть получится на него перейти.

Визуализация больших графов для самых маленьких

iggisv9t 5 сен 2019 в 09:08

О, шикарная штука! У меня товарищ недавно делал карту интернета через LargeViz только без интерактива. Там 2.5М вершин было. Я находил для таких интерактивных демо shingle.js — рассказывал об этом в одной из предыдущих своих статей. Вот тут демо iggisv9t.xyz/imdb/index.html — оно подгружает вершины и рёбра по зуму. А сама статья тут habr.com/ru/company/ods/blog/348110

Визуализация больших графов для самых маленьких

iggisv9t 5 сен 2019 в 09:01

Картинки интересные. Пока кажется, что для больших графов оно не подойдёт, потому что, например, хордовая диаграмма уже на тысячах объектов совсем перестаёт читаться.

Визуализация больших графов для самых маленьких

iggisv9t 5 сен 2019 в 08:59

Он больше для извлечения признаков. Документация, на момент, когда я пробовал, больше пересказывала статью о том, как они это придумали, а более менее толковые инструкции были на гитхабе в ридми. Но там всё равно нужно было много всего выяснять методом проб и ошибок. Понравилось, что требует относительно немного ресурсов. А вот эмбеддинги посмотреть я так и не смог.

Визуализация больших графов для самых маленьких

iggisv9t 5 сен 2019 в 08:56

Я даже находил эту штуку раньше. Кажется, что для деревьев это лучше всего будет работать.

Визуализация больших графов для самых маленьких

iggisv9t 5 сен 2019 в 08:14

Пробовал года два назад. Может быть сейчас что-то поменялось, но тогда он вешал систему ещё при загрузке графа.

Визуализация больших графов для самых маленьких

iggisv9t 5 сен 2019 в 08:13

Я graphviz для таких размеров не использую. А gephi с openOrd и Multigravity ForceAtlas 2 вывозит до миллиона. Вы ведь поменяли в конфиге максимальный размер памяти доступный gephi? Чёрный комок можно размазать, если поставить в force atlas режим linlog, но скорее всего он его упрёт в квадратик. Хотя в статье есть иллюстрация, где gephi уложил 173К. И в одной из предыдущих статей я ещё из этого интерактивный сайт делал.

С читаемостью можно поработать ещё если настроить отображения. Убрать отрисовку рёбер, потому что их слишком много, уменьшить размер отображения вершин.
Или можно сразу переходить на LargeViz.

Визуализация больших графов для самых маленьких

iggisv9t 4 сен 2019 в 14:29

Я, бывало, ждал дни пока досчитается sfdp, когда ещё не знал о других инстрментах.
В gephi можно поставить graphviz как плагин и пробовать уложить сначала им, а потом какой-то другой укладкой. Но для больших графов это будет бесполезно. Я пользуюсь укладкой dot для мелких графов, тоже через плагин. Удобно, что уложено как дерево, а возможности для анализа из gephi.

Неслучайный генератор случайных одноразовых кодов Тинькофф банка

iggisv9t 14 авг 2019 в 17:31

Я понял свою ошибку. Действительно упустил момент, что есть разные типы операций.

Неслучайный генератор случайных одноразовых кодов Тинькофф банка

iggisv9t 14 авг 2019 в 16:38

Ну строго говоря да, в статье считают для 1 и 3, а я для произвольной пары. Надо сначала разобраться как часто совпадают другие пары и насколько это отличается от равномерного.

Неслучайный генератор случайных одноразовых кодов Тинькофф банка

iggisv9t 14 авг 2019 в 15:23

Я не нашёл упоминание парадокса дней рождений ни в одном комментарии. Если считать, что у нас 10 цифр и код 4 знака, то вероятность, что две цифры будут совпадать получится 1 — 10*9*8*7 / 10000 = 0.496. В статье посчитали вероятность, что две цифры будут равны какой-то конкретной цифре, а не просто совпадут. Потому парадокс дней рождений и парадокс.

У человека удивительная способность находить закономерности там, где их нет. А анализ на случайность надо делать совсем по-другому. Например нарисовать гистограмму кодов хотя-бы, или провести статистический тест.

Визуализация новостей рунета

iggisv9t 5 авг 2019 в 10:23

Да, в открытом доступе будет, как только до приличного вида доведём.
Суммаризация текстов — довольно сложная задача, но в принципе всё для этого есть. Можно будет этим заняться, когда с текущим пулом задач разберёмся.

Связывать новости друг с другом семантически — это уже похоже на предмет для серьёзной научной работы, то есть это не просто техническая проблема. Мы такое любим, но тут понятно, что это надолго и результаты могут быть разные.
Спасибо за идеи.

Визуализация новостей рунета

iggisv9t 5 авг 2019 в 10:20

Спасибо, интересно. Там похоже долго нужно разбираться.