Pull to refresh
52
0
Святослав @iggisv9t

Пользователь

Send message
Честно говоря, я не понял о чём вы. То есть по отдельности понимаю куски идей, а как это всё вместе связано не понял. Мы очень надеемся на иерархические модели — наверное это можно назвать сложносоставными темами, и они строят дерево тем, да, то есть граф. Мысль про валидность, психологические тесты и вопросы не понял совсем.
Спасибо, почитаю. Пока только картинки посмотрел. Мы тоже пробовали steamgraph, stacked area и прочее из предложенного. Из-за огромного количества тем графики в таком виде получаются сильно перегружены. Пришли к тому, что хорошо сделанный bump chart и ridgeline plot пока лучший вариант. Но в любом случае выводить вообще всё не получится. Мы хотим давать пользователю выбор, как отображать. Пока только выбор из двух форматов.
У нас есть в планах воспроизвести одну работу на эту тему. В ней ищут совпадение по пикам разных устойчивых фраз во временных рядах. Там это применяли к предвыборным кампаниям США на базе твитов и политических блогов, и обнаруживали кто за кем повторяет. Возможности применения такого подхода, конечно гораздо шире. Алгоритм называется K-Spectral Centroid Clustering, а проект memetracker. Meme здесь в том смысле, в каком его Докинз вводил.
Сделать что-то один раз, или посоветовать подход — тоже хороший вариант участия.
80 человек, из которых 2-4 бывают активны постоянно, около 20 вносили какой-то вклад в проект. У нас за ЗП никто не работает, в том числе и я. И никто и не надеялся на какие-то вознаграждения. Монетизация не была целью никогда. Я пытался пояснить мотивацию участников в разделе «команда» и формат таких проектов в разделе «краткая справка». В общем, нет необходимости поддерживать 80 человек, их которых 60 ограничились только тем, что заполнили заявку на участие.

Тем не менее на нас выходят организации, которым интересно применять подобные подходы к своим данным и задачам. Так что потенциал для монетизации есть, но немного в других рамках, уже вне всего этого движа.
Я думаю, что этим и без нас занимаются, конечно. Сейчас мы просмотры не парсим. Когда-нибудь обязательно будем.
Для начала надо присоединиться к ods.ai — потому что всё это в рамках сообщества. Потом искать где там #ml4sg
Ладно, наверное ссылки в статье действительно слишком незаметны. Сайт с обоими графами здесь: iggisv9t.github.io
Спасибо за базу, открытые данные — это круто.
Скорость была обусловлена только тем, что я купил демо-доступ к сервису прокси на месяц за 11 USD, там был лимит на 10 одновременных запросов. Я поставил в своём пауке таймаут так, чтобы с запасом в этот лимит попадать. Если бы я был готов раскошелиться в тех же масштабах, что нужно для вашего сервиса, то можно было бы помериться скоростью. Я излагал в статье вариант близкий к бесплатному. То есть, если потратить ещё полчаса-час на прикручивание бесплатных прокси или тора, то можно заплатить временем и получить те же данные бесплатно. Для одноразовой задачи в самый раз.
Если нужно скрапить постоянно и быстро, то конечно пригодится какой-то сервис.
Я тоже нашёл shinglejs когда уже отчаялся и думал, что никуда такой граф не впихну. Разработчик оставил на форуме Gephi упоминание об этой штуке, и я случайно на него наткнулся. Думаю, что если мы его поддержим, то он сможет сделать плагин для Gephi. Он уже писал о таких намерениях.
1. Через сигму я отрисовал только кинопоиск, там всего 12К вершин. IMDb тоже запускал локально, вывозил на своём домашнем ноуте, но со скрипом, для демо не годится.
2. В IMDb больше 1.54М рёбер. Очень хотелось поудалять слабые связи, но это противоречит цели наглядности, поэтому всё как есть.
3. Кинопоиск укладывался быстро, минут 5-10. IMDb подольше, тем более я его укладку тюнил на ходу, наверное полчаса до почти финального результата. Вот noverlap потом очень долго делал. Машина — домашний ноут, Thinkpad W510, core i7, 32GB RAM. На сервере даже не пытался. Если бы было больше времени на эксперименты, я бы попытался через sfdp всё сделать.

Я может быть не сильно явно ссылки в пост вставил, но по-моему очень удобно находить по интерактивному графу новые фильмы для просмотра. Мне казалось, что если результат потыкать, то будет понятно. В графе imdb я ещё и оценки отображаю цветами, поэтому легко находить сразу хорошие фильмы в конкретной области. Можно перейти к конкретному фильму в графе, а потом смотреть его связи и делать неожиданные открытия. Я много интересных нашёл. Это в чём польза для киноманов.


Для анализа данных визуализация тоже важна, потому что можно получить представление о структуре. Я потому и привёл пример с DBSCAN. Именно глядя на структуру можно предположить, что он подойдёт в этой задаче. Ещё можно делать вывод исходят из связности. Топ 250 входят в полностью связный граф, и у нас всегда есть связь плотного кластера очень похожих фильмов с каким-нибудь другим отдалённым кластером. Я не приводил здесь всё, что можно увидеть, потому что это тоже проще и нагляднее посмотреть самому, но например зависимость оценок от жанра тоже легко проследить. Самые популярные фильмы в основном драммы. Есть много выводов, которые не являются неожиданноми, но зато могут подтвердить предположения — например группировка по году выпуска. Зато фильмы одного режиссёра часто оказываются очень далеко друг от друга.


Если мы будем говорить о задаче построения рекомендаций, то помимо моего примера в статье, можно наглядно увидеть почему рекомендации получаются такими, а не другими, и также получить какую-то качественную наглядную оценку.


Но вообще статья больше задумывалась как обзор инструментов. С графовыми инструментами ситуация сложная, потому что часто оказывается, что хороший фреймворк или приложение уже 5-10 лет как заброшено разработчиками. На поиски подходящего уходит очень много времени. Мне хотелось бы чтобы подобных проектов было больше. Очень много данных, особенно в интернете, которые логично представить в виде графа. Музыка, фильмы, соцсети — это только то, что напрашивается сразу.

Согласен. В целом здесь вопрос задачи. Если нужно получить красивую картинку, то нужно совсем с другой стороны заходить, экспортировать svg и потом дорабатывать в AI или Inkscape. Прямой экспорт из gephi в png не предназначен для произведений искусства. А грязь скорее из-за контуров вершин, которые чёрные. Сама палитра выглядит чисто, но если не рисовать контуры, то из-за огромного числа рёбер вершины вовсе не будет видно, даже если долго играть с прозрачностью. Я решил остановиться на таком промежуточном варианте между информативностью и красотой. Может быть я найду время на то, чтобы добить картинку и делать принты.
Умные решения для персонализации меню и диет

Планируете предоставить данные для обучения ML моделей? Сложно персонализировать без данных, демонстрировать результаты тем более.

2

Information

Rating
Does not participate
Location
Санкт-Петербург, Санкт-Петербург и область, Россия
Works in
Registered
Activity