Ну если в фотках друзей то да, тогда понятно. Просто если искать самый близкий эмбеддинг по всем юзерам (а это, наверное, косинусная мера) на 330M векторов — такое себе занятие…
Ну да, забить можно. Просто это закрывает дорогу приложениям на Vue в корпоративный сектор. Для сайтов это не критично, а если ты делаешь веб-приложения то ой.
Отличное решение! Я тоже люблю забавляться с графами и рекомендациями. Как раз работую сейчас над рекомендательной системой на основе данных кинопоиска. Немного на других принципах, но будет очень интересно сравнить то что получится с теми рекомендациями, которые отображены на вашем графе.
Мне видится что вы не очень понимаете принципы использование датасетов в самообучающихся системах. Потому что если ваши «гипотезы», читай «веса синонимов» не будут находить подтверждение (а это, скорее всего так, потому что после 5-10 нормальных ассоциаций у вас идет, извините, бред, который приходится выдумывать) в реальном диалоге или текстах, то они вылетят из модели и останется только наиболее частотная «голова», которая не сильно отличается от того что дает word2vec.
И я не понимаю как эти данные могут автоматически помочь в сентимент-анализе без разметки и в автоматическим составление тезауруса под новую предметную область.
Не подумайте что я наезжаю, просто действительно, проделан большой объем работы, но кроме предположений из той статьи, на которую вы ссылаетесь, что бот запутается в эмоциях если делать его через word2vec я не увидел никаких проверок неадекватности существующих моделей и улучшений на вашем датасете. Что-то есть в вашей идее, но, боюсь, глобально и усреднено — нейронные сети лучше разберутся что к чему )))
PS Кстати, о Glove. У меня сложилось впечатление что эта модель работает хуже чем word2vec. По крайней мере в моих тестах мне так показалось.
Это все прекрасно, но как вы сформировали этот датасет? Ничего не сказано же об этом. Из того что я вижу в assoc.csv — ну те же слова, выведенные через distance из тулчейна word2vec.
Может быть вы как то использовали ранговую корреляцию в прямом ( изба -> дом, крыльцо, ...) и обратном ( дом->изба, крыльцо->изба, ...->изба) вычислении вектора наиболее похожих слов и это назвали «ассоциацией»? Или что? Где описание алгоритма?
А я правильно понимаю что использование сетей с вниманием в применении к тексту можно считать, по сути, некоторым развитием базовых алгоритмов типа tf-idf? Ну то есть могут решаться похожие задачи выделения контекста.
А может быть кто-то помнит радиоспектакль где суть была в том что какой-то странник (кажется, его звали Спутник) помог паре выиграть много денег в лотерею, а они потом его убили? Слышал лет 20 назад… Не помню ни названия, ни автора.
Если интерпретировать историю пользователя как цепочку событий то можно. Каждое событие — отдельное «слово» в словаре. А дальше работаем как с текстами ))
Не так долго как могло бы показаться — это же хобби ))
Краулер был написан еще в начале лета под задачу подсчета статистики активности в ЖЖ. Чуть больше недели на обработку данных и борьбу с SVD и несколько дней на конвертер для графов и их визуализацию — весьма такое творческое занятие. Ну и по паре дней (ночей) на написание фронт-энда для блогов и вина. Я не очень большой специалист в js-разработке, а некоторые аспекты рендеринга на svg и библиотеки d3js осваивал в процессе.
Адекватные деньги это сколько? Есть AWS с его спот-микро-инстансами, есть пачки прокси. Я не спец именно по ботам для поисковых систем, но мне кажется подход то один.