Комментарии / Профиль RomanL / Хабр

Ну если в фотках друзей то да, тогда понятно. Просто если искать самый близкий эмбеддинг по всем юзерам (а это, наверное, косинусная мера) на 330M векторов — такое себе занятие…

Щи, или Распознавание 330 млн лиц на скорости 400 фото / сек

RomanL 7 мар 2018 в 13:05

Да, очень интересно как вы оптимизируете выбор наиболее подходящих векторов

Создатель Vue.js отвечает Хабру

RomanL 2 мар 2018 в 11:08

Ну да, забить можно. Просто это закрывает дорогу приложениям на Vue в корпоративный сектор. Для сайтов это не критично, а если ты делаешь веб-приложения то ой.

Получаем список пассажиров рейсов крупнейшего авиаперевозчика Украины

RomanL 26 фев 2018 в 13:22

Ну так нефиг фоточки билетов в инстаграмчик выкладывать ))

Визуализация данных для киноманов: скрапим рекомендации фильмов и делаем интерактивный граф

RomanL 20 фев 2018 в 09:14

Как рекомендательная система — выбираете любимые фильмы и исследуете кластер куда они входят для подбора чего бы посмотреть похожего.

Визуализация данных для киноманов: скрапим рекомендации фильмов и делаем интерактивный граф

RomanL 20 фев 2018 в 09:13

Отличное решение! Я тоже люблю забавляться с графами и рекомендациями. Как раз работую сейчас над рекомендательной системой на основе данных кинопоиска. Немного на других принципах, но будет очень интересно сравнить то что получится с теми рекомендациями, которые отображены на вашем графе.

Весы и штрих-коды: Как ритейлеры и производители оказались в глубокой… луже

RomanL 23 янв 2018 в 13:36

Кстати, а есть где-то открытые базы EAN-13 продуктов питания?

Анализируй это — Lenta.ru

RomanL 4 дек 2017 в 14:17

Отличное имя домена, очень подходит ))

Датасет: ассоциации к словам и выражениям русского языка

RomanL 1 ноя 2017 в 12:42

Ну я так и подумал, я тоже так делаю ))

Датасет: ассоциации к словам и выражениям русского языка

RomanL 1 ноя 2017 в 12:28

А как вы составляете «Каким бывает «счастье»»? Тоже вручную? Или анализируете словосочетания по правилам с ключевым словом?

Датасет: ассоциации к словам и выражениям русского языка

RomanL 1 ноя 2017 в 07:11

Мне видится что вы не очень понимаете принципы использование датасетов в самообучающихся системах. Потому что если ваши «гипотезы», читай «веса синонимов» не будут находить подтверждение (а это, скорее всего так, потому что после 5-10 нормальных ассоциаций у вас идет, извините, бред, который приходится выдумывать) в реальном диалоге или текстах, то они вылетят из модели и останется только наиболее частотная «голова», которая не сильно отличается от того что дает word2vec.

И я не понимаю как эти данные могут автоматически помочь в сентимент-анализе без разметки и в автоматическим составление тезауруса под новую предметную область.

Не подумайте что я наезжаю, просто действительно, проделан большой объем работы, но кроме предположений из той статьи, на которую вы ссылаетесь, что бот запутается в эмоциях если делать его через word2vec я не увидел никаких проверок неадекватности существующих моделей и улучшений на вашем датасете. Что-то есть в вашей идее, но, боюсь, глобально и усреднено — нейронные сети лучше разберутся что к чему )))

PS Кстати, о Glove. У меня сложилось впечатление что эта модель работает хуже чем word2vec. По крайней мере в моих тестах мне так показалось.

Датасет: ассоциации к словам и выражениям русского языка

RomanL 31 окт 2017 в 20:08

В таком случае могу только восхищаться объемом проделанной работы, но не могу избавиться от двух извечных вопросов «зачем и нафига».

Какую задачу вы решали? Чем ваш датасет может помочь лучше чем предварительно морфологизированный word2vec на приличном исходном множестве текстов?

Датасет: ассоциации к словам и выражениям русского языка

RomanL 31 окт 2017 в 19:47

Это все прекрасно, но как вы сформировали этот датасет? Ничего не сказано же об этом. Из того что я вижу в assoc.csv — ну те же слова, выведенные через distance из тулчейна word2vec.

Может быть вы как то использовали ранговую корреляцию в прямом ( изба -> дом, крыльцо, ...) и обратном ( дом->изба, крыльцо->изба, ...->изба) вычислении вектора наиболее похожих слов и это назвали «ассоциацией»? Или что? Где описание алгоритма?

Transformer — новая архитектура нейросетей для работы с последовательностями

RomanL 30 окт 2017 в 11:44

А я правильно понимаю что использование сетей с вниманием в применении к тексту можно считать, по сути, некоторым развитием базовых алгоритмов типа tf-idf? Ну то есть могут решаться похожие задачи выделения контекста.

Российские радиоспектакли: от «Радионяни» до «Соляриса»

RomanL 25 окт 2017 в 12:58

А может быть кто-то помнит радиоспектакль где суть была в том что какой-то странник (кажется, его звали Спутник) помог паре выиграть много денег в лотерею, а они потом его убили? Слышал лет 20 назад… Не помню ни названия, ни автора.

Российские радиоспектакли: от «Радионяни» до «Соляриса»

RomanL 25 окт 2017 в 12:56

Есть еще отличное прочтение «Улитки на склоне» от Бориса Стругацкого.

2 3 ...

29 30