Pull to refresh
20
Send message
Пару лет назад была такая вот попытка:
habrahabr.ru/post/161005
habrahabr.ru/post/194724

Еще вот есть датасет:
labrosa.ee.columbia.edu/millionsong
www.kaggle.com/c/msdchallenge

Кстати не знаю есть ли что то основанное чисто на анализе сырых данных песен?
spotify — тут вроде коллаборативная фильтрация как и на last.fm без анализа содержимого самих песен
www.slideshare.net/erikbern/collaborative-filtering-at-spotify-16182818
www.slideshare.net/erikbern/mlhadoop-nyc-predictive-analytics-2
pandora — тут вроде бы эксперты проставляют тэги.
По сути данную задачу поиска похожих текстов можно рассмотреть как задачу смежную определению авторства текста.

И да какие алгоритмы используются в таких задачах? Как такая задача называется по английски?
Ну понятное дело что можно побить текст на слова, потом (опционально) стеммером привести их в нормальную форму, сделать мешок слов и в итоге получить для каждого текста бинарный вектор длины N, потом еще и спроецировать каким нибудь нелинейным методом в пространство более низкой размерности при условии, чтобы тексты одного автора были расположены близко в одном кластере, а кластеры разных писателей разнесены.
А термины извлекаются автоматически или они заранее заданы вручную?

И еще спрошу пожалуй тут, приходила на ум еще такая задача, допустим есть у нас рекомендательная система для книг типа books.imhonet.ru и я так понимаю она работает как просто рекомендательная система т.е. имеется некая матрица пользователи-товары, а в ячейках оценки, так вот нельзя ли рекомендовать книги на основе их контента(их текста)?
Приходила мысль «извлечения фактов» из автомобильных форумов, т.е. например «ломается коробка», «дорогая в обслуживании» и т.д. Насколько реалистична такая задача?

И еще нечто похожее есть в яндекс.маркет(колонки достоинства/недостатки для товаров), но там возможно задача проще так как можно просто смотреть частоту вхождения слов.
Оказывается это еще domain adaptation называется.
sites.skoltech.ru/compvision/projects/grl
https://yandexdataschool.ru/edu-process/courses/machine-learning#item-15

тут еще говориться в 15 лекции К.В. Воронцова на 1:13:51(слайд 21), что градиент бустинг над ODT = Yandex.MatrixNet
Некропост:

Если возможно, обновите картинки и перезалейте код на github.
>причем на CNN она обогнала саму себя же, запущенную на GPU
похоже у MNIST слишком маленькие картинки, чтобы разгуляться на GPU.

Еще ссылки по теме:

Torch vs Theano
fastml.com/torch-vs-theano

бенчмарк сверточных сетей
github.com/soumith/convnet-benchmarks

оптимизация caffe
plus.google.com/+AndrejKarpathy/posts/N94pSX7wrHL

заметки по GPU железу
timdettmers.wordpress.com/2015/03/09/deep-learning-hardware-guide
>я начинал экспериментировать с задачей в R, но потом быстро отказался от него, так как практически невозможно работать с >большими данными.

а можно поподробнее.
Статья актуальная и интересная!

Я так и не понял, а где же transfer learning?
Из того что я видел:
Self-taught Learning: Transfer Learning from Unlabeled Data
Еще во второй части лекции от яндекса, где сетка похожая на рогатину

Так же не понял, вы обучали глубокую сверточную сеть сами на своих данных или вы взяли готовую уже обученную?
Если второе, то как я понял это был трюк аля берем обученную на ImageNet сверточную сеть, отрубаем ей голову, далее можем этот обрубок использовать как выделятор фич, а можем еще и дообучить на нашем датасете(некий такой finetuning).

Как вы в итоге сравниваете качество работы алгоритма? на глаз?
>Если это например ремиксы или разные версии одной песни, то да, на них у нас как раз было много «ложных» срабатываний.

не понял, вы же вроде искали рекламу.

Насчёт похожести, да, это вопрос как определить, какие есть подходы?

В идеале хотелось бы систему которая использует не колаборативную фильтрацию(рекомендательная система) аля last.fm, а использует data-driven подход, т.е. по самому контенту музыкальному.

Из более реального, то что приходит на ум в первую очередь это типа нечеткие дубликаты: например студийная запись песни и запись песни с концерта, второе это одна и та же музыка, но слова разные, типа переделка как пример:
www.youtube.com/watch?v=DW5icEb5nk4
www.youtube.com/watch?v=6PDmZnG8KsM
Я так понял, что данный подход позволяет найти заданный отрезок в зашумленной записи?

Будет ли это работать если я хочу просто найти похожие записи?
geektimes.ru/post/88309/

Microsoft ICE еще может делать панормау по видео.
Это что то на базе mapreduce типа Hadoop? Есть какой то смысл это ставить на одиночный компьютер?

Было бы неплохо все таки какой либо пример, например подсчет кол-ва слов или n-gram.
Есть такая библиотека PCL для работы с point cloud'ами
www.pointclouds.org/assets/rss2011/05_features.pdf
www.pointclouds.org/assets/iros2011/features.pdf

вот тут много еще

вообще много чего гуглиться по запросу «3d descriptors»
У вас начало про одно, конец про другое.

Навскидку такую задачу можно решить двумя путями:
1. Построить point cloud и потом либо пройтись скользящим окном, либо матчить 3D дескрипторы, либо использовать ICP.
2. Multi-view object detection\recognition.

п.с. раз тут уж пошел разговор про восприятие, то всякие там летучие мыши и дельфины вроде как используют эхолокацию, так что why not.

И как говорят в этом видео видят не глаза, видит мозг.
А какой алгоритм минимизации целевой ф-ии используется на практике? Я слышал о SGD или L-BFGS тоже применим для Big Data?

Я это не очень понимаю, вот допустим были у нас линейно неразделимые данные, потом мы взяли и еще докинули много, у нас всё равно линейно неразделимые данные и линейный классификатор, который плохо работает, т.е. делает много ошибок.

Я себе представлял это так: допустим классифицируем изображения, выделили фичи и получили, что данные линейно неразделимы, выделили много разных фич, получили представление в многомерном пространстве и там данные стали разделимы, но теперь наша выборка занимает очень много места и не может влезть в память(т.е. получаем большие данные не по кол-ву сэмплов, а по кол-ву фич).

Кстати какой есть тест\критерий на линейную разделимость данных? (пока я делал так: обучить линейный классификатор, прогнать на всех обучающих примерах, если есть ошибки классификации значит не разделимы)

Почему требуется столько проходов по данным? Чем больше проходов тем лучше?

Допустим имеем много данных и ограниченную память, что будет лучше такой линейный классификатор по всем данным или нелинейный по рэндомному подмножеству всех данных(которое можно запихнуть в память).

Еще вот есть сравнение:
fastml.com/vowpal-wabbit-liblinear-sbm-and-streamsvm-compared/

Information

Rating
Does not participate
Registered
Activity