Зачем знать архитектуру сети? Все 3 операции (свёртка, pooling и нелинейное преобразование функцией активации) дифференцируемы, в том самом Стэнфордском туториале даже говорится, как их градиенты посчитать, а уж в каком порядке Вы накидаете этих операций — сугубо Ваше дело.
Можете ещё на черновик книги Y. Bengio, I. Goodfellow, A. Courville посмотреть.
Active Learning это немного другое, там про то, что модель может попросить разметить какой-нибудь ранее неразмеченный пример. Онлайновость, конечно, будет только плюсом в данном случае.
word2vec хорошо сработал для рекомендательной системы для соцсетей
Вот про это было бы интересно узнать подробнее. Может статью напишете? Правильно ли я понимаю, что Вы ориентировались на статью Neural Word Embeddings as Implicit Matrix Factorization?
Ну и организацонные вопросы:
— Какие (даже, в каком количестве) вычислительные мощности исползовались?
— Какие данные использовали, как много их было?
Я, конечно же, в первую очередь имет в виду задачи обучения с учителем. И тут уж если один из признаков идеально кореллирует с ответом, то надо его вычислять или нет — дело десятое, а пользы от алгоритма, обученного на таком датасете — ноль.
Про преобразование признаков согласен. С другой стороны, настоящее изучение признаков о рассматриваемой сущности (например, человеке в задаче кредитного скоринга) машиной, мне кажется, потребует сильного ИИ, поскольку надо будет знать, какими признаками сущность может обладать, иметь какую-то (физическую) модель решаемой задачи чтобы отличать потенциально релевантные признаки (ведь цвет носков бабушки заёмщика не имеет никакого значения в этой задаче), а потом ещё пойти и как-то их достать, сохранив при этом задачу осмысленной (а не так, что сказать «для предсказания вероятности возвращения кредита мне нужна банковская история этого человека на 5 лет вперёд» или «для предсказания цены квартиры мне нужно знать среднюю цену в радиусе 1м»)
Например, алгоритм машинного обучения может выделить части лица на фотографии, но он не сможет сделать сам снимок, равно как и не сможет узнать имя, профессию и прочие данные о человеке.
Эээ, такие «ручные признаки» будут очевидно богаче Deep Learning'овых в плане количества содержащейся в них информации, посему как-то не очень хорошо эти понятия сравнивать. Так, знаете ли, и правильный ответ можно (target) можно в признаки включить, а потом обойтись тривиальным решающим правилом.
Свертка есть признак, как и свёрточные сети в целом. На них можно смотреть как на достаточно общие признаки (ручные, да) для большинства изображений (и других данный сигнальной природы).
А все Ваши части подчиняются Вашей воле? Можете силой воли остановить сердце на пару «тактов» или вбросить немного адреналина в кровь?
Мне кажется, что даже чисто ментальные аспекты (т.е. память, внутренний диалог, интуиция, что бы это ни значило) не целиком подвластны нашей воли (например, попробуйте ни о чём не думать минуту).
А что Вы понимаете под признаками? Никто не мешает взять сырые данные (пиксели, например) в качестве признаков. Другое дело, что (в большинстве случаев) осмысленности в таких признаках нет, ибо не было никакой попытки преодолеть "семантический разрыв". С другой стороны, с небольшой предобработкой (вроде нормализации контраста, выделения региона для классификации, бинаризации) для некоторых задач (MNIST, например) даже такие признаки сгодятся для получения «положительного» качества.
Для натуральных (естественных) изображений вроде фотографий всё, конечно, гораздо сложнее. И тут, да, методы DL пока что являются State of the Art.
А есть примеры применения Deep Learning вне аудио, видео, картинок и текста? Я вижу все эти области как характеризующиеся тем, что у них есть иерархическая скрутура, когда из низкоуровневыевых признаков собираются высокоуровневые (например, машина «собирается» из колёс, дверей и корпуса, которые, в свою очередь, собираются из различной причудливости контуров).
В задачах же, вроде оценки стомости дома, кажется, просто нет такой иерархической структуры, что сводит на нет все плюсы DL.
Есть 2 (эквивалентных) способа определить функционал максимального правдоподобия для логистической регрессии (правда, ни в EoSL, ни в PRML второй не упоминается, а в MLAPP только мельком). В одном случае таргеты можно интерпретировать как огрублённые вероятности класса 1 (т.е. y ∈ {0, 1}), а в другом — как метки класса (y ∈ {-1, +1}). В первом MLE приводит нас к настойщей кросс-энтропии в качестве функции потерь, а второй — к той, о которой я писал выше (она же, видимо, используется в статье, на которой основан алгоритм из sklearn).
Так что да, использовать sklearn никак не получится.
Из университетской сети мне показывают полную статью. Неуниверситетского интернета рядом не оказалось, попробовал зайти туда с машинки в Германии — показали полный текст. А так, в интернете, видимо, так просто этот текст не найти.
В самом алгоритме я пока особо не разбирался, лишь мельком посмотрел на описание и попробовал провести параллели с вышеизложенной версией.
Первоисточник идеи неизвестен, гугл по этому поводу по большей части молчит
По запросу quicksort without stack мне гугл выдал интересную статью Quicksort without a stack, где в довольно странно выглядящей статье (1986 года) описывается очень похожий алгоритм.
Правда, кажется, тот алгоритм лучше в виду отсутствия необходимости искать максимумы в блоках. В самом деле, если включить pivot в левый от него блок, подлежащий сортировке, то он и будет наибольшим.
Можете ещё на черновик книги Y. Bengio, I. Goodfellow, A. Courville посмотреть.
Ну и организацонные вопросы:
— Какие (даже, в каком количестве) вычислительные мощности исползовались?
— Какие данные использовали, как много их было?
Про преобразование признаков согласен. С другой стороны, настоящее изучение признаков о рассматриваемой сущности (например, человеке в задаче кредитного скоринга) машиной, мне кажется, потребует сильного ИИ, поскольку надо будет знать, какими признаками сущность может обладать, иметь какую-то (физическую) модель решаемой задачи чтобы отличать потенциально релевантные признаки (ведь цвет носков бабушки заёмщика не имеет никакого значения в этой задаче), а потом ещё пойти и как-то их достать, сохранив при этом задачу осмысленной (а не так, что сказать «для предсказания вероятности возвращения кредита мне нужна банковская история этого человека на 5 лет вперёд» или «для предсказания цены квартиры мне нужно знать среднюю цену в радиусе 1м»)
Свертка есть признак, как и свёрточные сети в целом. На них можно смотреть как на достаточно общие признаки (ручные, да) для большинства изображений (и других данный сигнальной природы).
Мне кажется, что даже чисто ментальные аспекты (т.е. память, внутренний диалог, интуиция, что бы это ни значило) не целиком подвластны нашей воли (например, попробуйте ни о чём не думать минуту).
Для натуральных (естественных) изображений вроде фотографий всё, конечно, гораздо сложнее. И тут, да, методы DL пока что являются State of the Art.
В задачах же, вроде оценки стомости дома, кажется, просто нет такой иерархической структуры, что сводит на нет все плюсы DL.
Есть 2 (эквивалентных) способа определить функционал максимального правдоподобия для логистической регрессии (правда, ни в EoSL, ни в PRML второй не упоминается, а в MLAPP только мельком). В одном случае таргеты можно интерпретировать как огрублённые вероятности класса 1 (т.е. y ∈ {0, 1}), а в другом — как метки класса (y ∈ {-1, +1}). В первом MLE приводит нас к настойщей кросс-энтропии в качестве функции потерь, а второй — к той, о которой я писал выше (она же, видимо, используется в статье, на которой основан алгоритм из sklearn).
Так что да, использовать sklearn никак не получится.
Тогда
Тогда пары (zi, sign(2 p(yi=1) — 1)) дадут датасет, готовый к применению в обычной логистической регрессии.
UPD: Правда, тут не учитываются негативные эффекты от регуляризации, без которой результат вообще был бы идентичен дискретному случаю y = ±1.
В самом алгоритме я пока особо не разбирался, лишь мельком посмотрел на описание и попробовал провести параллели с вышеизложенной версией.
Правда, кажется, тот алгоритм лучше в виду отсутствия необходимости искать максимумы в блоках. В самом деле, если включить pivot в левый от него блок, подлежащий сортировке, то он и будет наибольшим.