Комментарии / Профиль Alexey

Статистик / DS

ПрофильСтатьи15ПостыНовостиКомментарии387

Глубинное обучение с подкреплением пока не работает

Alexey_mosc 25 фев 2018 в 09:12

Пара моментов по существу, которые описаны не очень.

1) НС учится на игре ATARI несколько дней, а человек, мол, сел и за 5 минут освоил. Неверное логическая основа. Человек уже к этому моменту великолепно предобучен решать такие или похожие задачи (и джойстик наверное держал не раз). А вот нейронка с нуля воссоздает все.

2) Хорошо работают 25-30% из-за якобы случайных начальных условий. Из-за них тоже, но как-то совсем опущено несколько миллионов обновлений весов, конкретно уводящих модель в ту или иную сторону.

Глубинное обучение с подкреплением пока не работает

Alexey_mosc 24 фев 2018 в 19:19

"но по количеству термов". Совсем русский забыли? Количеству членов.

Почему Python так хорош в научных вычислениях

Alexey_mosc 21 фев 2018 в 09:59

Пишем большой проект одновременно на R и Python. Обкладываем проверками, используем быстрые библиотеки для прожевывания датафреймов. Мой коллега на Py пишет в стиле OOP, я, как не программист, пишу функционально. Объемы кода до 10К строк. Все крутится на production в docker container. Переходим на Spark. И R и Python идут нос в нос, но на R быстрее разработка идет. Также были сложности с переносом в Py логики расчета доверительных интервалов для моделей (то, что в R вызывается в функции, в Py решается матричными операциями, что опять же накладывает ограничение на скорость разработки).

Почему Python так хорош в научных вычислениях

Alexey_mosc 21 фев 2018 в 09:34

Ок, и Вам. Я вообще не ученый, просто довольно много статистики в моей DS-работе (на production, в том числе).

Почему Python так хорош в научных вычислениях

Alexey_mosc 20 фев 2018 в 20:48

В этой цитате никаких доводов и не было!

Я только вношу маленький вклад в популяризацию.

Почему Python так хорош в научных вычислениях

Alexey_mosc 20 фев 2018 в 18:04

Вижу, что для этого примера в Python также есть ссылки. Но я не говорю, что это самый главный фактор превращения программиста в ученого, но как бы в R-сообществе этому принято больше внимания уделять, что-ли.

Почему Python так хорош в научных вычислениях

Alexey_mosc 20 фев 2018 в 18:01

Я имею в виду, что открывая help в любой функции из R stats:: или из другой библиотеки можно уточнить смысл некоторых — говоря языком разработчика — скалярных значений, возвращаемых этими функциями при определенных условиях, либо же в целом понять подход, который закодирован в этих функциях, почитав публикации в реферируемых журналах. Пример для семейства функций gamma:

dgamma is computed via the Poisson density, using code contributed by Catherine Loader (see dbinom).

pgamma uses an unpublished (and not otherwise documented) algorithm ‘mainly by Morten Welinder’.

qgamma is based on a C translation of

Best, D. J. and D. E. Roberts (1975). Algorithm AS91. Percentage points of the chi-squared distribution. Applied Statistics, 24, 385–388.

plus a final Newton step to improve the approximation.

rgamma for shape >= 1 uses

Ahrens, J. H. and Dieter, U. (1982). Generating gamma variates by a modified rejection technique. Communications of the ACM, 25, 47–54,

and for 0 < shape < 1 uses

Ahrens, J. H. and Dieter, U. (1974). Computer methods for sampling from gamma, beta, Poisson and binomial distributions. Computing, 12, 223–246.

Пример для функции регуляризованной обобщенной регрессии glmnet:

Author(s)

Jerome Friedman, Trevor Hastie, Noah Simon and Rob Tibshirani
Maintainer: Trevor Hastie hastie@stanford.edu

References

Friedman, J., Hastie, T. and Tibshirani, R. (2008) Regularization Paths for Generalized Linear Models via Coordinate Descent, web.stanford.edu/~hastie/Papers/glmnet.pdf
Journal of Statistical Software, Vol. 33(1), 1-22 Feb 2010
www.jstatsoft.org/v33/i01
Simon, N., Friedman, J., Hastie, T., Tibshirani, R. (2011) Regularization Paths for Cox's Proportional Hazards Model via Coordinate Descent, Journal of Statistical Software, Vol. 39(5) 1-13
www.jstatsoft.org/v39/i05
Tibshirani, Robert., Bien, J., Friedman, J.,Hastie, T.,Simon, N.,Taylor, J. and Tibshirani, Ryan. (2012) Strong Rules for Discarding Predictors in Lasso-type Problems, JRSSB vol 74,
statweb.stanford.edu/~tibs/ftp/strong.pdf
Stanford Statistics Technical Report
Glmnet Vignette web.stanford.edu/~hastie/glmnet/glmnet_alpha.html

И, вдогонку к последнему примеру, обсуждение формулы для смешанной регуляризации на профильном ресурсе (обсуждение на уровне топовых представителей математической статистики): https://stats.stackexchange.com/questions/326427/why-does-glmnet-use-naive-elastic-net-from-the-zou-hastie-original-paper/327129#327129

Все это подстегивает определенный исследовательский интерес. Но, в целом, его подстегивает, в первую очередь, заказ на глубину объяснения используемых методов со стороны заказчика. Если его нет, то тут уж сам скорее себя драйвишь.

Почему Python так хорош в научных вычислениях

Alexey_mosc 20 фев 2018 в 17:24

+ в карму R (его редко цитируют где-либо в рунете). Я тоже на R фигачу. Но сам этот факт не отделяет этот язык от Python в срезе

К исследованиям Python не побуждает, т.к. почти всё нужное среднестатистическому учёному можно найти в той или иной библиотеке.

Хотя, в чем-то и отделяет, например, через возможность связать функции библиотеки с рядом публикаций, указанных в help.

Зарабатывающая идея реального форекс-робота

Alexey_mosc 20 фев 2018 в 15:52

Звучит странно. Те, кто закрывают позиции, продают свои активы тем, кто их открывает. И наоборот.

3D-движок, написанный на формулах MS Excel

Alexey_mosc 20 фев 2018 в 10:42

Парень, ты гений!

Почему Стивен Хокинг не прав или перспективы ИИ

Alexey_mosc 16 фев 2018 в 13:19

ИИшечка поймет, что зло — это люди, а добро — очистить планету от этих паразитов раз и навсегда.

Почему в Петербурге так сложно построить карьеру VP of engineering

Alexey_mosc 9 фев 2018 в 08:54

А я в противоток: приехал из Москвы (прожил там 10 лет) в Петербург работать в области data science и доволен.

Честное сравнение камеры телефона и зеркального фотоаппарата

Alexey_mosc 2 фев 2018 в 08:04

Кто уже возьмётся обучить deep nn для придания телефонным фоткам вида продукта зеркалок?

Оформление базовой графики R

Alexey_mosc 29 янв 2018 в 08:48

Хорошо!

Hands-On Programming With R — Garrett Grolemund

Alexey_mosc 23 янв 2018 в 13:22

Coursera Advanced R Programming. Лучше начать с R Programming.

Hands-On Programming With R — Garrett Grolemund

Alexey_mosc 19 янв 2018 в 10:01

Редко где видел примеры реализации экспериментов в R с помощью ООП. Обычно функциональный и/или процедурный подход, после которого рекомендуется выносить функционал в пакеты. Писать классы и методы на R (я пробовал только в рамках обучающего курса) — это менее удобно, не популярно (не нужно)?

Hands-On Programming With R — Garrett Grolemund

Alexey_mosc 15 янв 2018 в 10:33

Я пишу на R в области data science. За несколько месяцев получается разработать прототип сервиса, переписывание полного функционала которого на продакшн-ЯП заняло бы годы. Плюс симпатичная презентация результатов (markdown, shiny, ggplot2).

Использование R для «промышленной» разработки

Alexey_mosc 8 дек 2017 в 12:55

R популярен среди банковских аналитиков для скоринга, предсказания оттока, кластеризации. Особенно рулит логистическая регрессия и внимание к выполнению предположений о модели данных.

Использование R для «промышленной» разработки

Alexey_mosc 8 дек 2017 в 10:33

Четверо мининимум, и еще двоих хороших R сайентистов знаю.

Использование R для «промышленной» разработки

Alexey_mosc 4 дек 2017 в 14:48

Он совсем недавно появился, ага. но еще не пробовал.

1 2 ...

11 12

14 15 ...

19 20