Search
Write a publication
Pull to refresh
60
0
Илья Шутов @i_shutov

Data Science

Send message

С туториалом будет туго, но это не беда. В интернете полно курсов по R. Опять же, собрано было не отказоустойчивое мегаприложение, а модульная конструкция, пусть и с обработкой исключений, валидацией и логированием, которая решала частную бизнес-задачу, содержащую множество технических затыков. Если есть более четкие вопросы, то я мог бы ответить по почте.

Климент, добрый день.

Не совсем понял про какой компонент идет речь. Исходный код большинства пакетов можно посмотреть либо на github, либо в директории установки пакетов. Или интересует пример под какую-то конкретную задачу?

да, они шли в связке, потерялся при copy-paste при вычленении вторичных. Исправил

Но, возможно, я не совсем правильно понял Ваш вопрос?
Коллегам, у которых появились конкретные вопросы, я постарался развернуто ответить в личную почту, чтобы не засорять общий поток частными обсуждениями и узкими техническими подробностями.

Хороший комментарий.


Но я нигде не скрываю, что до 2014 года тоже скептически смотрел в сторону R. Минус известный, свойственный всем языкам программирования — кривая обучения. Но для участников хабра этот минус вряд ли страшен, поскольку с ним сталкиваются постоянно во всех других языках и фреймворках. И держу в уме, что подходить к любым задачам только с одним инструментом — неверное решение. Но пока что класс задач, на которых R эффективно применим, постоянно расширяется. Посмотрим, что будет через 2-3 года.


Рекламе чего? Инструментов? Да, фактически я их рекламирую, т.е. обращаю внимание людей, которым это может быть интересно и привожу примеры возможного использования. Только они бесплатны, берите и пользуйтесь.


Лично мне нравился и нравится open-source, а также использование продуктов за рамками штатных узких дорожек и сейчас я хотел поделиться текущим опытом. Собственно говоря, концепция ничуть не поменялась по сравнению с публикациями 10-ти летней давности. Привожу ссылки просто для подтверждения:



Оказываю ли консалтинговые услуги используя R?


  • Да, как видно из содержания постов, и подробных ответов на все комментарии мне это интересно. Публикации по своей сути являются консультациями. Только реальная деятельность помогает продвижению идей. Говорить в курилке — пустая трата времени.
  • Мне нравится смотреть как классические вендоры пытаются противостоять решениям на open-source.
  • Мне нравится достигать результата иными способами и в течение нескольких минут решать задачи которые при классических подходах требуют долгой ручной работы.
  • Да, я сожалею, что в то время, когда я занимался экспериментальной физикой, у меня не было подобного инструмента под руками.

Приношу извинения за грубые орфографические ошибки (конечное же, космическую Орбиту). Текст исправил. Не ожидал, что прямо на фазе публикации придется много раз переписывать, остались обрывки предыдущих слов.

Добавил. Упоминал его в предыдущих статьях, тут на этапе компоновки затерялся

К R я подступался с 2011 года. Но вплоть до 2014 он не воодушевлял. Пока не произошла революция в подходах.


В части пакетов дал ответ в виде отдельной статьи: Джентельменский набор пакетов R для автоматизации бизнес-задач


Насчет помочь — предлагаю списаться через хабрапочту, а потом перейти на скайп. Я не знаю масштаба задачи, а свободное время — зверь, которого почти никогда не видишь.

С точки зрения навыков, тут не все однозначно. Можно начинать проект и с человеком, котрый не знает R, но имеет определенные навыки в смежных областях, обладает критическим мышлением и культурой командной работы. А еще должны глаза блестеть. Пара активностей у меня была построена именно таким образом.
У каждого человека, в том числе и BI консультанта есть выбор, что делать. Можно ходить по накатанной траектории. Можно проявлять любопытство, экспериментировать и, возможно, набивать шишки. Это уже относится не к знаниям, а к мировоззрению каждого отдельного человека.

Не совсем.
Data Science я упомянул неспроста. В текущем принятом понимании специалисты по Data Science должны иметь крайне широкий кругозор, включая математику, статистику, программирование, дизайн, а также обладать хорошими презентационными и коммуникационными навыками и глубоким знанием предметной области. И, самое главное, ему это должно быть интересно. Всегда есть 1000 и 1 способ объяснения, почему что-то не стоит делать, но пользы от этих объяснений нет никакой.


Поскольку объем решаемых задач не глобален (это 80% проблем в компаниях), двух-трех человек вполне достаточно для легковесного решения многих "проблемных" мест в бизнесе.
Не надо делать монументы там, где это мало оправдано, их все равно снесут. Сейчас век модульных конструкций, в т.ч. в строительстве, автомобилестроении, бытовом сегменте.

Насчет PowerBI не все однозначо. К текущей версии масса вопросов по возможностям, сложности внутреннего языка. Сам глядел только поверхностно + читал статьи и блоги. Коллеги пытались использовать, но результаты успешными не признали.


В ComputerWorld есть очень хорошая рубрика Sharon Machlis в которой ряд статей посвящен PowerBI, например How-To
Free data visualization with Microsoft Power BI: Your step-by-step guide
, Microsoft ratchets up its R enthusiasm.


Слабоват пока продукт, но развивается очень быстро.

Это направление сейчас как раз интересует больше всего. Отчасти я упомянул один из решенных кейсов в следующей статье. По западной терминологии направление называется Operational Analytics.


Естественно, что в зависимости от объемов данных и скорости реакции должны использоваться различные подходы и платформы, но для не реал-тайм задач потенциала R (математика, фронтенд, сбор данных) + python\erlang (низкоуровневое взаимодействие с другими ИС\ парсинг нестандартных протоколов) мне пока более чем достаточно.


Data Lake и Agile Warehouse, если честно, воодушевляют только на словах. А внизу все равно много тяжелой и нудной работы.

Наверное, это один из самых сложных моментов проектной деятельности. Убедить Заказчика, пусть он и внутренний, но все равно Заказчик, что он этого хочет именно этого. Полная аналогия с воспитанием детей. Если ребенок чего-то не хочет, то силой добиться результата не получится. Только убеждение, спокойствие, терпение и, желательно, доказывать необходимость на собственном примере. А если не получается, то иногда проще отступиться.


Но в том, что я написал нет ни капли домысла, хоть это и может удивлять. Не исключаю, что бывший коллега Константин (AristarXXXX), который любезно откомментировал результаты нашей совместной работы, сможет организовать референс-визит, если это будет интересно и не будет возражений от его руководства. Почти все было сделано его руками, я больше обеспечивал консультативную помощь, определял вектор развития и помогал с тонкими моментами.

Федор, вот еще интересный материал. Мне кажется, что это может оказаться полезным для Вашей текущей деятельности.


  • The R Project for Maps. R changes things in the geospatial world. The R project originated as a modular statistics and graphics toolkit. Unless you happen to be a true math prodigy, statistics are best visualized graphically. With powerful graphics libraries, R has evolved into a useful platform for ad hoc spatial analysis.
А вот и пара скриншотов:
image

image

Это, отнюдь, далеко не все представления, а интеграционная и математическая механика под капотом. Как видно из скриншотов, все это происходило почти год назад. Сейчас мы бы использовали новые пакеты, например, flexdashboard. Но при отсутствии бизнес-драйвера (позиция руководства прагматична: все работает и устраивает, зачем переделывать?), нет смысла возвращаться в прошлое, а личное время лучше уделять семье и детям.
Премодерация первой публикации заняла порядка двух недель. За это время подготовил продолжение. Тема оказалась воспринята, поэтому оперативно опубликовал. Там отчасти есть ответ на вопросы по реализации.
С такими задачами в «прошлой жизни» приходилось сталкиваться, например, в антифрод системах, если я правильно понял вопрос. Если не сложно, то можно более подробно описать задачу?

Вообще, это тоже отдельное интересное направление.
Ребята из Data Driven Security очень неплохо в этом продвинулись. Можно и их книжку почитать, есть на просторах интернета в pdf.
Или начать в качестве отправной точки с записи в их блоге: "Building [Security] Dashboards w/R & Shiny + shinydashboard"

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Date of birth
Registered
Activity