Pull to refresh
60
0
Илья Шутов@i_shutov

Data Science

Send message
1. По поводу эффекта:
Эффект очень простой — снижение порога принятия решения до 0. Сейчас, когда без бюджетной статьи даже рулон туалетной бумаги не купишь, любая инициатива по приобретению ПО начинает рассматриваться в микроскоп. Чем больше бюджет, тем больше увеличение. Бюджетные комитеты, обоснования, совещания. Это может длиться не один год. Это и есть классический подход. Делается замануха в виде потенциального бюджета, приглашаются продавцы и консультанты от интеграторов и вендоров, которые бесплатно развлекают на этапе пресейла\пилота, дело доводится до закупок и тут… кризис, секвестор бюджета, смена руководства. Вообщем, начинай все заново.
При этом не стоит забывать, что в реальности к BI не было четких требований. «Нам вендоры должны рассказать, что надо хотеть». И есть пожелания по 5-10 отчетам, которые требовали на совещании у вышестоящего руководства. Все остальное — придумывайте сами. Интересует только РЕЗУЛЬТАТ, правда не всегда понятно, какой именно.

2. По поводу неклассического подхода.
Отказаться от многомесячной тендерной движухи в пользу решения конкретной задачи здесь и сейчас.

Для задач, не претендующих на всеобщность и не затрагивающую основной бизнес-функционал в явную, как, например, сайт в интернет-магазине, написать обоснование, даже с учетом горизонта окупаемости 3 года, очень тяжело. Слишком вероятностные и зыбкие статьи сокращения затрат.
R — бесплатен, поэтому не надо всей вышеупомянутой кутерьмы. Нет предмета закупки — нет тендера. Можем сделать сами — убедите на практике, дальше посмотрим. Мы убедили. Как я писал выше, средний срок «жизни» ИТ директора стремится к 1-2 годам. Поэтому всем надо, чтобы окупилось аж на следующий год.

Что касается Qlick\Tableau — это, в первую очередь, визуализаторы и инструменты для аналитика. С серьезной математикой там слабо, но есть коннекторы к R.
Они платные, см. выше. $2K тоже замучаешься обосновывать.
Не проще ли вместо круговерти обоснований сесть и сделать самому? Свое время сэкономить. Тем более, что все равно потом установки и требования поменяются и придется опять все адаптировать.
В качестве интересного примера, приведу портал Министерства туризма Новой Зеландии, который построен на R Shiny. Дешево и сердито.

New Zealand Tourism Dashboard. The New Zealand Tourism Dashboard is a one-stop shop for all information about tourism. It brings together a range of tourism datasets produced by MBIE and Statistics New Zealand into one easy-to-use tool. Information is presented using dynamic graphs and data tables.
Картинку с рабочего портала постараемся приложить чуть позже, надо вытереть якорные поля. Сама система обслуживает несколько миллионов людей, это к вопросу о масштабе.
Vlad_fox: я бы не хотел, чтобы в комментариях началась эмоциональная переписка по далекой от изначальной мысли теме. Тем более, что мы с Вами не знакомы и у нас обоих нет никаких оснований полагать, что мы обладаем недостаточным опытом, чтобы принимать взвешенные решения. Консалтинг бизнес-процессов никто не отметает, когда-то я даже занимался этим и в Киеве. Но речь то совсем не об этом. Инструменты и подходы постоянно меняются, появляются очень интересные и красивые вещи, которые можно приземлять для решения практических бизнес задач. Додумывать что-либо сверх написанного можно, но это будет слабо относиться к тексту статьи.
Только в прошлом году мы имели опыт разработки на таком фреймворке. За 2 недели сделали прототип на R, бизнес согласился, что это хорошо. Решили перетащить («продуктизировать») на Python + Django. В итоге 8 месяцев работы «по-правильному» были выкинуты в корзину. А все потому, что за это время бизнес приоритеты успели измениться, и потребность в этом решении отпала. Сейчас слишком быстро все меняется.

Почему не Python? Потому что процессинг данных (а это основная механика решаемых задач) оказалась гораздо проще, приятнее и понятнее. Все благодаря труду Hadley Wickham, фактически, сформировавшего лицо современного R. А поддеркжа D3.JS в R есть. Ну и самим рисовать порталы с реактивными (reactive) элементами совершенно неинтересно. В экосистеме R эту задачу мы перекладываем на Shiny. Более того, мы знаем, что у R в части обработки данных есть огромный потенциал. Если вдруг не хватает бесплатных возможностей (у нас такого и близко не было), можно переехать на Enterprise edition (Microsoft) и получить поддержку и кластеров, и hadoop, и выхода за рамки оперативной памяти, и репозиторий снапшотов пакетов и пр…
Хорошо, я сделаю отдельным постом, чтобы в кучу не мешать.
Костя, спасибо.
Если не трогать классический ggplot2, то в части интерактивных виджетов можно заглянуть еще сюда: "76 registered widgets available to explore"
Сергей, спасибо за комментарий.
Прежде чем поделиться своим опытом я проглядел хабр вдоль и поперек и не нашел ничего подобного. Пока была модерация в песочнице я подготовил еще один пост, в продолжение этого. Надеюсь, сегодня-завтра его смогу привести в порядок и опубликовать. Вопросы в комментариях, видимо, требуют еще одного поста в котором я кратко описал бы пакеты, которые использую для решения описываемых задач. Будучи по образованию физиком (если точнее, то физиком-экспериментатором), мне нравится использовать околонаучные вещи и подходы в бизнес-задачи. А почему бы нет? Опыт показывает, что это воздается сторицей. Как один из примеров — 15 лет назад перед нами стоял вопрос на чем запустить технологическую линию верстки в издательском процессе. Мы рискнули и отказались от классического варианта Word\FrameMaker и запустили на базе LaTeX. И не прогадали, автоматизация верстки была доведена до 80-90%, книги только текстом и картинками (худ. литература) вообще могли верстаться в автомате. Необходимо было только по диагонали проглядеть на предмет возможных висячих строк в сложных случаях и корректору поглядеть текст. На вход word файл, на выход — pdf для типографии.

Поэтому я решил поделиться опытом с R именно с теми, кто не равнодушен. Это не серебрянная пуля, но добротный набор инструментов.
С питоном мы имеем дело, начиная с 2006-года. Но, к сожалению, в части переработки, анализа и визуализации данных фреймворка со стройной структурой так и не удалось подобрать за разумное время. Поскольку решаем прагматичные задачи, то интересует лучший результат за кратчайший срок. Поэтому по состоянию на сентябрь 2016 года экосистема R нас полностью устраивает. Более того, мы понимаем, что ее потенциал раскрыт на 10-20%, не более и мы имеем возможность развития без резкой смены парадигмы.
Комментарий комплексный, отвечу по частям.
  1. BI решения бывают разные, про огромный размер я не говорил и даже не думал с подобными решениями соревноваться. Задачи перед большими BI системами совершенно другие ставятся. Но даже «маленькое» BI решение в виде SQL базы + pie chart & line graph на Flash с суммой 15-20 млн руб. на круг и сроками реализации ~ 1 год находится за гранью добра и зла при текущем уровне развития open-source и высокоуровневых языков программирования. Тем более, что руководству необходим десяток графиков (сумма\среднее) и «светофоры», что-либо иное на этапе выбора очень трудно сформулировать.
  2. Идея 30-ти серебрянников идет красной нитью через человеческую историю. Но за последние 3-4 года, по-крайне мере, в Москве, появились и другие мотиваторы.

    Во-первых, изменение курса рубля вывело стоимость западных решений в «запредельный космос» и потребовало пересмотра классического подхода к выбору решений от крупных западных вендоров.

    Во-вторых, бюджеты на ИТ достаточно сильно поджимаются. ИТ как драйвер для бизнеса так себя и не проявила, средний жизненный цикл ИТ директора составляет 1-1.5 года. В третьих, на уровне государства в жизнь активно внедряется система KPI. Посмотрите, что происходит в образовании, здравоохранении и гос. услугах. Во многих ИТ службах появился KPI, связанный с сокращением затрат (как на оборудование, так и на персонал) и повышением эффективности. Но при этом обязательно необходимо показывать «движуху» с результатами, понятными бизнес-зазказчику или общественности.

    В-третьих, если поглядеть на порталы закупок, то можно отметить тренд по ревизии компаниями существующих у них ИТ систем и сокращению их количества. Западные системы, закупленные в спокойные времена, продолжают тянуть затраты в $ на поддержку, причем очень немалые. А польза от морально устаревающих решений со временем снижается.

    Конкретно в нашем случае, руководитель был очень доволен, наверх отрапортовали об отличных результатах (повышение прозрачности + экономия ресурсов). Инженер получил +2 LevelUp.
  3. R очень активно, я бы сказал, экспоненциально, развивается. Пакеты и подходы, которые есть в 2016 году кардинально отличаются от возможностей даже 2014 года. Да и приобретение Microsoft-ом коммерческой версии R и встраивание его в свои продукты (SQL, Azure, PowerBI) многократно расширило потенциальную аудиторию пользователей и сценарии применения. А насчет широкого функционала тезис очень спорный. Как правило, пользователи используют 20-30% от возможностей сложных продуктов. Широта функционала важна не для конкретной задачи, а для ковровой бомбардировки продавцами вендора потенциальных покупателей. Пакетов (бесплатных!) в R столько, что ни одной BI системе не снилось, но для закрытия типовых бизнес-потребностей в части переработки информации 30-40 пакетов более чем достаточно. Если интересно, то могу привести списком те, которые находятся у меня в постоянном использовании.
12 ...
24

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Date of birth
Registered
Activity