Статьи / Закладки / Профиль Cekory / Хабр

Как стать автором

Пользователь

Профиль Публикации Комментарии 213Закладки 116

i_shutov 4 ноя 2017 в 10:13

R, Asterisk и платяной шкаф

5 мин

9.9K

Data Mining*Asterisk*Big Data*R*

Является продолжением предыдущих публикаций. Основное назначение публикаций — демонстрация возможностей R по решению различных "рутинных" задач по обработке данных, возникающих в бизнесе. Основной акцент ставится на создание законченного решения для конечного пользователя, а не на принципиальное решение частной задачи набором команд в консоли. Схематический прототип и продукт с конвейера имеют больше различий чем сходства.

По тонкой механике R есть огромное количество специализированных блогов, книг, а также github. Но обращаются к ним обычно только после того, как видят, что решение задачи средствами R возможно и весьма элегантно.

Читать дальше →

+11

blognetology 19 окт 2017 в 11:44

Деловая переписка на английском языке: фразы и советы

18 мин

604K

Карьера в IT-индустрииБлог компании Нетология

Елена Соловьева, менеджер проектов в компании Лаборатория Касперского, специально для блога Нетологии поделилась советами о том, как вести деловую переписку с иностранными коллегами и партнерами на английском языке. Статья участвует в конкурсе.

Электронные сообщения дают возможность быстро обмениваться информацией на больших расстояниях. По скорости передачи идеи это приравнивает их к телефонному разговору. Однако электронные письма сохраняются на почтовых серверах и используются как печатное свидетельство наших слов. Поэтому электронная переписка требует ответственного отношения.

Задача становится сложнее, если вы общаетесь на неродном английском языке с представителями других культур. В статье я поделюсь, на что в этом случае обратить внимание, как избежать ошибок и достичь взаимопонимания с иностранными коллегами и партнерами.

Читать дальше →

+96

cointegrated 12 сен 2017 в 13:21

Как понять, что ваша предсказательная модель бесполезна

15 мин

26K

Машинное обучение*

Из песочницы

При создании продуктов на основе машинного обучения возникают ситуации, которых хотелось бы избежать. В этом тексте я разбираю восемь проблем, с которыми сталкивался в своей работе.

Мой опыт связан с моделями кредитного скоринга и предсказательными системами для промышленных компаний. Текст поможет разработчиками и дата-сайнтистам строить полезные модели, а менеджерам не допускать грубых ошибок в проекте.

Этот текст не призван прорекламировать какую-нибудь компанию. Он основан на практике анализа данных в компании ООО "Ромашка", которая никогда не существовала и не будет существовать. Под "мы" я подразумеваю команду из себя и моих воображаемых друзей. Все сервисы, которые мы создавали, делались для конкретного клиента и не могут быть проданы или переданы иным лицам.

Какие модели и для чего?

Пусть предсказательная модель — это алгоритм, который строит прогнозы и позволяет автоматически принимать полезное для бизнеса решение на основе исторических данных.

Читать дальше →

+34

i_shutov 14 авг 2017 в 11:55

Цифровая экономика и экосистема R

3 мин

9.1K

Data Mining*Big Data*R*

Если смотреть прессу, словосочетание «цифровая экономика» ожидается одним из популярных в ближайшие несколько лет.

Но чтобы от перейти от слов к делу и действительно совершить цифровой скачок необходимо пересмотреть подходы и используемые инструменты. В рамках настоящей публикации, являющейся продолжением предыдущих публикаций, планирую кратко проиллюстрировать, тезис о том, что применение в бизнесе R экосистемы прекрасно вписывается в задачу перехода к цифровой экономике.

Читать дальше →

+8

BarakAdama 18 июл 2017 в 12:19

Яндекс открывает технологию машинного обучения CatBoost

6 мин

102K

Поисковые технологии*Open source*Python*Блог компании ЯндексМашинное обучение*

Сегодня Яндекс выложил в open source собственную библиотеку CatBoost, разработанную с учетом многолетнего опыта компании в области машинного обучения. С ее помощью можно эффективно обучать модели на разнородных данных, в том числе таких, которые трудно представить в виде чисел (например, виды облаков или категории товаров). Исходный код, документация, бенчмарки и необходимые инструменты уже опубликованы на GitHub под лицензией Apache 2.0.

CatBoost – это новый метод машинного обучения, основанный на градиентном бустинге. Он внедряется в Яндексе для решения задач ранжирования, предсказания и построения рекомендаций. Более того, он уже применяется в рамках сотрудничества с Европейской организацией по ядерным исследованиям (CERN) и промышленными клиентами Yandex Data Factory. Так чем же CatBoost отличается от других открытых аналогов? Почему бустинг, а не метод нейронных сетей? Как эта технология связана с уже известным Матрикснетом? И причем здесь котики? Сегодня мы ответим на все эти вопросы.

+214

madrugado 17 июл 2017 в 14:03

Чудесный мир Word Embeddings: какие они бывают и зачем нужны?

19 мин

135K

Поисковые технологии*Python*Data Mining*Машинное обучение*Блог компании Open Data Science

Начать стоит от печки, то есть с постановки задачи. Откуда берется сама задача word embedding?
Лирическое отступление: К сожалению, русскоязычное сообщество еще не выработало единого термина для этого понятия, поэтому мы будем использовать англоязычный.
Сам по себе embedding — это сопоставление произвольной сущности (например, узла в графе или кусочка картинки) некоторому вектору.

Читать дальше →

+36

vasily-v-ryabov 13 июл 2017 в 10:28

Автоматизируем десктопный GUI на Python + pywinauto: как подружиться c MS UI Automation

14 мин

95K

Open source*Тестирование IT-систем*Python*Программирование*Разработка под Windows*

Туториал

Python библиотека pywinauto — это open source проект по автоматизации десктопных GUI приложений на Windows. За последние два года в ней появились новые крупные фичи:

Поддержка технологии MS UI Automation. Интерфейс прежний, и теперь поддерживаются: WinForms, WPF, Qt5, Windows Store (UWP) и так далее — почти все, что есть на Windows.
Система бэкендов/плагинов (сейчас их двое под капотом: дефолтный "win32" и новый "uia"). Дальше плавно двигаемся в сторону кросс-платформенности.
Win32 хуки для мыши и клавиатуры (hot keys в духе pyHook).

Также сделаем небольшой обзор того, что есть в open source для десктопной автоматизации (без претензий на серьезное сравнение).

Эта статья — частично расшифровка доклада с конференции SQA Days 20 в Минске (видеозапись и слайды), частично русская версия Getting Started Guide для pywinauto.

Основные подходы
Основные десктопные accessibility технологии
Как начать работать с pywinauto

Читать дальше →

+8

dim2r 30 июн 2017 в 09:28

Оценка связанности событий с помощью Байеса

6 мин

11K

Занимательные задачкиАлгоритмы*Математика*

В своей книге Нейт Сильвер приводит такой пример: допустим требуется разместить инвестиции в нескольких предприятиях, которые могут обанкротиться с вероятностью

$5\%$ . Требуется оценить свои риски. Чем выше вероятность банкротства, тем меньше мы будем вкладывать денег. И наоборот, если вероятность банкротства стремится к нулю, то можно инвестировать без ограничений.

Если имеется 2 предприятия, тогда вероятность того, что они оба обанкротятся, и мы потеряем все вложения

$P = 0.05 \cdot 0.05 = 0.0025$ . Так учит стандартная теория вероятности. Но что будет, если предприятия связаны, и банкротство одного ведет к банкротству другого?

Крайним случаем является ситуация, когда предприятия полностью зависимы. Вероятность двойного банкротства

$inline$ ( банкрот1 & банкрот2 ) =

$inline$ ( банкрот1 ), тогда вероятность потери всех вложений равна

$inline$ . Методика оценки риска имеет большой разброс

$inline$ от 0.05 до 0.0025 и реальное значение зависит от того, насколько правильно мы оценили связанность двух событий.

При оценке инвестиций в

$inline$ предприятий имеем

$inline$ от

$inline$ до

$inline$ . То есть максимальная возможная вероятность остается большой

$inline$ , и старая поговорка «не клади яйца в одну корзину» не сработает, если упадет прилавок со всеми корзинами сразу.

Таким образом наши оценки имеют колоссальный разброс, и сколько куда вкладывать остается вопросом. А ведь надо хорошо считать, прежде чем вкладывать. Нейт Сильвер говорит, что незнание этих простых законов аналитиками привело к крахам фондового рынка в 2008 году, когда рейтинговые агенства США оценивали риски, но не оценивали связанность рисков. Что в конце концов привело к эффекту домино, когда сначала свалился крупный игрок и увлек за собой других.

Попробуем разобрать эту проблему, решив простую математическую задачу после ката.

Читать дальше →

+14

Myosotis 26 июн 2017 в 11:58

Дискриминация котов: веб-трекинг через невидимые картинки

8 мин

24K

Информационная безопасность*Python*SQL*IT-стандарты*Браузеры

Вы когда-нибудь задумывались над тем, по какому принципу вам показывают таргетированную рекламу? Почему, даже не лайкая ничего во время сёрфинга вы, возвращаясь на Facebook, видите рекламу, связанную с посещёнными вами сайтами? И кто заинтересован в том, чтобы отслеживать пользователей? В рамках моего учебного проекта, мне предстояло выяснить, какие компании стоят за трекингом посещений сайтов, и что они используют, чтобы делать это, не привлекая особого внимания.

Читать дальше →

+12

crazyhatter 17 мая 2017 в 13:47

CRISP-DM: проверенная методология для Data Scientist-ов

16 мин

71K

Data Mining*Алгоритмы*Машинное обучение*Блог компании ГК ЛАНИТ

Постановка задач машинного обучения математически очень проста. Любая задача классификации, регрессии или кластеризации – это по сути обычная оптимизационная задача с ограничениями. Несмотря на это, существующее многообразие алгоритмов и методов их решения делает профессию аналитика данных одной из наиболее творческих IT-профессий. Чтобы решение задачи не превратилось в бесконечный поиск «золотого» решения, а было прогнозируемым процессом, необходимо придерживаться довольно четкой последовательности действий. Эту последовательность действий описывают такие методологии, как CRISP-DM.

Методология анализа данных CRISP-DM упоминается во многих постах на Хабре, но я не смог найти ее подробных русскоязычных описаний и решил своей статьей восполнить этот пробел. В основе моего материала – оригинальное описание и адаптированное описание от IBM. Обзорную лекцию о преимуществах использования CRISP-DM можно посмотреть, например, здесь.

* Crisp (англ.) — хрустящий картофель, чипсы

Читать дальше →

+51

LukinB 20 апр 2017 в 10:14

К чёрту мотивацию, вам нужна дисциплина

4 мин

122K

Перевод

Если вы желаете что-то сделать, то есть два способа этого достичь.

Первый, более распространённый и в значительной мере неправильный вариант — попытаться мотивировать себя.

Второй, весьма непопулярный, но абсолютно правильный выбор — воспитание дисциплины.

Это одна из ситуаций, когда принятие другой точки зрения немедленно приводит к превосходным результатам. Немногие употребления термина «сдвиг парадигмы» являются, на самом деле, оправданными, но это — одно из них. Эту идею можно сравнить с озарением.

В чём же разница?

Читать дальше →

+44

i_shutov 11 апр 2017 в 17:30

RStudio Connect — «фейслифтинг» Shiny для корпоративного применения

4 мин

5.7K

Data Mining*Big Data*R*

Прошло достаточно времени с упоминания в предыдущей публикации об использовании RStudio Connect в боевых условиях для того, чтобы поделиться результатами. Краткое резюме — «дайте два!». И подумайте про оптимизацию отдела «аналитиков». Ниже приведены подробности.

В качестве дополнительного чтения рекомендую взглянуть детальную публикацию «Data at GDS (Government Digital Service). Reproducible Analytical Pipeline» в блоге аналитической службы гос.органов UK по аналогичной теме.

Читать дальше →

+10

i_shutov 29 мар 2017 в 09:26

«Пятый элемент» в экосистеме R. WYSIWYG интерфейс для аналитиков

2 мин

5.4K

Data Mining*Big Data*R*

Настоящая публикация, хоть и продолжает серию предыдущих, но будет совершенно краткой. И не в силу того, что материал скромный, но потому, что есть отличный первоисточник с массой текстов и видео.

Практика общения с аналитиками показала, что лаконичная консоль или лист программы в RStudio IDE как удобный инструмент начинает восприниматься людьми, воспитанными в подходе WYSIWYG, далеко не с первого дня. Продукты PowerBI\Tableau\Qlik, активно использующие этот подход, хорошо известны в российском информационном пространстве и зачастую аналитики пытаются соотнести R+Shiny с этими продуктами.

Читать дальше →

+8

m31 13 мар 2017 в 22:59

Вебинар: Julia — A fresh approach to numerical computing and data science

1 мин

2.1K

Data Mining*Big Data*Julia*Машинное обучение*Блог компании FlyElephant

Команда FlyElephant приглашает всех на вебинар "Julia — A fresh approach to numerical computing and data science", который проведет со-основатель и CEO в Julia Computing, а также со-автор языка Julia — Viral B. Shah.

Вебинар будет проходить 20 марта в 19:00 (EET) / 9:00 am (PST). Язык — английский.

Все подробности и регистрация здесь

+6

i_shutov 17 фев 2017 в 12:51

R в enterprise задачах. Хитрости и трюки

7 мин

11K

Data Mining*Big Data*R*

Несмотря на то, что задачи рядового бизнеса очень часто далеки от популярной темы больших данных и машинного обучения и часто связаны с обработкой относительно малых объёмов информации [десятки мегабайт — десятки гигабайт], размазанной в произвольных представлениях по различным видам источников, применение R в качестве основного инструмента позволяет легко и элегантно автоматизировать и ускорить эти задачи.

И, естественно, после проведения анализа необходимо все это презентовать, для чего можно с успехом использовать Shiny. Далее я приведу ряд трюков и подходов, которые могут помочь в этой задачах. Уверен, что любой практикующий аналитик сможет легко добавить свои хитрости, все зависит от решаемого класса задач.

Читать дальше →

+23

iphysic 13 фев 2017 в 21:28

Уравнение теплопроводности в tensorflow

9 мин

25K

Из песочницы

Привет, Хабр! Некоторое время назад увлекся глубоким обучением и стал потихоньку изучать tensorflow. Пока копался в tensorflow вспомнил про свою курсовую по параллельному программированию, которую делал в том году на 4 курсе университета. Задание там формулировалось так:

Линейная начально-краевая задача для двумерного уравнения теплопроводности:

$\frac{\partial u}{\partial t} = \sum \limits_{\alpha=1}^{2} \frac{\partial}{\partial x_\alpha} \left (k_\alpha \frac{\partial u}{\partial x_\alpha} \right ) -u, \quad x_\alpha \in [0,1] \quad (\alpha=1,2), \ t>0;$

$k_\alpha = \begin{cases} 50, (x_1, x_2) \in \Delta ABC\\ 1, (x_1, x_2) \notin \Delta ABC \end{cases}$

$(\alpha = 1,2), \ A(0.2,0.5), \ B(0.7,0.2), \ C(0.5,0.8);$

$u(x_1, x_2, 0) = 0,\ u(0,x_2,t) = 1 - e^{-\omega t},\ u(1, x_2, t) = 0,$

$u(x_1,0,t) = 1 - e^{-\omega t},\ u(0, x_2, t) = 0,\ \omega = 20.$

Хотя правильнее было бы назвать это уравнением диффузии.

Задачу тогда требовалось решить методом конечных разностей по неявной схеме, используя MPI для распараллеливания и метод сопряженных градиентов.

Я не специалист в численных методах, пока не специалист в tensorflow, но опыт у меня уже появился. И я загорелся желанием попробовать вычислять урматы на фреймворке для глубокого обучения. Метод сопряженных градиентов реализовывать второй раз уже не интересно, зато интересно посмотреть как с вычислением справится tensorflow и какие сложности при этом возникнут. Этот пост про то, что из этого вышло.

Численный алгоритм

Читать дальше →

+32

alizar 18 янв 2017 в 15:12

Более 13 млн рассекреченных документов ЦРУ в онлайне: полнотекстовый поиск

4 мин

50K

Краудсорсинг

Рассекреченный архив документов ЦРУ (справа) и всего четыре компьютера, с которых можно было получить доступ к информации (слева)

Некоторые законы очень неудобны для жуликов, которые хотят скрыть информацию. Поэтому они выполняют требования закона, но прибегают к «невинному саботажу», чтобы свести ущерб к минимуму. Например, в России информацию о тендерах вносили в открытый реестр с заменой кириллических символов на латинские, чтобы их трудно было найти обычным поиском. Спецслужбы в США тоже мастера на творческий уход от выполнения законов, формально соблюдая их. Только оцените талант сотрудников ЦРУ. По закону Freedom of Information Act Центральное разведывательное управление с 31 декабря 2006 года обязано снимать гриф секретности с документов старше 25 лет и обеспечивать свободный доступ к ним. ЦРУ формально выполнило требование закона: оно создало базу рассекреченных документов CREST (CIA Records Search Tool) и организовало «свободный» доступ к ней через… четыре компьютера в здании филиала Национального архива в городе Колледж-Парк, шт. Мэриленд, который открыт для публики с 9:00 до 17:00. Здесь у разведчиков явное упущение: по логике ЦРУ, надо было ограничить время работы архива, например, с 7:00 до 7:10 на один день в неделю.

Такой беспредел продолжался до настоящего времени. В конце концов справедливость восторжествовала. С января 2017 года вся база рассекреченных документов CREST открыта в интернете c полнотекстовым поиском — проверьте поиск по городам и райцентрам России, фамилиям учёных, названиям наркотиков и т.д. Теперь всё действительно работает как положено. Вся информация открыта.

Читать дальше →

+47

Блог компании Сбер 29 декабря 2016

DS, ML и люди, которые этим занимаются. Взгляд Сбербанка

Через банк проходят сотни миллионов транзакций ежедневно, поэтому на серверах накапливаются большие данные: сведения о самих клиентах, паттерны их покупок, требования в целом. По сути, банки превращаются в IT-компании так, как это произошло с телеком-операторами. Они предоставляют все больше цифровых сервисов и услуг, а собираемые ими данные и извлекаемая из них информация активно используются в создании новых сервисов. Применить эту информацию можно в множестве приложений, от классических задач оптимизации обработки транзакций и кибербезопасности с выявлением мошенничества, вплоть до создания персональных финансовых ассистентов и сверх-таргетированного маркетинга.

Читать дальше

+32

LukinB 22 дек 2016 в 14:06

10 причин, по которым ваш дата-проект провалится

6 мин

9.9K

Управление проектами*Развитие стартапаУправление продуктом*Бизнес-модели*

Перевод

Введение

Наука, связанная с обработкой данных, продолжает волновать людей, однако реальные результаты нередко вызывают разочарование у заинтересованных бизнесменов. Как мы можем снизить риски и обеспечить соответствие результатов ожиданиям? Работа в качестве технического специалиста на стыке НИОКР и коммерческих операций дала мне представление о проблемах, которые стоят на этом пути. Я представляю свою личную точку зрения на наиболее распространённые виды провалов и неудач проектов, связанных с информатикой.

Читать дальше →

+13

nsuvorov 20 дек 2016 в 16:09

Преобразование формы представления данных при помощи Excel+PowerQuery

5 мин

15K

Высокая производительность*Занимательные задачкиФункциональное программирование*Визуализация данных*

В нашем менеджерском труде есть много хорошего и не очень. Но ничто не портит нам жизнь так, как многочисленные эксельки, в которых постоянно нужно что-то ВПР-ить, СУММ-ировать, СУММПРОИЗВ-одить и заниматься прочими рутинными операциями, отнимающими кучу времени и сил. Есть инструмент, позволяющий если не убрать, то минимизировать рутину везде, где есть паттерны данных. Итак, вашему вниманию предлагается чуть более глубокое погружение в принципы работы PowerQuery.

Читать дальше →

+9

4