Статьи / Закладки / Профиль irriss / Хабр

Все потоки

Руслан Еникеев @irriss

Пользователь

ПрофильСтатьи2ПостыНовостиКомментарии112

morozovsk 17 июн 2018 в 19:32

Компьютерное зрение и машинное обучение в PHP используя библиотеку opencv

9 мин

35K

Open source * PHP * Машинное обучение * Обработка изображений * Программирование *

Туториал

Всем привет. Это моя юбилейная статья на Хабре. За почти 7 лет я написал 10 статей (включая эту), 8 из них — технические. Общее количество просмотров всех статей — около полумиллиона.
Основной вклад я внёс в два хаба: PHP и Серверное администрирование. Мне нравится работать на стыке этих двух областей, но сфера моих интересов гораздо шире.

Как и многие разработчики я часто пользуюсь результатами чужого труда (статьи на Хабре, код на гитхабе, ...), поэтому я всегда рад делиться с сообществом своими результатами в ответ. Написание статей — это не только возврат долга сообществу, но так же позволяет найти единомышленников, получить комментарии от профессионалов в узкой сфере и ещё больше углубить свои знания в исследуемой области.

Собственно эта статья об одном из таких моментов. В ней я опишу чем занимался почти всё своё свободное время за последние полгода. Кроме тех моментов, когда я ходил купаться в море через дорогу, смотрел сериалы или игрался в игры.

Читать дальше →

+38

discovan 13 июн 2018 в 09:09

Смарт-контракт как угроза безопасности блокчейн-стартапа

5 мин

9.8K

Блог компании СоларSolidity * Информационная безопасность *

Смарт-контракты Ethereum, если верить официальному сайту, выполняются «в точности так, как запрограммированы, без какой-либо возможности простоя, цензуры, мошенничества или вмешательства третьей стороны». Сегодня я попробую разобраться, так ли всё радужно на самом деле, рассмотрев некоторые проблемы, с которыми пользователи смарт-контрактов сталкиваются на практике.

В конце статьи я резюмирую свои размышления краткой инструкцией по написанию безопасных смарт-контрактов.

Читать дальше →

+24

Pavel_Ku 12 июн 2018 в 06:41

Лучшие приемы и практики Agile для технических и нетехнических команд

6 мин

36K

Блог компании HyggerУправление проектами * Управление продуктом * Agile *

Работая продолжительное время по Agile, можно легко выделить основные ценности, принципы и практики, благодаря которым выбор в пользу методологии сегодня делают огромное количество компаний. Некоторые практики в методологии удостаиваются высокой оценки почти у всех, какие-то являются спорными. Однако Agile не стал бы Agile, если бы лучшие ценности и приемы методологии не завоевывали расположения миллионов менеджеров и разработчиков по всему миру.

Читать дальше →

+1

sahsAGU 5 июн 2018 в 06:19

Как нас анализируют в кинотеатрах… и не только

11 мин

56K

Блог компании MicrosoftПроектирование API * Python * Искусственный интеллектПрограммирование *

Компьютерное зрение все глубже интегрируется в нашу жизнь. При этом, мы даже не замечаем всего этого наблюдения за нами. Сегодня расскажем о системе, помогающей анализировать эмоции посетителей на конференциях, в учебном процессе, в кинотеатрах и много где ещё. Кстати, покажем код и расскажем о практических кейсах. Заглядывайте под кат!

Читать дальше →

+42

Spoilt333 20 мая 2018 в 07:50

Введение в состязательные сети

7 мин

14K

Блог компании OTUSPython * Машинное обучение *

Всем привет. Этой статьей я начинаю серию рассказов о состязательных сетях. Как и в предыдущей статье я подготовил соответствующий докер-образ в котором уже все готово для того чтобы воспроизвести то что написано здесь ниже. Я не буду копировать весь код из примера сюда, только основные его части, поэтому, для удобства советую иметь его рядом для более простого понимания. Докер контейнер доступен здесь, а ноутбук, utils.py и докерфайл здесь.

Несмотря на то, что фреймворк состязательных сетей был предложен Йеном Гудфеллоу в его уже знаменитой работе Generative Adversarial Networks ключевая идея пришла к нему из работ по доменной адаптации(Domain adaptation), поэтому и начнем мы обсуждение состязательных сетей именно с этой темы.

Представьте, что у вас есть два источниках данных о похожих наборах объектов. Например это могут быть медицинские записи разных социально-демографических групп (мужчины/женщины, взрослые/дети, азиаты/европейцы...). Типичные анализы крови представителей разных групп будут отличаться, поэтому модель, предсказывающая, скажем, риск сердечно-сосудистых заболеваний(ССЗ), обученная на представителях одной выборки не может применяться к представителям другой выборки.

Читать дальше →

+25

art_pro 15 мая 2018 в 08:01

Женские сети: кто делает за нас выбор?

10 мин

27K

Блог компании ГК ЛАНИТBig Data * Data Mining * Машинное обучение *

Взлет интереса к машинному обучению во многом связан с тем, что модели способны дать ощутимый прирост прибыли в областях, связанных с предсказанием поведения сложных систем. В частности, той сложной системой, чье поведение предсказывать выгодно, является человек. Обнаружить мошенничество на ранней стадии, выявить склонность клиентов к оттоку – эти задачи возникают регулярно и уже стали классическими в Data Science. Безусловно, их можно решать различными методами, в зависимости от пристрастий конкретного специалиста и от требований бизнеса.

У нас была возможность использовать нейронные сети для решения задачи по предсказанию поведения людей, а специфика области применения была связана с индустрией красоты. Основной аудиторией для “опытов” стали женщины. Мы по сути пришли к вопросу: может ли искусственная нейронная сеть понять настоящую нейронную сеть (человека) в той области, в которой даже сам человек еще не осознал своего поведения. Как мы ответили на этот вопрос и что у нас получилось в итоге, можно узнать далее.

Читать дальше →

+47

a-pichugin 14 мая 2018 в 09:18

Введение в Data Engineering. ETL, схема «звезды» и Airflow

10 мин

59K

Блог компании New Professions LabSQL * Data Mining * Data Engineering * Big Data *

Перевод

Способность data scientist-а извлекать ценность из данных тесно связана с тем, насколько развита инфраструктура хранения и обработки данных в компании. Это значит, что аналитик должен не только уметь строить модели, но и обладать достаточными навыками в области data engineering, чтобы соответствовать потребностям компании и браться за все более амбициозные проекты.

При этом, несмотря на всю важность, образование в сфере data engineering продолжает оставаться весьма ограниченным. Мне повезло, поскольку я успел поработать со многими инженерами, которые терпеливо объясняли мне каждый аспект работы с данными, но не все обладают такой возможностью. Именно поэтому я решил написать эту статью — введение в data engineering, в которой я расскажу о том, что такое ETL, разнице между SQL- и JVM-ориентированными ETL, нормализации и партиционировании данных и, наконец, рассмотрим пример запроса в Airflow.

Читать дальше →

+10

RetailRocket 2 июн 2017 в 08:59

Атака на АБ-тест: рецепт 'R'+t(101)+'es46'

10 мин

41K

Блог компании Retail RocketJavaScript * Информационная безопасность * Тестирование веб-сервисов *

АБ-тестирование — один из самых сильных и полезных инструментов управления продуктом, который позволяет оценить эффективность тех или иных решений на экономические показатели в интернет-бизнесе. За пять лет работы мы провели огромное количество АБ-тестов, и поэтому отлично знаем, насколько сложно провести эксперименты правильно и какие ошибки повторяются постоянно.

Несколько месяцев назад один из наших конкурентов начал делать странное – предлагать нашим клиентам сравнение своей системы рекомендаций с Retail Rocket через АБ-тесты в формате «пари» с обязательством заплатить 100 000 рублей в случае проигрыша.

Подобные истории для нас не редкость — за время существования компании нашу систему сравнивали практически со всеми существующими рекомендательными системами в России и за рубежом, и мы всегда показывали отличные результаты (ни в одном тесте мы не проиграли по эффективности).

Первый тест с Rees не заставил себя ждать, но в ходе его проведения мы столкнулись с довольно странными результатами, которые вылились в серьезное исследование. То, что мы обнаружили в итоге, удивило нас так сильно, что мы хотим поделиться деталями этого исследования и вынести его результаты на суд IT-сообщества и индустрии электронной коммерции в России.

Читать дальше →

+126

McKenzy 19 апр 2018 в 11:09

Ассоциативные правила, или пиво с подгузниками

19 мин

85K

Блог компании Open Data SciencePython * R * Алгоритмы * Машинное обучение *

Введение в теорию

Обучение на ассоциативных правилах (далее Associations rules learning — ARL) представляет из себя, с одной стороны, простой, с другой — довольно часто применимый в реальной жизни метод поиска взаимосвязей (ассоциаций) в датасетах, или, если точнее, айтемсетах (itemsests). Впервые подробно об этом заговорил Piatesky-Shapiro G [1] в работе “Discovery, Analysis, and Presentation of Strong Rules.” (1991) Более подробно тему развивали Agrawal R, Imielinski T, Swami A в работах “Mining Association Rules between Sets of Items in Large Databases” (1993) [2] и “Fast Algorithms for Mining Association Rules.” (1994) [3].

Читать дальше →

+56

olegchir 8 мая 2018 в 11:42

Ваши A/B-тесты сломаны

18 мин

22K

Блог компании JUG Ru GroupКонференцииТестирование IT-систем * Тестирование веб-сервисов * Тестирование мобильных приложений *

После того, как вы проверили, что функциональность реализована нормально, она выкатывается в эксперимент, чтобы узнать, нравится ли новая версия пользователям.

Замечали, что обычно люди, ответственные за эксперименты, в итоге говорят, что данных недостаточно для решения? Часто это действительно так, но нередко всё дело в поломках системы экспериментов и учёта пользовательской статистики.

В этой статье мы рассмотрим типичные поломки, которые там встречаются, и у вас появится возможность, вернувшись на рабочее место, немножко побыть data scientist'ами и найти ошибки у себя в компании. Какие-то из них там наверняка есть.

В основе материала — расшифровка доклада Романа Поборчего с нашей декабрьской конференции Heisenbug 2017 Moscow.

Читать дальше →

+47

sidorovphilipp 17 апр 2018 в 07:03

Стратегия интернет-маркетинга и веб-аналитики Авинаша Кошика

7 мин

6K

Интернет-маркетинг * Веб-аналитика *

Перевод

Что отличает победителей от неудачников в веб-аналитике? Победители, прежде чем подумать о данных или инструментах, создают хорошо структурированную стратегию интернет-маркетинга и веб-аналитики. Неудачники — нет.

Из статьи вы научитесь строить собственную стратегию. Обратите внимание, я специально делаю ударение на интернет-маркетинге, а не рассматриваю только лишь сбор данных сам по себе. Ещё я покажу вам вдохновляющие примеры таких моделей.

Итак, начнём...

Часто маркетинговые кампании терпят неудачу не из-за плохих баннеров, телеканалов или веб-сайтов. И даже не из-за тех, кто реализует кампанию. Это происходит из-за того, что нет устойчивого понимания, для чего проводилась кампания и каким набором показателей измерять успешна она или нет.

Я разработал простую модель из 5 шагов, которая поможет вам обрести такое понимание. Каждый шаг по пунктам:

Читать дальше...

+2

e_finkel 5 апр 2018 в 09:10

Как решить 90% задач NLP: пошаговое руководство по обработке естественного языка

16 мин

119K

Блог компании Конференции Олега Бунина (Онтико)Big Data * Машинное обучение *

Перевод

Неважно, кто вы — зарекомендовавшая себя компания, или же только собираетесь запустить свой первый сервис — вы всегда можете использовать текстовые данные для того, чтобы проверить ваш продукт, усовершенствовать его и расширить его функциональность.

Обработкой естественного языка (NLP) называется активно развивающаяся научная дисциплина, занимающаяся поиском смысла и обучением на основании текстовых данных.

Как вам может помочь эта статья

За прошедший год команда Insight приняла участие в работе над несколькими сотнями проектов, объединив знания и опыт ведущих компаний в США. Результаты этой работы они обобщили в статье, перевод которой сейчас перед вами, и вывели подходы к решению наиболее распространенных прикладных задач машинного обучения.

Мы начнем с самого простого метода, который может сработать — и постепенно перейдем к более тонким подходам, таким как feature engineering, векторам слов и глубокому обучению.

После прочтения статьи, вы будете знать, как:

осуществлять сбор, подготовку, и инспектирование данных;
строить простые модели, и осуществлять при необходимости переход к глубокому обучению;
интерпретировать и понимать ваши модели, чтобы убедиться, что вы интерпретируете информацию, а не шум.

Пост написан в формате пошагового руководства; также его можно рассматривать в качестве обзора высокоэффективных стандартных подходов.

+31

Блог компании ВТБ 12 марта 2018

Как в ВТБ меняли парадигму доступа к данным

Big Data-мания имеет под собой реальное основание. Объемы данных, которые собирают компании, стремительно растут, и бизнес при их грамотном анализе может получить большое конкурентное преимущество. Как «причесать» систему, в которой распределенные по разным хранилищам данные соседствуют с зоопарком малофункциональных инструментов для их обработки? Мы в банке ВТБ перешли на Hadoop, внедрив единую экосистему от Teradata по технологии QueryGrid. Нашей болью, муками, собственно интеграцией и результатами мы хотим с вами поделиться.

Под катом - наш опыт внедрения единой экосистемы от Teradata по технологии QueryGrid и Presto.

+23

ru_vds 26 мар 2018 в 10:01

Оптимизация статического сайта: десятикратное ускорение

10 мин

23K

Блог компании RUVDS.comКлиентская оптимизация * Веб-разработка *

Перевод

Джонлука Де Каро, автор материала, перевод которого мы сегодня публикуем, однажды оказался в заграничной поездке и захотел показать другу свою личную страничку в интернете. Надо сказать, что это был обычный статический сайт, но, в процессе демонстрации оказалось, что всё работает медленнее, чем можно было бы ожидать.

На сайте не применялось никаких динамических механизмов — там было немного анимации, он был создан с применением методов отзывчивого дизайна, но содержимое ресурса практически всегда оставалось неизменным. Автор статьи говорит, что то, что он увидел, быстро проанализировав ситуацию, буквально привело его в ужас. События DOMContentLoaded пришлось ждать около 4-х секунд, на полную загрузку страницы ушло 6.8 секунды. В процессе загрузки было выполнено 20 запросов, общий объём переданных данных составил около мегабайта. А ведь речь идёт о статическом сайте. Тут Джонлука понял, что он раньше считал свой сайт невероятно быстрым лишь потому, что привык к гигабитному интернет-соединению с низкой задержкой, используя которое, он, из Лос-Анджелеса, работал с сервером, расположенным в Сан-Франциско. Теперь же он оказался в Италии и воспользовался интернет-соединением на 8 Мбит/с. А это совершенно поменяло картину происходящего.

В этой статье Джонлука Де Каро расскажет о том, как ему удалось ускорить свой статический сайт в десять раз.

Читать дальше →

+24

evgri 19 мар 2018 в 06:51

Python’ом по машинлернингу

16 мин

19K

Блог компании MicrosoftMicrosoft Azure * Python * Машинное обучение * Программирование *

Сегодня только ленивый не говорит (пишет, думает) про машинное обучение, нейросети и искусственный интеллект в целом. Всего лишь в прошлом году ML сравнили с подростковым сексом — все хотят, но никто не занимается. Сегодня все озабочены тем, что ИИ нас оставит без работы. Хотя, судя по последним исследованиям Gartner, можно успокоиться, так как к 2020 году благодаря ИИ появится больше рабочих мест, чем ликвидируется. Так что, дорогой друг, учи ML, и будет тебе счастье.

Читать дальше →

+13

JosefDzeranov 23 дек 2017 в 11:39

Исследование кортежей в C# 7

6 мин

44K

Перевод

Типы System.Tuple были введены в .NET 4.0 с двумя существенными недостатками:

Типы кортежей являются классами;
Не существует языковой поддержки для их создания/деконструкции (deconstruction).

Чтобы решить эти проблемы, в C# 7 представлена новая возможность языка, а также новое семейство типов (*).

Сегодня, если вам нужно склеить два значения, чтобы вернуть их из функции или поместить два значения в хэш-набор, вы можете использовать типы System.ValueTuple и создать их с помощью удобного синтаксиса:

Читать дальше →

+15

Siarshai 1 мар 2018 в 06:10

Случайные эволюционные стратегии в машинном обучении

8 мин

17K

Алгоритмы * Математика * Машинное обучение *

Нейронные сети учатся совсем не так как люди. Оптимизация нейронной сети — на самом деле градиентный спуск по некоторой функции потерь

$E(\theta)$ , где переменными являются веса слоёв

$\theta$ . Это очень мощный подход к подстройке системы, который применяется также в физике, экономике и многих других областях. На данный момент предложено немало конкретных методов градиентного спуска, но все они предполагают, что градиент

$E(\theta)$ хорошо себя ведёт: нет обрывов, где он скачкообразно возрастает, или плато, где он обращается в ноль. С первой проблемой можно разобраться при помощи gradient clipping, но вторая заставляет тщательно подумать. Кусочно-линейную или дискретную функцию нетривиально ограничить более приятной функцией

во многих областях reinforcement learning (далее RL)
в VAE с дискретными латентными переменными
в GAN с дискретными генераторами

Как поступать в таких ситуациях?

Под катом много формул и гифок.

Читать дальше →

+45

sahsAGU 25 янв 2018 в 14:26

Azure ML Workbench: Начало работы

3 мин

3.9K

Блог компании MicrosoftMicrosoft Azure * Python * Visual Studio * Машинное обучение *

Туториал

Совсем недавно мы анонсировали новый инструмент оптимизации рабочего места для Data Scientist. Так как сейчас про него крайне мало написано, особенно на русском языке, мы решили выпустить для вас серию материалов, в которой расскажем о том, как его использовать. В этой части вы узнаете про установку и первый тестовый запуск на локальных ресурсах.

Читать дальше →

+9

locos 27 янв 2015 в 10:21

Финансы в Excel+VBA. Калькулятор опционов по модели Блэка-Шоулза

5 мин

41K

Visual Basic for Applications * Математика * Программирование *

Из песочницы

Статья адресована и будет полезна в первую очередь тем, кто начал изучать опционы и хочет разобраться в их ценообразовании. Ну и во вторую очередь тем, кто ещё не использует инструмент VBA в своих расчётах в екселе, но хочет научиться — вы увидите, как это на самом деле просто.

Читать дальше →

+1

bykvaadm 22 янв 2018 в 19:07

Лабораторная работа: введение в Docker с нуля. Ваш первый микросервис

26 мин

354K

DevOps * Настройка Linux * Серверное администрирование * Системное администрирование * Управление разработкой *

Туториал

Привет, хабрапользователь! Сегодня я попробую представить тебе очередную статью о докере. Зачем я это делаю, если таких статей уже множество? Ответов здесь несколько. Во-первых не все они описывают то, что мне самому бы очень пригодилось в самом начале моего пути изучения докера. Во-вторых хотелось бы дать людям к теории немного практики прямо по этой теории. Одна из немаловажных причин — уложить весь накопленный за этот недолгий период изучения докера опыт (я работаю с ним чуть более полугода) в какой-то сформированный формат, до конца разложив для себя все по-полочкам. Ну и в конце-концов излить душу, описывая некоторые грабли на которые я уже наступил (дать советы о них) и вилы, решение которых в докере просто не предусмотрено из коробки и о проблемах которых стоило бы задуматься на этапе когда вас распирает от острого желания перевести весь мир вокруг себя в контейнеры до осознавания что не для всех вещей эта технология годна.

Что мы будем рассматривать в данной статье?

В Части 0 (теоретической) я расскажу вам о контейнерах, что это и с чем едят
В Частях 1-5 будет теория и практическое задание, где мы напишем микросервис на python, работающий с очередью rabbitmq.
В Части 6 — послесловие

Читать дальше →

+103

5

6 7 ...