Pull to refresh
1
0

Пользователь

Send message

Обзор Python-пакета Datatable

Reading time8 min
Views19K
«Пять экзабайт информации создано человечеством с момента зарождения цивилизации до 2003 года, но столько же сейчас создаётся каждые два дня». Эрик Шмидт


Datatable — это Python-библиотека для выполнения эффективной многопоточной обработки данных. Datatable поддерживает наборы данных, которые не помещаются в памяти.

Если вы пишете на R, то вы, вероятно, уже используете пакет data.table. Data.table — это расширение R-пакета data.frame. Кроме того, без этого пакета не обойтись тем, кто пользуется R для быстрой агрегации больших наборов данных (речь идёт, в частности, о 100 Гб данных в RAM).

Пакет data.table для R весьма гибок и производителен. Пользоваться им легко и удобно, программы, в которых он применяется, пишутся довольно быстро. Этот пакет широко известен в кругах R-программистов. Его загружают более 400 тысяч раз в месяц, он используется в почти 650 CRAN и Bioconductor-пакетах (источник).

Какая от всего этого польза для тех, кто занимается анализом данных на Python? Всё дело в том, что существует Python-пакет datatable, являющийся аналогом data.table из мира R. Пакет datatable чётко ориентирован на обработку больших наборов данных. Он отличается высокой производительностью — как при работе с данными, которые полностью помещаются в оперативной памяти, так и при работе с данными, размер которых превышает объём доступной RAM. Он поддерживает и многопоточную обработку данных. В целом, пакет datatable вполне можно назвать младшим братом data.table.
Читать дальше →
Total votes 41: ↑40 and ↓1+39
Comments10

Получение рекламных кампаний Яндекс Директ с помощью API в DataFrame (Python)

Reading time7 min
Views13K
Работая сразу с несколькими клиентами, появляется необходимость оперативно анализировать много информации в разных аккаунтах и отчетах. Когда клиентов становится больше 10, маркетолог больше не успевает постоянно следить за статистикой. Но выход есть.

В данной статье я расскажу про то, как следить за рекламными аккаунтами с помощью API и Python.

На выходе мы получим запрос к API Яндекс Директ, с помощью которого будем получать статистику по рекламным кампаниям и сможем обрабатывать эти данные.

Для этого нам нужно:

  1. Получить токен API Яндекс Директ
  2. Написать запрос к серверу
  3. Импортировать данные в DataFrame
Читать дальше →
Total votes 11: ↑10 and ↓1+9
Comments1

SciPy, алгоритмы на графах

Reading time6 min
Views8K

image


SciPy (произносится как сай пай) — это пакет прикладных математических процедур, основанный на расширении Numpy Python. Он значительно расширяет возможности Python, предоставляя в распоряжение пользователя команды и классы высокого уровня для управления данными и их визуализацией. С SciPy интерактивный сеанс Python превращается в такую же полноценную среду обработки данных и прототипирования сложных систем, как MATLAB, IDL, Octave, R-Lab и SciLab.

Читать дальше →
Total votes 17: ↑17 and ↓0+17
Comments11

Создаем инструменты для глубокого анализа рейтинга приложений в Google Play Store

Reading time5 min
Views2.4K


От переводчика: сегодня публикуем для вас совместную статью трех разработчиков, Akaash Chikarmane, Erte Bablu и Nikhil Gaur, в которой рассказывается о методе прогнозирования рейтинга приложений в Google Play Store.

В этой статье мы покажем способы обработки информации, которые применяем для прогнозирования рейтинга. Также мы объясним, почему используем те или иные из них. Мы поговорим и о преобразованиях пакета данных, с которым работаем, и о том, чего можно добиться при помощи визуализации.
Читать дальше →
Total votes 13: ↑13 and ↓0+13
Comments1

Можно ли обучить с подкреплением агента для торговли на рынке акций? Реализация на языке R

Reading time6 min
Views9.5K
Давайте создадим прототип агента обучения с подкреплением (RL), который овладеет навыком трейдинга.

Учитывая, что реализация прототипа работает на языке R, я призываю пользователей и программистов R приблизиться к идеям, изложенным в этом материале.

Это перевод моей англоязычной статьи: Can Reinforcement Learning Trade Stock? Implementation in R.

Хочу предупредить код-хантеров, что в этой заметке есть только код нейронной сети, адаптированной под R.

Если я не отличился хорошим русским языком, укажите на ошибки (текст готовился с подмогой автоматического переводчика).

image
Читать дальше →
Total votes 13: ↑11 and ↓2+9
Comments9

Краткое руководство по Dash — Python веб-фреймворк для создания дэшбордов. Installation + Dash Layout

Reading time7 min
Views97K
image

Всем привет!

Сегодня предлагаю погрузиться в один из удобнейших веб-фреймворков в связке c Python под названием Dash. Появился он не так давно, пару лет назад благодаря разработчикам фреймворка plotly. Сам Dash является связкой Flask, React.Js, HTML и CSS.

Выступление Криса Пармера на PLOTCON 2016


Давайте сразу установим фреймворк. Обновленные версии уточняйте тут.

pip install dash==0.31.1  # The core dash backend
pip install dash-html-components==0.13.2  # HTML components
pip install dash-core-components==0.38.1  # Supercharged components
pip install dash-table==3.1.7  # Interactive DataTable component (new!)

Друзья, если вы действительно хотите разобраться в данном фреймворке, читайте публикации до конца, так как зачастую сначала следуют примеры, а уже после детальный обзор кода. Если вам все равно непонятно — советую читать документацию по Dash на английском языке в оригинале. Также в рунете есть несколько статей, которые объясняют концепции, которые я решил пропустить в данном туториале.
Total votes 26: ↑26 and ↓0+26
Comments8

Предсказание оттока пользователей с помощью метода RFM

Reading time5 min
Views6.5K
Представьте: телефонный звонок в три часа ночи, вы берете трубку и слышите крик о том, что больше никто не пользуется вашим продуктом. Страшно? В жизни, конечно, все не так, но если не уделять должное внимание проблеме оттока пользователей, можно оказаться в похожей ситуации.

Мы уже подробно рассказали, что такое отток: углубились в теорию и показали, как превратить нейросеть в цифрового оракула. Специалисты студии Plarium Krasnodar знают еще один способ предсказания. О нем мы и поговорим.

Читать дальше →
Total votes 7: ↑6 and ↓1+5
Comments4

Обзор основных методов Deep Domain Adaptation (Часть 2)

Reading time7 min
Views6.1K

В первой части мы ознакомились с методами доменной адаптации с помощью глубоко обучения. Поговорили об основных датасетах, а также о подходах discrepancy-based и adversarial-based non-generative. Эти методы хорошо себя показывают для некоторых задач. А в этот раз мы разберём наиболее сложные и перспективные adversarial-based методы: generative models, а также алгоритмы, показывающие наилучшие результаты на датасете VisDA (адаптации с синтетических данных под реальные фотографии).


Читать дальше →
Total votes 27: ↑27 and ↓0+27
Comments0

Splunk глазами новичка: как мы делали систему инвентаризации хранилищ

Reading time4 min
Views6.2K


Недавно заказчик попросил нас реализовать систему учета дисковых мощностей. Стояла задача объединить информацию с более семидесяти дисковых массивов разных вендоров, от свичей SAN и ESX-хостов VMware. Затем данные нужно было систематизировать, проанализировать и иметь возможность выводить на дашборд и различные отчеты, например, о свободном и занятом объеме дискового пространства во всех или отдельно взятых массивах.

Мы решили реализовать проект с помощью системы анализа операционной деятельности — Splunk.
Читать дальше →
Total votes 29: ↑29 and ↓0+29
Comments10

Data Science проект от исследования до внедрения на примере Говорящей шляпы

Reading time25 min
Views30K


Месяц назад Лента запустила конкурс, в рамках которого та самая Говорящая Шляпа из Гарри Поттера определяет предоставивших доступ к социальной сети участников на один из четырех факультетов. Конкурс сделан неплохо, звучащие по-разному имена определяются на разные факультеты, причем схожие английские и русские имена и фамилии распределяются схожим образом. Не знаю, зависит ли распределение только от имен и фамилий, и учитывается ли как-то количество друзей или другие факторы, но этот конкурс подсказал идею этой статьи: попробовать с нуля обучить классификатор, который позволит распределять пользователей на различные факультеты.

Читать дальше →
Total votes 67: ↑66 and ↓1+65
Comments2

Архитектуры нейросетей

Reading time12 min
Views65K
Перевод Neural Network Architectures

Алгоритмы глубоких нейросетей сегодня обрели большую популярность, которая во многом обеспечивается продуманностью архитектур. Давайте рассмотрим историю их развития за последние несколько лет. Если вас интересует более глубокий анализ, обратитесь к этой работе.


Сравнение популярных архитектур по Top-1 one-crop-точности и количеству операций, необходимых для одного прямого прохода. Подробнее здесь.
Читать дальше →
Total votes 30: ↑28 and ↓2+26
Comments7

Как устроен скоринг в индустрии каршеринга. Часть 1. Обзор популярных инструментов на реальных данных

Reading time5 min
Views9.3K
Каршеринг, несмотря на свою молодость, — одно из самых активно развивающихся направлений в автобизнесе России. С момента запуска первой компании прошло 5 лет, и сегодня на рынке работают более 25 операторов, специализирующихся на краткосрочной аренде. С развитием каршеринга накапливаются данные о пользователях, и вот уже у каршеринга, как у банков, появляется некая система скоринга клиентов. Она также опирается на возраст, пол, стаж вождения, однако здесь рассматривается не история ваших кредитов, а история поездок. Одной из целей такого скоринга, помимо платежеспособности, валидации водительского удостоверения, штрафов, является предсказание вероятности ДТП для конкретного водителя.



В этой статье мы разберем логику работы алгоритмов скоринга пользователей каршеринга, которые будут опираться только на возраст и стиль вождения. Помимо этих параметров, и для получения более точных результатов, могут быть использованы — социальный статус, поездки с детьми, активность в социальных сетях и информация с камеры в салоне автомобиля. Однако, сегодня остановимся на двух базовых — возраст и стиль вождения.

Отметим, что в статье мы продемонстрируем логику работы скоринга на примере водительской активности 50 000 пользователей и 260 000 поездок. Все данные были анонимизированны. Кроме того, мы использовали данные по 220 ДТП, совершенных с Москве и МО.
Читать дальше →
Total votes 23: ↑16 and ↓7+9
Comments34

Обзор основных методов Deep Domain Adaptation (Часть 1)

Reading time13 min
Views18K

Развитие глубоких нейронных сетей для распознавания изображений вдыхает новую жизнь в уже известные области исследования в машинном обучении. Одной из таких областей является доменная адаптация (domain adaptation). Суть этой адаптации заключается в обучении модели на данных из домена-источника (source domain) так, чтобы она показывала сравнимое качество на целевом домене (target domain). Например, source domain может представлять собой синтетические данные, которые можно «дёшево» сгенерировать, а target domain — фотографии пользователей. Тогда задача domain adaptation заключается в тренировке модели на синтетических данных, которая будет хорошо работать с «реальными» объектами.


В группе машинного зрения Vision@Mail.Ru мы работаем над различными прикладными задачами, и среди них часто встречаются такие, для которых мало тренировочных данных. В этих случаях сильно может помочь генерация синтетических данных и адаптация обученной на них модели. Хорошим прикладным примером такого подхода является задача детектирования и распознавания товаров на полках в магазине. Получение фотографий таких полок и их разметка довольно трудозатратны, зато их можно достаточно просто сгенерировать. Поэтому мы решил глубже погрузиться в тему доменной адаптации.


Читать дальше →
Total votes 33: ↑33 and ↓0+33
Comments0

Что дает рознице машинное обучение: пример проекта

Reading time6 min
Views12K
У розницы очень разнообразный круг покупателей. Их много – всевозможных профессий и уровней дохода, от молодёжи до пенсионеров. Такое разнообразие не получится корректно описать двумя-тремя бизнес-правилами, потому что вы просто не сможете охватить все сочетания критериев и неизбежно потеряете часть клиентов. Поэтому для розницы очень важно как можно точнее сегментировать свою аудиторию, но это неизбежно усложняет модели. Здесь на помощь приходят технологии Machine Learning, дающие бизнесу более точные прогнозы и ответы на важные вопросы.




Читать дальше →
Total votes 33: ↑29 and ↓4+25
Comments18

Динамическое ценообразование, или Как Яндекс.Такси прогнозирует высокий спрос

Reading time5 min
Views69K


Раньше для вызова такси приходилось звонить на разные номера диспетчерских служб и ждать подачу машины полчаса или даже больше. Теперь сервисы такси хорошо автоматизированы, а среднее время подачи автомобиля Яндекс.Такси в Москве около 3-4 минут. Но стоит пойти дождю или закончиться массовому мероприятию, и мы вновь можем столкнуться с дефицитом свободных машин.

Меня зовут Скогорев Антон, я руковожу группой разработки эффективности платформы в Яндекс.Такси. Сегодня я расскажу читателям Хабра, как мы научились прогнозировать высокий спрос и дополнительно привлекать водителей, чтобы пользователи могли найти свободную машину в любое время. Вы узнаете, как формируется коэффициент, влияющий на стоимость заказа. Там всё далеко не так просто, как может показаться на первый взгляд.

Читать дальше →
Total votes 72: ↑66 and ↓6+60
Comments280

Открытый вебинар «Генеративные состязательные сети»

Reading time1 min
Views2.2K
Бобродня!

Представляем вам открытый урок по нашему курсу «Machine Learning». На занятии преподаватель и создатель курса Артур Кадурин знакомит с историей развития искусственного интеллекта и нейронных сетей в частности в первой части. А во второй более подробно разбирает устройство Генеративных Состязательных Сетей — процесс разработки и обучения сети в реальном времени.



Если у вас есть какие-то вопросы и комментарии по вебинару, то вы их можете задать тут или напрямую Артуру, зайдя к нему на день открытых дверей.
Total votes 11: ↑8 and ↓3+5
Comments0

В магистратуру без экзаменов: новое направление «Большие данные» на олимпиаде «Я — профессионал»

Reading time4 min
Views5.7K
Продолжаем рассказ об олимпиаде для бакалавров, магистров и специалистов «Я — профессионал». Она проводится при поддержке сильнейших вузов. Сегодня мы расскажем о новом соревновательном направлении, которое курирует Университет ИТМО, — «Большие данные».

Генеральный партнер олимпиады по направлениям Университета ИТМО — «Программирование и ИТ», «Информационная и кибербезопасность», «Большие данные» — Сбербанк.

Total votes 13: ↑11 and ↓2+9
Comments0

Котики vs нейросеть 2. Или запускаем SqueezeNet v.1.1 на Raspberry Zero в realtime (почти)

Reading time6 min
Views11K
Всем привет!

После написания не совсем серьезной и не особо полезной в практическом ключе первой части меня слегка заглодала совесть. И я решил довести начатое до конца. То есть выбрать-таки реализацию нейросети для запуска на Rasperry Pi Zero W в реальном времени (конечно, насколько это возможно на таком железе). Прогнать её на данных из реальной жизни и осветить на Хабре полученные результаты.

Осторожно! Под катом работоспособный код и немного больше котиков, чем в первой части. На картинке коТ и коД соответственно.

image
Читать дальше →
Total votes 14: ↑13 and ↓1+12
Comments11

Вариационные автокодировщики: теория и рабочий код

Reading time11 min
Views16K


Вариационный автокодировщик (автоэнкодер) — это генеративная модель, которая учится отображать объекты в заданное скрытое пространство.

Когда-нибудь задавались вопросом, как работает модель вариационного автокодировщика (VAE)? Хотите знать, как VAE генерирует новые примеры, подобные набору данных, на котором он обучался? Прочитав эту статью, вы получите теоретическое представление о внутренней работе VAE, а также сможете реализовать его самостоятельно. Затем я покажу рабочий код VAE, обученный на наборе рукописных цифр, и мы немного повеселимся, генерируя новые цифры!
Читать дальше →
Total votes 11: ↑11 and ↓0+11
Comments0

Совмещение R и Python: зачем, когда и как?

Reading time16 min
Views34K
dva stula

Наверное, многие из тех, кто занимается анализом данных, когда-нибудь думали о том, возможно ли использовать в работе одновременно R и Python. И если да, то зачем это может быть нужно? В каких случаях будет полезным и эффективным для проектов? Да и как вообще выбрать лучший способ совмещения языков, если гугл выдает примерно 100500 вариантов?

Давайте попробуем разобраться в этих вопросах.
Читать дальше →
Total votes 43: ↑41 and ↓2+39
Comments11

Information

Rating
Does not participate
Registered
Activity