Articles / Bookmarks / Profile of Glycosylase / Habr

How to become an author

Пользователь

Profile Publications Comments 16Bookmarks 114

ru_vds Jun 14 2019 at 12:30

Обзор Python-пакета Datatable

8 min

19K

RUVDS.com corporate blogWebsite development*Python*

Translation

«Пять экзабайт информации создано человечеством с момента зарождения цивилизации до 2003 года, но столько же сейчас создаётся каждые два дня». Эрик Шмидт

Datatable — это Python-библиотека для выполнения эффективной многопоточной обработки данных. Datatable поддерживает наборы данных, которые не помещаются в памяти.

Если вы пишете на R, то вы, вероятно, уже используете пакет data.table. Data.table — это расширение R-пакета data.frame. Кроме того, без этого пакета не обойтись тем, кто пользуется R для быстрой агрегации больших наборов данных (речь идёт, в частности, о 100 Гб данных в RAM).

Пакет data.table для R весьма гибок и производителен. Пользоваться им легко и удобно, программы, в которых он применяется, пишутся довольно быстро. Этот пакет широко известен в кругах R-программистов. Его загружают более 400 тысяч раз в месяц, он используется в почти 650 CRAN и Bioconductor-пакетах (источник).

Какая от всего этого польза для тех, кто занимается анализом данных на Python? Всё дело в том, что существует Python-пакет datatable, являющийся аналогом data.table из мира R. Пакет datatable чётко ориентирован на обработку больших наборов данных. Он отличается высокой производительностью — как при работе с данными, которые полностью помещаются в оперативной памяти, так и при работе с данными, размер которых превышает объём доступной RAM. Он поддерживает и многопоточную обработку данных. В целом, пакет datatable вполне можно назвать младшим братом data.table.

Читать дальше →

+39

Lubiviy_Alexander Mar 28 2019 at 12:31

Получение рекламных кампаний Яндекс Директ с помощью API в DataFrame (Python)

7 min

13K

API*Python*Internet marketing*Contextual advertising*

Работая сразу с несколькими клиентами, появляется необходимость оперативно анализировать много информации в разных аккаунтах и отчетах. Когда клиентов становится больше 10, маркетолог больше не успевает постоянно следить за статистикой. Но выход есть.

В данной статье я расскажу про то, как следить за рекламными аккаунтами с помощью API и Python.

На выходе мы получим запрос к API Яндекс Директ, с помощью которого будем получать статистику по рекламным кампаниям и сможем обрабатывать эти данные.

Для этого нам нужно:

Получить токен API Яндекс Директ
Написать запрос к серверу
Импортировать данные в DataFrame

Читать дальше →

+9

balezz Feb 1 2019 at 14:45

SciPy, алгоритмы на графах

6 min

8K

Python*Mathematics*

Tutorial

SciPy (произносится как сай пай) — это пакет прикладных математических процедур, основанный на расширении Numpy Python. Он значительно расширяет возможности Python, предоставляя в распоряжение пользователя команды и классы высокого уровня для управления данными и их визуализацией. С SciPy интерактивный сеанс Python превращается в такую же полноценную среду обработки данных и прототипирования сложных систем, как MATLAB, IDL, Octave, R-Lab и SciLab.

Читать дальше →

+17

fokus-lop Dec 20 2018 at 12:34

Создаем инструменты для глубокого анализа рейтинга приложений в Google Play Store

5 min

2.4K

Skillbox corporate blogMobile App Analytics*Studying in IT

От переводчика: сегодня публикуем для вас совместную статью трех разработчиков, Akaash Chikarmane, Erte Bablu и Nikhil Gaur, в которой рассказывается о методе прогнозирования рейтинга приложений в Google Play Store.

В этой статье мы покажем способы обработки информации, которые применяем для прогнозирования рейтинга. Также мы объясним, почему используем те или иные из них. Мы поговорим и о преобразованиях пакета данных, с которым работаем, и о том, чего можно добиться при помощи визуализации.

Читать дальше →

+13

Alexey_mosc Dec 14 2018 at 17:59

Можно ли обучить с подкреплением агента для торговли на рынке акций? Реализация на языке R

6 min

9.5K

Machine learning*R*

Tutorial

Давайте создадим прототип агента обучения с подкреплением (RL), который овладеет навыком трейдинга.

Учитывая, что реализация прототипа работает на языке R, я призываю пользователей и программистов R приблизиться к идеям, изложенным в этом материале.

Это перевод моей англоязычной статьи: Can Reinforcement Learning Trade Stock? Implementation in R.

Хочу предупредить код-хантеров, что в этой заметке есть только код нейронной сети, адаптированной под R.

Если я не отличился хорошим русским языком, укажите на ошибки (текст готовился с подмогой автоматического переводчика).

Читать дальше →

+9

leszla Dec 1 2018 at 23:23

Краткое руководство по Dash — Python веб-фреймворк для создания дэшбордов. Installation + Dash Layout

7 min

97K

Python*Website development*Web services testing*

Tutorial

Всем привет!

Сегодня предлагаю погрузиться в один из удобнейших веб-фреймворков в связке c Python под названием Dash. Появился он не так давно, пару лет назад благодаря разработчикам фреймворка plotly. Сам Dash является связкой Flask, React.Js, HTML и CSS.

Выступление Криса Пармера на PLOTCON 2016

Давайте сразу установим фреймворк. Обновленные версии уточняйте тут.

pip install dash==0.31.1  # The core dash backend
pip install dash-html-components==0.13.2  # HTML components
pip install dash-core-components==0.38.1  # Supercharged components
pip install dash-table==3.1.7  # Interactive DataTable component (new!)

Друзья, если вы действительно хотите разобраться в данном фреймворке, читайте публикации до конца, так как зачастую сначала следуют примеры, а уже после детальный обзор кода. Если вам все равно непонятно — советую читать документацию по Dash на английском языке в оригинале. Также в рунете есть несколько статей, которые объясняют концепции, которые я решил пропустить в данном туториале.

+26

Plarium Nov 29 2018 at 16:16

Предсказание оттока пользователей с помощью метода RFM

5 min

6.5K

Plarium corporate blogData Mining*Python*Machine learning*Game development*

Представьте: телефонный звонок в три часа ночи, вы берете трубку и слышите крик о том, что больше никто не пользуется вашим продуктом. Страшно? В жизни, конечно, все не так, но если не уделять должное внимание проблеме оттока пользователей, можно оказаться в похожей ситуации.

Мы уже подробно рассказали, что такое отток: углубились в теорию и показали, как превратить нейросеть в цифрового оракула. Специалисты студии Plarium Krasnodar знают еще один способ предсказания. О нем мы и поговорим.

Читать дальше →

+5

andrewbo29 Nov 28 2018 at 11:44

Обзор основных методов Deep Domain Adaptation (Часть 2)

7 min

6.1K

VK corporate blogArtificial IntelligenceMachine learning*Image processing*

В первой части мы ознакомились с методами доменной адаптации с помощью глубоко обучения. Поговорили об основных датасетах, а также о подходах discrepancy-based и adversarial-based non-generative. Эти методы хорошо себя показывают для некоторых задач. А в этот раз мы разберём наиболее сложные и перспективные adversarial-based методы: generative models, а также алгоритмы, показывающие наилучшие результаты на датасете VisDA (адаптации с синтетических данных под реальные фотографии).

Читать дальше →

+27

JetHabr Nov 27 2018 at 10:33

Splunk глазами новичка: как мы делали систему инвентаризации хранилищ

4 min

6.2K

Инфосистемы Джет corporate blogData storages*Data storage*Server Administration*

Недавно заказчик попросил нас реализовать систему учета дисковых мощностей. Стояла задача объединить информацию с более семидесяти дисковых массивов разных вендоров, от свичей SAN и ESX-хостов VMware. Затем данные нужно было систематизировать, проанализировать и иметь возможность выводить на дашборд и различные отчеты, например, о свободном и занятом объеме дискового пространства во всех или отдельно взятых массивах.

Мы решили реализовать проект с помощью системы анализа операционной деятельности — Splunk.

Читать дальше →

+29

PlayItToDeath Nov 22 2018 at 14:15

Data Science проект от исследования до внедрения на примере Говорящей шляпы

25 min

30K

Open Data Science corporate blogMachine learning*Artificial IntelligencePython*Data Mining*

Месяц назад Лента запустила конкурс, в рамках которого та самая Говорящая Шляпа из Гарри Поттера определяет предоставивших доступ к социальной сети участников на один из четырех факультетов. Конкурс сделан неплохо, звучащие по-разному имена определяются на разные факультеты, причем схожие английские и русские имена и фамилии распределяются схожим образом. Не знаю, зависит ли распределение только от имен и фамилий, и учитывается ли как-то количество друзей или другие факторы, но этот конкурс подсказал идею этой статьи: попробовать с нуля обучить классификатор, который позволит распределять пользователей на различные факультеты.

Читать дальше →

+65

NIX_Solutions Nov 21 2018 at 09:51

Архитектуры нейросетей

12 min

65K

NIX corporate blogAlgorithms*Artificial IntelligenceMachine learning*

Translation

Перевод Neural Network Architectures

Алгоритмы глубоких нейросетей сегодня обрели большую популярность, которая во многом обеспечивается продуманностью архитектур. Давайте рассмотрим историю их развития за последние несколько лет. Если вас интересует более глубокий анализ, обратитесь к этой работе.

Сравнение популярных архитектур по Top-1 one-crop-точности и количеству операций, необходимых для одного прямого прохода. Подробнее здесь.

Читать дальше →

+26

svva Nov 21 2018 at 11:49

Как устроен скоринг в индустрии каршеринга. Часть 1. Обзор популярных инструментов на реальных данных

5 min

9.3K

Bright Box corporate blogAlgorithms*IOTProgramming*Development for IOT*

Каршеринг, несмотря на свою молодость, — одно из самых активно развивающихся направлений в автобизнесе России. С момента запуска первой компании прошло 5 лет, и сегодня на рынке работают более 25 операторов, специализирующихся на краткосрочной аренде. С развитием каршеринга накапливаются данные о пользователях, и вот уже у каршеринга, как у банков, появляется некая система скоринга клиентов. Она также опирается на возраст, пол, стаж вождения, однако здесь рассматривается не история ваших кредитов, а история поездок. Одной из целей такого скоринга, помимо платежеспособности, валидации водительского удостоверения, штрафов, является предсказание вероятности ДТП для конкретного водителя.

В этой статье мы разберем логику работы алгоритмов скоринга пользователей каршеринга, которые будут опираться только на возраст и стиль вождения. Помимо этих параметров, и для получения более точных результатов, могут быть использованы — социальный статус, поездки с детьми, активность в социальных сетях и информация с камеры в салоне автомобиля. Однако, сегодня остановимся на двух базовых — возраст и стиль вождения.

Отметим, что в статье мы продемонстрируем логику работы скоринга на примере водительской активности 50 000 пользователей и 260 000 поездок. Все данные были анонимизированны. Кроме того, мы использовали данные по 220 ДТП, совершенных с Москве и МО.

Читать дальше →

+9

andrewbo29 Nov 22 2018 at 10:45

Обзор основных методов Deep Domain Adaptation (Часть 1)

13 min

18K

VK corporate blogArtificial IntelligenceMachine learning*Image processing*

Развитие глубоких нейронных сетей для распознавания изображений вдыхает новую жизнь в уже известные области исследования в машинном обучении. Одной из таких областей является доменная адаптация (domain adaptation). Суть этой адаптации заключается в обучении модели на данных из домена-источника (source domain) так, чтобы она показывала сравнимое качество на целевом домене (target domain). Например, source domain может представлять собой синтетические данные, которые можно «дёшево» сгенерировать, а target domain — фотографии пользователей. Тогда задача domain adaptation заключается в тренировке модели на синтетических данных, которая будет хорошо работать с «реальными» объектами.

В группе машинного зрения Vision@Mail.Ru мы работаем над различными прикладными задачами, и среди них часто встречаются такие, для которых мало тренировочных данных. В этих случаях сильно может помочь генерация синтетических данных и адаптация обученной на них модели. Хорошим прикладным примером такого подхода является задача детектирования и распознавания товаров на полках в магазине. Получение фотографий таких полок и их разметка довольно трудозатратны, зато их можно достаточно просто сгенерировать. Поэтому мы решил глубже погрузиться в тему доменной адаптации.

Читать дальше →

+33

JetHabr Nov 20 2018 at 09:08

Что дает рознице машинное обучение: пример проекта

6 min

12K

Инфосистемы Джет corporate blogMachine learning*Sales management*

У розницы очень разнообразный круг покупателей. Их много – всевозможных профессий и уровней дохода, от молодёжи до пенсионеров. Такое разнообразие не получится корректно описать двумя-тремя бизнес-правилами, потому что вы просто не сможете охватить все сочетания критериев и неизбежно потеряете часть клиентов. Поэтому для розницы очень важно как можно точнее сегментировать свою аудиторию, но это неизбежно усложняет модели. Здесь на помощь приходят технологии Machine Learning, дающие бизнесу более точные прогнозы и ответы на важные вопросы.

Читать дальше →

+25

askogorev Nov 14 2018 at 10:40

Динамическое ценообразование, или Как Яндекс.Такси прогнозирует высокий спрос

5 min

69K

Яндекс corporate blogResearch and forecasts in IT*Machine learning*

Раньше для вызова такси приходилось звонить на разные номера диспетчерских служб и ждать подачу машины полчаса или даже больше. Теперь сервисы такси хорошо автоматизированы, а среднее время подачи автомобиля Яндекс.Такси в Москве около 3-4 минут. Но стоит пойти дождю или закончиться массовому мероприятию, и мы вновь можем столкнуться с дефицитом свободных машин.

Меня зовут Скогорев Антон, я руковожу группой разработки эффективности платформы в Яндекс.Такси. Сегодня я расскажу читателям Хабра, как мы научились прогнозировать высокий спрос и дополнительно привлекать водителей, чтобы пользователи могли найти свободную машину в любое время. Вы узнаете, как формируется коэффициент, влияющий на стоимость заказа. Там всё далеко не так просто, как может показаться на первый взгляд.

Читать дальше →

+60

MaxRokatansky Nov 14 2018 at 18:28

Открытый вебинар «Генеративные состязательные сети»

1 min

2.2K

OTUS corporate blogBig Data*Artificial IntelligenceMachine learning*

Бобродня!

Представляем вам открытый урок по нашему курсу «Machine Learning». На занятии преподаватель и создатель курса Артур Кадурин знакомит с историей развития искусственного интеллекта и нейронных сетей в частности в первой части. А во второй более подробно разбирает устройство Генеративных Состязательных Сетей — процесс разработки и обучения сети в реальном времени.

Если у вас есть какие-то вопросы и комментарии по вебинару, то вы их можете задать тут или напрямую Артуру, зайдя к нему на день открытых дверей.

+5

itmo Nov 11 2018 at 12:13

В магистратуру без экзаменов: новое направление «Большие данные» на олимпиаде «Я — профессионал»

4 min

5.7K

ITMO corporate blogStudying in ITLifehacks for geeksIT careerBig Data*

Продолжаем рассказ об олимпиаде для бакалавров, магистров и специалистов «Я — профессионал». Она проводится при поддержке сильнейших вузов. Сегодня мы расскажем о новом соревновательном направлении, которое курирует Университет ИТМО, — «Большие данные».

Генеральный партнер олимпиады по направлениям Университета ИТМО — «Программирование и ИТ», «Информационная и кибербезопасность», «Большие данные» — Сбербанк.

+9

Walker2000 Nov 12 2018 at 08:14

Котики vs нейросеть 2. Или запускаем SqueezeNet v.1.1 на Raspberry Zero в realtime (почти)

6 min

11K

DIYPython*Artificial IntelligenceDevelopment for Raspberry Pi*Robotics development*

Всем привет!

После написания не совсем серьезной и не особо полезной в практическом ключе первой части меня слегка заглодала совесть. И я решил довести начатое до конца. То есть выбрать-таки реализацию нейросети для запуска на Rasperry Pi Zero W в реальном времени (конечно, насколько это возможно на таком железе). Прогнать её на данных из реальной жизни и осветить на Хабре полученные результаты.

Осторожно! Под катом работоспособный код и немного больше котиков, чем в первой части. На картинке коТ и коД соответственно.

Читать дальше →

+12

m1rko Nov 9 2018 at 13:42

Вариационные автокодировщики: теория и рабочий код

11 min

16K

Python*Machine learning*Image processing*

Translation

Вариационный автокодировщик (автоэнкодер) — это генеративная модель, которая учится отображать объекты в заданное скрытое пространство.

Когда-нибудь задавались вопросом, как работает модель вариационного автокодировщика (VAE)? Хотите знать, как VAE генерирует новые примеры, подобные набору данных, на котором он обучался? Прочитав эту статью, вы получите теоретическое представление о внутренней работе VAE, а также сможете реализовать его самостоятельно. Затем я покажу рабочий код VAE, обученный на наборе рукописных цифр, и мы немного повеселимся, генерируя новые цифры!

Читать дальше →

+11

Efaldgent Nov 8 2018 at 14:00

Совмещение R и Python: зачем, когда и как?

16 min

34K

Open Data Science corporate blogBig Data*Data Mining*Python*R*

dva stula

Наверное, многие из тех, кто занимается анализом данных, когда-нибудь думали о том, возможно ли использовать в работе одновременно R и Python. И если да, то зачем это может быть нужно? В каких случаях будет полезным и эффективным для проектов? Да и как вообще выбрать лучший способ совмещения языков, если гугл выдает примерно 100500 вариантов?

Давайте попробуем разобраться в этих вопросах.

Читать дальше →

+39

1