Articles / Bookmarks / Profile of iraelisova / Habr

Ирина Елисова @iraelisova

Data Scientist

Profile Publications 2Comments 2Bookmarks 6

klimensky Feb 25 2021 at 16:00

Избегайте рекурсии в Python: вспомните о замыкании

6 min

29K

Skillfactory corporate blogPython*Programming*Perfect code*

Translation

Вот что получается, когда кандидат наук заморачивается рекурсией…

Раньше я был программистом, которому очень нравились рекурсивные функции, просто потому, что это очень круто, с их помощью можно продемонстрировать свои навыки программирования и интеллект. Однако в большинстве случаев рекурсивные функции имеют высокую сложность, поэтому нам следует избегать их использования.

Одно из решений намного лучше – по возможности задействовать динамическое планирование: вероятно, оно – лучший способ решать задачи, которые можно разделить на подзадачи. Одна из моих предыдущих статей демонстрирует мощь динамического планирования.

Приятного чтения!

temaxa Mar 5 2020 at 16:27

Масло и водка: как мы избавляем ноутбуки от стикеров

5 min

67K

AvitoTech corporate blogLaptops

В Авито все работают на ноутбуках. Так удобнее: можно заниматься своими задачами из любой части офиса, показывать презентации и делать заметки на встречах.

Каждый новый сотрудник получает на выбор свеженький Макбук или Делл. Клеить на них стикеры никто не запрещает — жёсткие ограничения у нас никогда не взлетали. Но бывает так, что коллеги становятся бывшими. И тогда на прощание они приносят команде IT-поддержки свои красиво заклеенные ноутбуки.

Нас зовут Артём Лелюхин и Павел Васильев, и мы работаем в той самой команде Авито. В этой статье мы расскажем об эффективных, абсурдных и даже опасных способах освободить ноутбук от стикербомбинга.

Читать дальше →

+128

267

Lexxo Jun 27 2016 at 16:06

Как работает метод главных компонент (PCA) на простом примере

10 min

280K

Python*Algorithms*Machine learning*

From sandbox

В этой статье я бы хотел рассказать о том, как именно работает метод анализа главных компонент (PCA – principal component analysis) с точки зрения интуиции, стоящей за ее математическим аппаратом. Максимально просто, но подробно.

Читать дальше →

+17

Artgor Aug 25 2017 at 14:04

Как сделать проект по распознаванию рукописных цифр с дообучением онлайн. Гайд для не совсем начинающих

57 min

34K

Open Data Science corporate blogData Mining*Python*Machine learning*Image processing*

Tutorial

Привет, Хабр! В последнее время машинное обучение и data science в целом приобретают все большую популярность. Постоянно появляются новые библиотеки и для тренировки моделей машинного обучения может потребоваться совсем немного кода. В такой ситуации можно забыть, что машинное обучение — не самоцель, а инструмент для решения какой-либо задачи. Мало сделать работающую модель, не менее важно качественно презентовать результаты анализа или сделать работающий продукт.

Я хотел бы рассказать о том, как создал проект по распознаванию рукописного ввода цифр с моделями, которые дообучаются на нарисованных пользователями цифрах. Используется две модели: простая нейронная сеть (FNN) на чистом numpy и сверточная сеть (CNN) на Tensorflow. Вы сможете узнать, как сделать практически с нуля следующее:

создать простой сайт с использованием Flask и Bootstrap;
разместить его на платформе Heroku;
реализовать сохранение и загрузку данных с помощью облака Amazon s3;
собрать собственный датасет;
натренировать модели машинного обучения (FNN и CNN);
сделать возможность дообучения этих моделей;
сделать сайт, который сможет распознавать нарисованные изображения;

Для полного понимания проекта желательно знать как работает deep learning для распознавания изображений, иметь базовые знания о Flask и немного разбираться в HTML, JS и CSS.

Читать дальше →

+25

elena_newprolab Aug 3 2018 at 09:45

«Мне сложно понять мотивацию data scientist’а, который не видит красоты в математике» — Кирилл Данилюк, Data Scientist

11 min

12K

New Professions Lab corporate blogBig Data*Data Mining*InterviewMachine learning*

Recovery Mode

Привет, Хабр! Data Science уже давно стала привлекательной областью, и все больше и больше людей хотят сменить свою профессиональную траекторию и начать работать с большими данными. Своей историей перехода в data science, советами для начинающих и продвинутых data scientist’ов поделился Кирилл Данилюк, Data Scientist компании RnD Lab. Кроме этого, поговорили о необходимых качествах data scientist’а, о разметке данных, об отличии ML Engineer от data scientist, текущих проектах, крутых командах и людях, чья работа вдохновляет.

— Как ты пришел в data science? Чем тебя изначально привлекала область работы с данными?

— У меня довольно нетипичный бэкграунд: в дату я пришел из мира яндексового PM’ства (Project Management — прим. автора), когда меня позвали в ZeptoLab, пожалуй, лучшую российскую игровую компанию. Я сделал им прототип аналитической системы, дэшборды, фактически в первый раз начав писать код, который использовал кто-то другой. Код был ужасный, но это была реальная практика. Формально, конечно, я координировал работу двух аутсорсеров, но код они писали именно по этому прототипу. Я тогда еще не знал, что примерно это и есть data science, что я им и занимаюсь, пусть парт-тайм. Так что знакомство случилось довольно органически.

Уже тогда было видно, что идет целый сдвиг в парадигме разработки — вместо классического императивного программирования, когда ты жестко задаешь условия, наступает эра, когда машина сама с помощью данных сможет себя обучать. Видеть эту смену было невероятно круто, и очень хотелось попасть в число тех разработчиков новой эпохи.

Читать дальше →

+10

jandevel Mar 6 2018 at 13:59

Коэффициент Джини. Из экономики в машинное обучение

17 min

133K

Open Data Science corporate blogData Mining*Python*Mathematics*Machine learning*

Интересный факт: в 1912 году итальянский статистик и демограф Коррадо Джини написал знаменитый труд «Вариативность и изменчивость признака», и в этом же году «Титаник» затонул в водах Атлантики. Казалось бы, что общего между этими двумя событиями? Всё просто, их последствия нашли широкое применение в области машинного обучения. И если датасет «Титаник» в представлении не нуждается, то об одной замечательной статистике, впервые опубликованной в труде итальянского учёного, мы поговорим поподробней. Сразу хочу заметить, что статья не имеет никакого отношения к коэффициенту Джини (Gini Impurity), который используется в деревьях решений как критерий качества разбиения в задачах классификации. Эти коэффициенты никак не связаны друг с другом и общего между ними примерно столько же, сколько общего между трактором в Брянской области и газонокосилкой в Оклахоме.

Коэффициент Джини (Gini coefficient) — метрика качества, которая часто используется при оценке предсказательных моделей в задачах бинарной классификации в условиях сильной несбалансированности классов целевой переменной. Именно она широко применяется в задачах банковского кредитования, страхования и целевом маркетинге. Для полного понимания этой метрики нам для начала необходимо окунуться в экономику и разобраться, для чего она используется там.

Читать дальше →

+65