Как стать автором
Обновить
24
0
Михаил Сарафанов @Dreamlone

Data scientist

Отправить сообщение

Развертывание моделей машинного обучения. Часть первая. Размещаем Web-приложение в облачной платформе Heroku

Время на прочтение11 мин
Количество просмотров11K

В этой серии статей мы рассмотрим, как на основе готовых моделей создавать приложения, использующие машинное обучение, и организовывать доступ пользователей к ним. Начнем с создания Web-приложения для классификации изображений на Streamlit и развертывания его на облачной платформе Heroku в бесплатном аккаунте. Этот подход подойдет для прототипов и персональных или учебных проектов.

Читать далее
Всего голосов 8: ↑7 и ↓1+8
Комментарии5

Чистый AutoML для “грязных” данных: как и зачем автоматизировать предобработку таблиц в машинном обучении

Время на прочтение14 мин
Количество просмотров8.3K

Обработка табличных данных средствами Python для использования в моделях машинного обучения - что может быть банальнее. Казалось бы. Иногда табличные данные бывают настолько "грязными", что их вычистка занимает гораздо больше времени, чем подготовка самой модели. Так зачем это делать самому, если с этим не хуже справится AutoML...

Ну и насколько они грязные
Всего голосов 12: ↑11 и ↓1+13
Комментарии2

Scrum/Agile/Kanban/Lean — как выравнивать процессы, убирать посредников, максимизировать ценность

Время на прочтение6 мин
Количество просмотров29K

История методик управления проектами

С древнейших времен люди поняли, что для достижения какой-то поставленной цели или задачи гораздо выгоднее, быстрее и эффективнее объединиться. Мамонта в одиночку не завалить, в пещере одному небезопасно и даже урожай одному не собрать. Вместе как минимум - веселее.

Читать далее
Всего голосов 6: ↑5 и ↓1+6
Комментарии5

Пора релоцироваться

Время на прочтение2 мин
Количество просмотров96K

Популярные мифы, советы по поиску работы, переезду и полезные ссылки для тех, кто сейчас ищет работу за рубежом или уже нашел и собирается переехать.

Читать далее
Всего голосов 152: ↑80 и ↓72+45
Комментарии263

Оформляем README-файл профиля на GitHub

Время на прочтение14 мин
Количество просмотров227K

Летом 2020 года GitHub позволила пользователям создавать персональные README-файлы и с их помощью кастомизировать свои профили. Сама платформа при создании подобного файла предлагает уже готовый шаблон, в который можно вписать свои данные. Но о какой кастомизации может идти речь, если у всех будут одинаково оформленные профили? За почти два года сообщество придумало множество различных способов выделиться и особенно оформить свою страницу на GitHub.

Читать далее
Всего голосов 62: ↑60 и ↓2+73
Комментарии25

JTBD: почему любимая работа вызывает отвращение?

Время на прочтение12 мин
Количество просмотров24K

Однажды для знакомства с новым и многообещающим проектом федерального значения меня отправили на стажировку разгребать инциденты на первой линии. Рядом со мной работали молодые ребята, вчерашние студенты. С первого взгляда было видно, что ребята какие-то зашуганные, с постоянной тоской в глазах. Я решил подбодрить одну из своих коллег и начал издалека. На мой вопрос о том, чего она хочет от этой работы, моя визави честно ответила: «Я хотела бы не думать каждый вечер о том, чтобы уволиться».  

Читать далее
Всего голосов 72: ↑64 и ↓8+73
Комментарии28

Игры прямо в Jupyter Notebook

Время на прочтение5 мин
Количество просмотров6.5K

Практика в Jupyter Notebook — это основа нашего курса по Data Science. Но интерактивный блокнот можно использовать не только для работы. За подробностями из блога разработчиков Jupyter Notebook приглашаем под кат.

Читать далее
Всего голосов 9: ↑8 и ↓1+7
Комментарии1

Знакомьтесь: ETNA

Время на прочтение5 мин
Количество просмотров12K

Меня зовут Юля, я разработчик команды ETNA. Расскажу о том, как мы запустили открытый инструмент для аналитики и прогнозирования бизнес-процессов, как он устроен и как его использовать. 

В Тинькофф мы часто решаем задачи по прогнозированию: хотим знать количество звонков на линии обслуживания или сколько наличных клиенты снимут в банкомате на следующей неделе. Специалисты по обработке данных и аналитики, которые сталкиваются с проблемами прогнозирования, могут использовать целый ряд различных инструментов для своей работы. Это неудобно и требует времени. Чтобы упростить задачу, мы разработали наш фреймворк. 

Читать далее
Всего голосов 18: ↑18 и ↓0+18
Комментарии6

Код ревью с учётом человеческих слабостей

Время на прочтение7 мин
Количество просмотров11K

Проверка кода (code review) — отличный инструмент для повышения качества кода, но он не учитывает один факт: отправляют и просматривают код люди, а они устают, теряют сосредоточенность, ленятся, да и просто испытывают эмоции в самые неожиданные моменты.

Поэтому хочу представить свое видение хороших и плохих практик код ревью с учётом человеческих особенностей.

Читать далее
Всего голосов 24: ↑22 и ↓2+23
Комментарии7

Обработка изображений на Python

Время на прочтение6 мин
Количество просмотров19K

В процессе этой статьи будет разработан фильтр для изображения, который позволит показать контуры фигур на изображение.

При помощи формул, описанных в статье можно найти значение каждого пикселя опираясь на соседей этого пикселя.

Далее реализация на python с подробными пояснениями.

Итоги работы и полная версия обработанного изображения.

Читать далее
Всего голосов 7: ↑6 и ↓1+6
Комментарии7

Тимлид в 20 или 50 оттенков выгорания

Время на прочтение6 мин
Количество просмотров18K

Эта история обо мне - обычном разработчике, который слишком рано получил то, к чему стремился. Я пишу эту статью с целью, чтобы юные ребята, которые хотят пойти в программирования, понимали, что не все так радужно. Деньги, удаленка, свободное время, востребованность - все это манит, однако у этой медали есть вторая, не самая приятная, сторона, о которой я и хочу рассказать.

Читать далее
Всего голосов 36: ↑27 и ↓9+24
Комментарии21

Как мы “повернули реки вспять” на Emergency DataHack 2021, объединив гидрологию и AutoML

Время на прочтение17 мин
Количество просмотров2.8K

Хабр, привет! 

Под катом хотелось бы поговорить об опыте участия нашей команды из лаборатории моделирования природных систем Национального центра когнитивных разработок Университета ИТМО в хакатоне Emergency DataHack 2021. И победы в нём :)

Читать далее
Всего голосов 5: ↑5 и ↓0+5
Комментарии0

Структура + предположения > ML? Моделирование продаж байесовскими методами

Время на прочтение17 мин
Количество просмотров5.4K

Не так давно участвовал в проекте, где мы применяли методы байесовского моделирования для ритейлинговой сети. Тема непростая и интересная. Так как проект под NDA, решил на примере похожего гипотетического проекта показать, как мы решали поставленные перед нами задачи.

Также подробно расскажу об основах Байесовского моделирования. Ну и бонусом, тем кто дочитает до конца и захочет углубиться в эту тему – «куча» ссылок. ​

Читать далее
Всего голосов 3: ↑3 и ↓0+3
Комментарии1

Две открытые библиотеки для обучения байесовских сетей и идентификации структуры данных

Время на прочтение3 мин
Количество просмотров3.2K

В одном из предыдущих материалов мы рассказали о фреймворке для AutoML и библиотеке алгоритмов выбора признаков. На этот раз продолжаем делиться разработками специалистов, магистров и аспирантов Университета ИТМО и представляем вашему вниманию парочку open source инструментов для работы с данными. Как обычно — говорим о них простыми словами и делимся ссылками на публичные репозитории, предоставленными авторами проектов.

Читать далее
Всего голосов 6: ↑6 и ↓0+6
Комментарии1

8 недооцененных команд Git, которые должен знать каждый программист (помимо привычных pull, push, add, commit)

Время на прочтение2 мин
Количество просмотров22K

Если вы сделали опечатку, когда вводили имя ветки, вам поможет вот такая команда.

Читать далее
Всего голосов 35: ↑20 и ↓15+8
Комментарии28

Open source в Университете ИТМО: фреймворк для AutoML и библиотека алгоритмов выбора признаков

Время на прочтение4 мин
Количество просмотров3.9K

Мы рассказываем не только о личном опыте учеников, делимся практическими руководствами и публикуем истории студенческих стартапов, но и обсуждаем подходы к развитию карьеры — например, в области машинного обучения и проектирования алгоритмов. Сегодня раскроем последнюю тему с несколько иной стороны и представим вашему вниманию парочку open source фреймворков от представителей ИТМО — со ссылками на репозитории и понятным описанием.

Читать далее
Всего голосов 8: ↑7 и ↓1+7
Комментарии1

Прогнозирование временных рядов с помощью AutoML

Время на прочтение16 мин
Количество просмотров25K


Хабр, привет!


В лаборатории моделирования природных систем Национального центра когнитивных разработок Университета ИТМО мы активно исследуем вопросы применения автоматического машинного обучения для различных задач. В этой статье мы хотим рассказать о применении AutoML для эффективного прогнозирования временных рядов, а также о том, как это реализовано в рамках open-source фреймворка FEDOT. Это вторая статья из серии публикаций, посвященной данной разработке (с первой из них можно ознакомиться по ссылке).


Все подробности — под катом!

Читать дальше →
Всего голосов 7: ↑6 и ↓1+6
Комментарии4

Как AutoML помогает создавать модели композитного ИИ — говорим о структурном обучении и фреймворке FEDOT

Время на прочтение9 мин
Количество просмотров8.5K

image


В лаборатории моделирования природных систем НЦКР ИТМО мы занимаемся разработкой и продвижением решений в области AutoML. Наши научные сотрудники Николай Никитин, Анна Калюжная, Павел Вычужанин и Илья Ревин рассказывают о трендах и задачах AutoML, плюс — о собственных open-source разработках в этой области.

Всего голосов 6: ↑6 и ↓0+6
Комментарии0

50 оттенков matplotlib — The Master Plots (с полным кодом на Python)

Время на прочтение39 мин
Количество просмотров387K
Те, кто работает с данными, отлично знают, что не в нейросетке счастье — а в том, как правильно обработать данные. Но чтобы их обработать, необходимо сначала проанализировать корреляции, выбрать нужные данные, выкинуть ненужные и так далее. Для подобных целей часто используется визуализация с помощью библиотеки matplotlib.



Встретимся «внутри»!
Читать дальше →
Всего голосов 67: ↑67 и ↓0+67
Комментарии15

Гиперпараметры: как перестать беспокоиться и начать их оптимизировать

Время на прочтение11 мин
Количество просмотров22K

«Подбор гиперпараметров». Если у вас в голове при произнесении этой фразы прокатились несколько панических атак и непроизвольно задергался глаз, а, возможно, и рука в инстинктивном желании перевернуть стол с криками «Да ну его, этот ваш дата сайнс» (нецензурную брань оставим за скобками), значит вы, как и я, хоть раз пытались обучить наивный байес мало-мальски тяжелую модель на большом объеме данных.





Источник изображения: thecode.media



Размер батча, learning rate, размер того слоя, размер сего слоя, вероятность dropout-a. Страшно? Уже представляете часы (дни) ожидания? А это я еще про количество голов у трансформеров не говорил…

Читать дальше →
Всего голосов 11: ↑11 и ↓0+11
Комментарии0

Информация

В рейтинге
Не участвует
Откуда
Helsinki, Southern Finland, Финляндия
Дата рождения
Зарегистрирован
Активность