С каждым годом сфера Data Science обрастает новыми методиками, терминами и направлениями. К счастью, у нас есть почти готовая энциклопедия по этой теме, которую год за годом кропотливо наполняло сообщество Хабра. Есть, правда, проблема: материалы сообщества почти не структурированы и в них сложновато ориентироваться. Чтобы упростить жизнь тем, кто пытается разобраться в этом сумбуре из полезных (и не очень) статей, мы в Data-Science департаменте Газпромбанка собрали коллекцию лучших постов о том, как грамотная работа с данными меняет компании и людей. Подробности — под катом.
Категории
Авторы коллекции
Альбина Ахметгареева
Главный аналитик-исследователь
Игорь Столбов
Директор по разработке моделей
Родион Лапцуев
Директор по разработке моделей
Денис Занков
Управляющий директор
Владимир Опанасенко
Начальник управления алгоритмов машинного обучения
Data Science в бизнесе и государстве
И частные компании, и государственные структуры активно строят свои сервисы, основанные на данных и науке об их интерпретации и автоматизации. Здесь — о том, как это устроено: начиная с поисковиков, и заканчивая распознаванием номеров на транспорте, нарушителей ПДД.
1
Наглядная иллюстрация того, как с усложнением структуры данных и увеличением их объема методы обучения deep-learning начинают лучше работать. Крайне рекомендую статью за конкретные примеры и историю о переходе на «глубокие» методы.
Альбина Ахметгареева
главный аналитик-исследователь
2
“
Одним из критериев того, что компания руководствуется data-driven подходом, я считаю перевод флагманских продуктов на машинное обучение. Этим продуктам нужны технические решения, которые устойчивы к пропущенным свойствам, изменениям в распределении выборки, могут адаптироваться по фидбеку пользователей и обходят проблемы с переобучением. И именно об этом на примере почты рассказывает статья Mail.ru.
3
“
Одна из главных технических сложностей в машинном обучении — его вывод в прод. Об этом YouDo и рассказывает: в их посте реальный кейс перехода от exploratory data analysis к машинному обучению. В статье есть важные технические детали по CD/CI и оркестрации микросервисов.
4
“
Наглядная демонстрация проблем, которые возникают в анализе данных и того, как из-за этого искажаются результаты.
Эта статья показывает, что может случиться, если вывести модель в реальный мир без участия доменных экспертов: любая область полна сюрпризов, о которых не догадывается ни один дата-сайентист.
Эта статья показывает, что может случиться, если вывести модель в реальный мир без участия доменных экспертов: любая область полна сюрпризов, о которых не догадывается ни один дата-сайентист.
5
“
Хороший текст о том, как извлекать инсайды из своих данных, грамотно используя визуализацию и работу с экспертами. Будет полезно для тех, кому хочется работать со сложными данными (особенно в виде графов) и применять к ним методы визуализации сообществ.
Data Science в промышленности
Иногда производствам, которые кажутся неповоротливыми и консервативными, автоматизация данных приносит больше пользы, чем IT-компаниям и сервисам. Как, например, сделать, чтобы нейросеть с первого раза узнавала шуруп, который вы ей показываете? К каким опенсорс-проектам обратиться, если хотите автоматизировать свою стройку или небольшой заводик? Об этом — дальше.
1
“
Если вы уже продвинутый разработчик и ищете что-то новое (или думаете, что все ниши применения методов ML уже заняты), эта статья для вас. Отличный текст для тех, кто хочет внедрять в цифровые решения в промышленных предприятиях. Это непростые заказчики, поэтому за такие задачи стоит браться только опытным AI и ML специалистам.
2
Рассказ о том, как классифицировать много разного товара с помощью AI, чтобы в нём смогли ориентироваться покупатели.
Довольно типичная ситуация для ритейла и эффективный подход к решению вопроса.
Довольно типичная ситуация для ритейла и эффективный подход к решению вопроса.
Родион Лапцуев
директор по разработке моделей
3
“
Одна из главных бед внедрения data-driven подходов — отсутствие культуры работы с данными. Пост, который я предлагаю почитать, рассказывает о внедрении методов анализа данных в нефтехимии — консервативной бизнес-среде, где люди привыкли к почте и Excel. Внутри — история обо всём процессе внедрения аналитики данных — от архитектуры до деталей имплементации.
4
“
Уникальный пост, в котором уместилась невероятно обширная подборка материала по применению Python в разных областях бизнеса.
Для каждой сферы выделены примеры использования; есть ноутбуки, демонстрирующие подход к исследовательскому анализу данных.
Для каждой сферы выделены примеры использования; есть ноутбуки, демонстрирующие подход к исследовательскому анализу данных.
Data Science в финтехе и банках
Возможно, финтех — одна из областей, наиболее завязанных на данных. Мы собрали коллекцию интересных кейсов по работе с данными в разных сферах этой области. Дальше — о том, как машинное обучение помогает выдавать кредиты, ловить мошенников, и помогать техподдержке.
1
Автор собрал подборку из 18 финтех-компаний, использующих машинное обучение в областях от инвестирования и кредитов до разработки систем идентификации пользователей по сетчатке глаза. Статью хорошо дополняет пример о том, как MasterCard с помощью машинного обучения отражает атаки на банкоматы.
Игорь Столбов
директор по разработке моделей
2
“
Автор на примере Индии разбирает, как машинное обучение и систематический подход к анализу данных могут улучшить показатели кредитной организации. На своём опыте могу сказать, что метрики из этого поста правда могут быть полезны для банков.
3
“
Статья разбирает пять кейсов применения машинного обучения в популярных финтех-стартапах. Среди них — кредитный скоринг, защита от фрода и алгоритмическая торговля. Это основы, с изучения которых могут начать те, кому хочется разобраться в современном финтехе. Рекомендую в качестве отправной точки.
4
“
Верификация документов — краеугольный камень защиты от мошенников, который очень важен для финансовых организаций.
Статья, которую я рекомендую прочитать — отличный кейс проверки документов на основе решений машинного обучения и анализа данных. Есть и технические детали, и интересные нюансы работы бизнеса.
Статья, которую я рекомендую прочитать — отличный кейс проверки документов на основе решений машинного обучения и анализа данных. Есть и технические детали, и интересные нюансы работы бизнеса.
5
“
Статья разбирает технические детали и бизнес-аналитику развертывания DataScience-решений, включая аудит данных и анализ архитектуры. В целом это отражает и наш опыт, поэтому рекомендуем к прочтению для понимания общей схемы жизненного цикла ML в проде.
6
“
Отличный кейс применения машинного обучения для снижения нагрузки на службу поддержки. Очень подробный материал: тут и прототипы нейросети, и методики мониторинга эффективности системы, и даже демонстрация реальных писем, обработанных системой. Один из примеров, в которых пользу от внедрения ML действительно можно измерить по ключевым KPI — от сокращения времени ответа и до уменьшения нагрузки на сотрудников.
Создаем успешный продукт в Data Science
Управление в Data Science
Сама сфера Data Science тоже постоянно находится в движении. Этот раздел — о том, что нужно сделать, чтобы ваши DS-специалисты лучше справлялись со своими задачами — да и вообще о том, кто они и чем заняты в рабочее время.
1
Эта статья разбирает весь цикл Data Science-проекта с точки зрения его менеджера: от анализа задачи и исследовательского анализа данных, до создания базовой модели и взаимодействия DS-специалистов с другими командами и многого другого. Рекомендую тем, кто начинает свой путь в менеджменте IT и особенно Data Driven-проектов.
Владимир Опанасенко
начальник управления алгоритмов машинного обучения
2
“
Хороший разбор того, как Data Science работает в контексте бизнеса. Хороший практический чек-лист для менеджера или PM.
3
“
Неплохой рассказ о взаимодействии agile-практик и разработки проектов в сфере анализа данных. Внутри — отличный список нюансов, которые иногда возникают при создании Data Science-продуктов через Agile.
4
“
Интересный разбор этапов в работе исследователя данных: сбор данных, обработка и сам их анализ. К каждой части есть примеры и советы. По нашему опыту, этапы из статьи неплохо отражают реальную картину происходящего.
5
“
Одна из немногих статей на Хабре «по другую сторону баррикад» о том, как нанимают дата-сайентистов, критериях отбора и нужных навыках. А также о том, как растут и развиваются сотрудники в области машинного обучения. Очень полезно для кандидатов — чтобы составить представление о том, как процесс их найма выглядит с другой стороны.
Повышаем квалификацию в Data Science
Наука о данных — штука очень сложная (на то она и наука), поэтому даже если вы профессии много лет, всегда есть куда расти. Здесь мы поможем определиться с тем, куда дальше копать и какие курсы можно изучить, чтобы вы и ваши сотрудники брали новые высоты.
1
“
В Open Data Science сделали открытый курс по анализу данных, машинному обучению и искусственному интеллекту. Данный курс запускался в России, а с этого года также бесплатно читается с некоторыми изменениями в Дубае (ОАЭ). Если упростить, это образовательная программа, созданная сообществом практикующих дата-сайентистов для тех, кто ещё не успел прокачаться и только начинают погружаться в анализ данных.
2
Отличная подборка по темам, методам и сферам применения анализа данных на питоне — рекомендую всем, кто хочет поднять свой уровень и укрепить знания в анализе данных и машинном обучении.
Денис Занков
управляющий директор
3
“
Неплохой туториал для тех, кто давно мечтал разобраться, что такое генеративные сети. По этому тексту вполне реально написать свой автоэнкодер с нуля и понять принцип работы подобных архитектур нейросетей.