Пользователь

Профиль Публикации Комментарии 2Закладки 49

Stich22 27 авг 2022 в 22:52

Путь от стажера до junior Data Scientist

6 мин

19K

Небольшая статья в первую очередь для начинающих специалистов в Data Science, к которому они смогли бы обращаться, когда необходимо что-то вспомнить при решении задач машинного обучения. Затронем темы, которые необходимо усвоить, чтобы подойти к обучению своей первой модели.

NewTechAudit 6 окт 2022 в 14:19

Сократить объем кода при помощи библиотеки PyTorch-Ignite

8 мин

3.1K

Python*Программирование*Машинное обучение*Научно-популярное

Туториал

PyTorch — среда глубокого обучения, которая была принята такими технологическими гигантами, как Tesla, OpenAI и Microsoft для ключевых исследовательских и производственных рабочих нагрузок.

PyTorch-Ignite — это библиотека высокого уровня, помогающая гибко и прозрачно обучать и оценивать нейронные сети в PyTorch. Основная проблема с реализацией глубокого обучения заключается в том, что коды могут быстро расти, становиться повторяющимися и слишком длинными. Рассматривать данную библиотеку буду, решая задачу оценки вероятности отнесения изображения к определенному классу на примере датасета CIFAR10. Чуть позже расскажу о нем подробнее. А сейчас начнем подготовку с установки и импорта необходимых библиотек.

VladVin 29 сен 2022 в 12:10

TorchOk — представляем open-source пайплайн для обучения нейросетей в компьютерном зрении

8 мин

7.7K

Блог компании Город ИннополисOpen source*Машинное обучение*

Иннополис — место, где формируются идеи, которые затем вырываются в большой мир, чтобы сделать его немного лучше, удобнее и технологичнее. Так произошло и с разработками компании EORA, которая опубликовала пайплайн для машинного обучения, заточенный под работу с компьютерным зрением.

Все необходимое для работы с ним опубликовано на GitHub под лицензией Apache 2.0, но если хотите подробностей из первых уст — добро пожаловать под кат. Передаем слово руководителю отдела компьютерного зрения EORA Data Lab Владу Виноградову.

Мы много лет разрабатывали TorchOk, и чувствуем, что настало время для презентации: нам есть, что показать и о чем рассказать.

+20

slivka_83 3 окт 2022 в 21:19

ClearML | Туториал

9 мин

21K

Data Mining*Big Data*Машинное обучение*

Туториал

Cезон Data Mining

ClearML — это довольно мощный фреймворк, основным предназначением которого является трекинг ML-экспериментов. Для рассмотрения его возможностей построим небольшой пайплайн обучения ML-модели...

+11

DmitryVl 21 сен 2022 в 17:52

Привлекаем внимание технологов (и не только «Норникеля»)! Визуализация ML-модели на «архивных» данных

11 мин

5.1K

Блог компании «Норникель»Open source*Визуализация данных*Машинное обучение*

Идет очередной этап работы датасаентиста… обучена ML-модель, которая снизит издержки, повысит эффективность, сделает жизнь лучше, ~~ничего не изменит, зато звучит модно~~. И вот настало время презентовать результаты ее работы. Если вы, как и я, работаете в промышленности, то на запланированную встречу наряду с менеджерами наверняка пригласят технологов с производства - именно они будут пользователями вашей системы, и успешность проекта может во многом зависеть от их заинтересованности и вовлеченности в совместную работу. Раз надо их заинтересовать, сделаем!

Привет, Хабр! Меня зовут Владимиров Дмитрий, я data scientist в группе анализа данных компании Норникель. Я хочу поделиться тем, как настроить интерактивную визуализацию работы ML-модели использую связку Python+Postgres+Grafana.

kucev 19 сен 2022 в 11:34

Подготовка датасета для машинного обучения: 10 базовых способов совершенствования данных

14 мин

31K

Data Mining*Обработка изображений*Big Data*Машинное обучение*Искусственный интеллект

Перевод

У Колумбийского университета есть хорошая история о плохих данных. Проект в сфере здравоохранения был нацелен на снижение затрат на лечение пациентов с пневмонией. В нём использовалось машинное обучение (machine learning, ML) для автоматической сортировки записей пациентов, чтобы выбрать тех, у кого опасность смертельного исхода минимальна (они могут принимать антибиотики дома), и тех, у кого опасность смертельного исхода высока (их нужно лечить в больнице). Команда разработчиков использовала исторические данные из клиник, а алгоритм был точным.

Но за одним важным исключением. Одним из наиболее опасных состояний при пневмонии является астма, поэтому врачи всегда отправляют астматиков в отделение интенсивной терапии, что приводило к минимизации уровня смертности для этих пациентов. Благодаря отсутствию смертельных случаев у астматиков в данных алгоритм предположил, что астма не так уж опасна при пневмонии, и во всех случаях машина рекомендовала отправлять астматиков домой, несмотря на то, что для них риск осложнений при пневмонии был наибольшим.

ML сильно зависит от данных. Это самый критически важный аспект, благодаря которому и возможно обучение алгоритма; именно поэтому машинное обучение стало столь популярным в последние годы. Но вне зависимости от терабайтов информации и экспертизы в data science, если ты не можешь понять смысл записей данных, то машина будет практически бесполезной, а иногда и наносить вред.

Читать дальше →

Laggg 11 авг 2022 в 14:00

Data Science Pet Projects. FAQ

13 мин

54K

Блог компании Open Data ScienceData Mining*Машинное обучение*Управление проектами*Искусственный интеллект

Привет! Меня зовут Клоков Алексей, сегодня поговорим о пет-проектах по анализу данных. Идея написать эту статью родилась после многочисленных вопросов о личных проектах в сообществе Open Data Science (ODS). Это третья статья на Хабре, до этого был разбор алгоритма SVM и анонс крутого NLP курса от ребят из DeepPavlov. В этой статье вы найдете идеи для новых петов и другие полезности. Итак, разберем частые вопросы и дадим определение пет-проекта:

Зачем делать пет-проекты?
Из каких этапов может состоять разработка пет-проекта?
Как выбрать тему и найти данные?
Где найти вычислительные ресурсы?
Как завернуть работающие алгоритмы в минимальный прод?
Как оформить презентабельный вид проекта?
Как и зачем искать коллабораторов?
Когда проходит ODS pet project хакатон?
Где посмотреть примеры пет-проектов и истории участников ODS?

Читать дальше →

+43

kruegger 18 окт 2018 в 14:00

Как правильно «фармить» Kaggle

27 мин

157K

Блог компании Open Data SciencePython*Data Mining*Математика*Машинное обучение*

*фарм — (от англ. farming) — долгое и занудное повторение определенных игровых действий с определенной целью (получение опыта, добыча ресурсов и др.).

Введение

Недавно (1 октября) стартовала новая сессия прекрасного курса по DS/ML (очень рекомендую в качестве начального курса всем, кто хочет, как это теперь называется, "войти" в DS). И, как обычно, после окончания любого курса у выпускников возникает вопрос — а где теперь получить практический опыт, чтобы закрепить пока еще сырые теоретические знания. Если вы зададите этот вопрос на любом профильном форуме, то ответ, скорее всего, будет один — иди решай Kaggle. Kaggle — это да, но с чего начать и как наиболее эффективно использовать эту платформу для прокачки практических навыков? В данной статье автор постарается на своем опыте дать ответы на эти вопросы, а также описать расположение основных грабель на поле соревновательного DS, чтобы ускорить процесс прокачки и получать от этого фан.

проверить глубину этой кроличьей норы

+85

1 2

Путь от стажера до junior Data Scientist

Сократить объем кода при помощи библиотеки PyTorch-Ignite

TorchOk — представляем open-source пайплайн для обучения нейросетей в компьютерном зрении

ClearML | Туториал

Привлекаем внимание технологов (и не только «Норникеля»)! Визуализация ML-модели на «архивных» данных

Подготовка датасета для машинного обучения: 10 базовых способов совершенствования данных

Data Science Pet Projects. FAQ

Как правильно «фармить» Kaggle

Введение

Информация

Специализация