Майним технохардкор в сезоне Data Mining / Хабр

С 5 сентября по 20 октября на Хабре открыт сезон Data Mining — конкурс технических статей для дата-сатанистов, знающих толк в оккультных практиках работы с данными.

Хабр проводит сезон вместе с SM Lab (IT-компанией «Спортмастера»). У них, кстати, есть middle-вакансия для Data / ML Engineer.

Правила просты: вы пишете статью в хаб Data Mining и, если её рейтинг оказывается самым высоким, SM Lab отгружает вам игровой монитор и грант на написание следующего шедевра.

Победителя выберут читатели, так что не забудьте приподнять рейтинг лучшим постам (и карму их авторам).

UPD. Сезон закончился, а подробности и победителя можно посмотреть в итоговом посте.

Я (@apoltavcev) работаю продюсером спецпроектов в Хабре. Вы наверняка замечали, что техническим текстам с высоким порогом входа гораздо сложнее набирать просмотры и плюсы. Сезоны — наша попытка восстановить справедливость и дать техноавторам ту славу, которую они заслуживают.

Один сезон мы уже провели — он был для джавистов. Авторы получили внимание, читатели 46 отличных постов, а хаб Java стал самым популярным из узкопрофильных. Кажется, теперь мы будем проводить сезоны регулярно.

Похорошеет ли Хабр при сезоне Data Mining — зависит от вас.

Зачем участвовать в сезоне Data Mining

Дело тут не только в призах. Каждый участник бесплатно получает продвижение своего поста в соцсетях Хабра. Это примерно 40k охвата.

Что делать с этим вниманием — решайте сами. Можно укрепить личный бренд или подсветить пет-проект, да даже найти новую работу. Кстати, авторы корпоративных блогов тоже могут участвовать.

Главный приз от SM Lab. Игровой монитор LG 32GP83B-B — для работы тоже подойдёт, у меня такой же. Гарантированно отправим его в любую точку России. Если живёте в другой стране, мы поищем варианты международной доставки, но обещать ничего не можем.
Грант от SM Lab. 30 000 рублей на подготовку ещё одной статьи на любую тему в рамках Data Mining. Во время предыдущего сезона победитель отказался от гранта в пользу другого участника. Так тоже можно: если времени на написание ещё одного текста у вас нет, можете передать этот грант автору полюбившегося вам сезонного поста.
Значок в профиле. Для участников — «Участник сезона Data Mining», а для победителя — «Победитель сезона Data Mining».
Дополнительный инвайт для победителя.

Правила сезона

Остались почти без изменений, но есть нюансы.

Побеждает пост с наибольшим рейтингом. Консилиум собирать было бы долго и неэффективно, поэтому победителя выберет коллективное бессознательное Хабра. Таймаут по голосованию объявим, когда закончим приём заявок.
Один автор — неограниченное количество заявок. Чем больше статей, тем выше шанс привлечь внимание читателей и победить. Участвовать могут не только новые посты, но и старые тексты, опубликованные после 20 августа.
Участвовать могут все — даже авторы из «Песочницы». Отличная возможность привлечь максимум внимания к вашему первому посту.
Только технохардкор. Если вы решили рассказать, как правильно собеседовать дата-инженеров — на сезон такая статья не пройдёт. Как и голые результаты анализа данных без рассказа о технической изнанке. Нас интересуют не сами данные, а моменты, которые пригодятся спецам по Data Science в работе.
Без лишней рекламы или антирекламы. Не хотелось бы, чтобы конкурсным анонсированием воспользовались в PR-войнах. В сезонных постах можно упомянуть компанию, в которой вы работаете, но не более того.

Как подать заявку

Написать подходящий текст для хаба Data Mining. Если сомневаетесь, подойдёт ли тема — можно спросить у меня.

При публикации добавить к посту тег «cезон Data Mining». Важно: можно прикрепить тег и к старому посту, если он опубликован не раньше 20 августа 2022.

Дождаться проверки модератором. Если пост подойдёт под критерии сезона, мы отметим его специальной плашкой под заголовком и добавим в список под постом-анонсом. О результатах модерации отпишемся в личку.

Готово! Вы восхитительны и участвуете в сезоне.

Идеи для постов

Знакомые авторы подкинули мне пару тем для постов, которые они бы и сами прочитали.

Сейчас в интернетах (на Хабре особенно) полно статей о том, как обучать нейросети любого вида на всех популярных фреймворках, но очень мало о том, что делать с этими нейросетями после обучения. А именно — как подготовить их к инференсу в реальных проектах.
Может быть для тех, кто только начинает изучать науку о данных, это не столь важно, но для специалистов вопросы оптимизации и подготовки моделей к проду так же важны, как вопросы обучения.
Я хотел бы почитать про то, как можно и нужно оптимизировать нейронные сети, как правильно конвертировать их в формат, читаемый фреймворками для инференса: opencv-dnn, onnxruntime, openvino и так далее; как устранять проблемы с совместимостью (например, когда в модели присутствует слой, который не реализован в целевом фреймворке), и как приспосабливать обученную модель к различным ускорителям (GPU, NPU) и embedded-устройствам (Jetson, Khadas, Raspberry Pi).

Станислав Матков

CV-engineer в VideoIntellect

Я бы с удовольствием почитал посты про фича-инжиниринг с примерами, очень мало видел информации про генерацию новых признаков. И ещё про классификацию временных рядов и поиск аномалий во временных рядах.

Терминатор

Cyberdyne Systems Model 101, киборг-убийца из будущего
(источник картинки: ruDALL-E)

Посты-участники

Список обновляется, орфография и пунктуация авторские.

Jira, Jirа! Повернись к лесу задом, ко мне передом. Повсеместная цифровизация не только в телевизоре. Она теперь повсюду нас окружает, на работе и не только. Типичным представителем являются трекеры действий (системы Сервис Деск, проектные системы, документообороты и пр.). Общей болевой точкой всех этих систем являются сложная объектная и процессная модель и фокус на поддержку операционного обслуживания. Шаг влево или вправо в попытках понять всю картину целиком повергает аналитиков в уныние и порождает безуспешные проекты на многие месяцы. А вопрос этот висит в воздухе, в том или ином виде, почти ежедневно.

Как организовать потоковую обработку данных: часть 1. В этой статье я расскажу о том, как мы создали универсальный инструмент потоковой обработки данных и построили с его помощью мощную систему стриминга.

Как организовать потоковую обработку данных: часть 2. В первом посте мы обсудили основные компоненты методологии, а сейчас поговорим о том, как ими пользоваться. Поехали!

Проверка нормальности распределения с использованием критерия Эппса-Палли средствами Python. Критерий Эппса-Палли — один из критериев проверки нормальности распределения, основанный на сравнении эмпирической и теоретической характеристических функций.

Бот или не бот — вот в чем вопрос. Идентификация пользователей интернета по "веб-отпечатку" (fingerprint) формирует новую реальность. Интернет теряет анонимность прямо сейчас. Это происходит не по причине насилия регулятора, а естественным путем вследствие появления доступной технологии защиты от ботов. Почему защита от ботов деанонимизировала людей, как это уже ударило по коммерции и как совсем скоро изменит общество в целом — популярно под катом.

NoRecSys. Машинное обучение — помощник в формировании ассортимента товаров для ритейла. Статья про противоположное применение рекомендательных систем — определение самого неподходящего товара для покупателей.

Продвинутые методы Uplift-моделирования. Сегодня я хочу рассказать о задаче Uplift-моделирования — частном случае такой большой сферы, как Causal Inference, или причинно-следственный анализ, — и методах её решения. Задачи такого типа важны во многих областях. Если вы сотрудник, например, продуктовой компании, то причинно-следственный анализ поможет сократить издержки на коммуникации с людьми, на которых она не повлияет. Если вы врач, то такой анализ подскажет, выздоровел пациент благодаря лекарству или из-за удачного стечения обстоятельств.

Как мы научились дистанционно оценивать техническое состояние автомобиля. Этой статьей я хочу начать цикл публикаций о создании нашей командой сервиса дистанционной оценки технического состояния автомобилей на основе технологий искусственного интеллекта.

Самообучающийся трекер объектов: как отслеживать цель в изменчивых условиях сцены. Специалисты по компьютерному зрению не один десяток лет бьются над трекингом объектов. Они перепробовали многое: от старой-доброй оценки движения оптическим потоком до сетей-трансформеров. Есть один подход к трекингу, широко известный на западе, но о котором мало пишут по-русски: Incremental Visual Tracker (IVT). Это трекер объектов на основе модифицированного метода главных компонент: он самообучается на ходу и адаптируется к изменчивым условиям.

Как создать переводчик, который переводит лучше, чем Google Translate. Помню, как еще в школе на Basic я писал программу-переводчик. И это было то время, когда ты сам составлял словарь, зашивал перевод каждого слова, а затем разбивал строки на слова и переводил каждое слово в отдельности. В то время я, конечно же, не мог и представить, как сильно продвинутся технологии, и программы-переводчики станут в основе использовать механизмы глубокого обучения с архитектурой трансформера и блоками внимания.

Как полюбить задачи регрессии. У задач классификации, в отличие от задач регрессии, есть одно очень приятное свойство: большинство ML алгоритмов решения задач классификации выдают не просто ответ, а некоторую оценку уверенности модели в ответе. То есть помимо метрик самой модели мы обладаем оценкой вероятности для конкретного ответа на конкретном примере. Это здорово помогает в принятии решений.

Важно ли DS аналитику знать про software development. Множество курсов, призванных подготовить DS специалистов «за полгода», создают впечатление, что уж сертифицированным датамайнером стать достаточно просто. А что? Немного основ DS языка, немного по структуре данных, немного по различным преобразованиям данных, немного SQL, немного математики (в ML не погружаемся, только знакомимся), немного визуализации, немного HTML+JS+CSS. Специалист готов?

На практике оказывается, что маловато будет.

Как обезличить персональные данные. Для ML-моделей не нужны (и даже вредны) персональные данные. Но пригодятся данные, которые описывают не отдельных людей, а их группы, то есть обезличенные. Как их получить и как с ними работать? Как убедиться, что права того, чьи данные были взяты за основу, не нарушены? И где граница между персональными и анонимными данными?

Регрессионный анализ в DataScience. Простая линейная регрессия. Библиотека statsmodels. Про регрессионный анализ вообще, и его применение в DataScience написано очень много. Есть множество учебников, монографий, справочников и статей по прикладной статистике, огромное количество информации в интернете, примеров расчетов. Можно найти множество кейсов, реализованных с использованием средств Python. Казалось бы - что тут еще можно добавить? Однако, как всегда, есть нюансы.

Первый нейросетевой переводчик для эрзянского языка. Эрзянский язык из финно-угорской семьи – один из официальных в республике Мордовия, и на нём говорят сотни тысяч людей, но для него до сих пор не было почти никаких технологий машинного перевода, кроме простых словарей. Я попробовал создать первую нейросеть, способную переводить с эрзянского на русский (и с натяжкой ещё на 10 языков) и обратно не только слова, но и целые предложения.

Распознавание речи, генерация субтитров и изучение языков при помощи Whisper. Есть ряд платных решений по переводу речи в текст (Automatic Speech Recognition). Сравнительно малыми усилиями можно сделать свое решение, — обучить на целевых данных end2end модель (например, из фреймворка NeMo от NVIDIA) или гибридную модель типа kaldi. Сверху понадобится добавить расстановку пунктуации и денормализацию для улучшения читаемости ("где мои семнадцать лет" → "Где мои 17 лет?").

ClearML | Туториал. ClearML — это фреймворк для трекинга ML-экспериментов. Это основное его предназначение. Но сейчас функционал ClearML гораздо шире и позволяет: отслеживать метрики, гиперпараметры и артефакты машинного обучения, хранить и предоставлять по запросу модели и датасеты, визуально сравнивать эксперименты и многое другое.

Проверка автокорреляции с использованием критерия Дарбина-Уотсона средствами Python. Методический разбор для специалистов DataScience по применению критерия Дарбина-Уотсона для проверки автокорреляции средствами python.

Evidently или как пасти модели в проде. Evidently это библиотека, которая помогает анализировать и отслеживать качество данных и качество моделей машинного обучения в процессе их эксплуатации. Рассмотрим как ее установить и использовать.

Dagster | Туториал. Dagster — это оркестратор, предназначенный для организации конвейеров обработки данных: ETL, проведение тестов, формирование отчетов, обучение ML-моделей и т.д. Как и в большинстве других оркестраторов планирование заданий в нем осуществляется посредством направленного ациклического графа (DAG).

Как сделать карту цен в Excel без макросов и VBA. Считается, что Data Mining — это магическое снадобье из SQL, Python, Power BI и других волшебных компонент. Мало кто знает, что при правильном подходе с Data Mining может совладать офисный планктон с помощью одного лишь Excel. Если вы абсолютно далеки от Data Mining, но хотите причаститься его таинств, это руководство в картинках по шагам сделано для вас. Особенно полезно тем, кто никогда бы даже не подумал сделать подобное самостоятельно.