Pull to refresh
4
0
Sergey Serebryakov @serebryakovsergey

Research Engineer

Send message

Контроль за дрейфами предсказательных моделей и Popmon

Level of difficultyEasy
Reading time8 min
Views8.3K

Привет, Хабр!

На связи участник профессионального сообщества NTA Иван Попов.

В сфере бизнеса зачастую используются модели машинного обучения для прогнозирования различных показателей, однако их предсказательная сила может снижаться с течением времени. В данном посте расскажу, что такое дрейф моделей, почему важно следить за ними, и как это можно сделать с помощью библиотеки Popmon.

Как держать дрейф модели под контролем?
Rating0
Comments0

Почему ONNX так популярен в ML: конвертации, утилиты и инференс

Level of difficultyMedium
Reading time5 min
Views9.9K

Большинство инженеров, работающих с машинным обучением, уже знакомы с форматом данных ONNX. Его часто используют для хранения обученных моделей и конвертации их мeжду фреймворками.

В этой статье расскажу об ONNX и о том, почему этот формат данных широко используется. Посмотрим на особенности формата и конвертации в него и на экосистему полезных инструментов.

Читать далее
Total votes 9: ↑9 and ↓0+9
Comments0

Как обучить миллионы моделей прогнозирования временными сериями

Level of difficultyEasy
Reading time5 min
Views3.5K

Не буду вдаваться в подробности о том, откуда берутся миллионы временных серий и почему они умудряются изменяться еженедельно. Просто возникла задача еженедельно сделать прогноз на 2-8 недель по паре миллионов временных серий. Причем не просто прогноз, а с кроссвалидацией и выбором наиболее оптимальной модели (ARIMA, нейронная сеть, и т.п.).

Имеется свыше терабайта исходных данных и достаточно сложные алгоритмы трансформации и чистки данных. Чтобы не гонять большие массивы данных по сети решено было реализовать прототип на одном сервере.

Читать далее
Total votes 3: ↑3 and ↓0+3
Comments23

Зоопарк трансформеров: большой обзор моделей от BERT до Alpaca

Level of difficultyHard
Reading time59 min
Views22K

Авторский обзор 90+ нейросетевых моделей на основе Transformer для тех, кто не успевает читать статьи, но хочет быть в курсе ситуации и понимать технические детали идущей революции ИИ.

Читать далее
Total votes 28: ↑28 and ↓0+28
Comments15

Мимо тёщиного дома я без метрик не хожу (обзор и видео доклада)

Level of difficultyHard
Reading time15 min
Views9.8K

В этом докладе я расскажу о мониторинге: о том, как собрать множество метрик из разных мест в одном, как разруливать права для разных частей этих метрик и как хранить большие объемы данных. Еще поговорим о выборе системы мониторинга на примере небольшого сериала о вымышленной компании, система мониторинга которой эволюционирует вместе с ростом инфраструктуры.

Читать далее
Total votes 37: ↑36 and ↓1+42
Comments12

И конфеты за меня есть будете? AutoML в помощь Citizen Data Scientist’у

Level of difficultyEasy
Reading time12 min
Views7.6K

В прошлых статьях мы много рассказывали о том, как Data Science помогает металлургу, что такое Self-Service Analytics и как простой технолог может командовать моделями машинного обучения. В этом посте хочется раскрыть больше технических деталей по последнему пункту.

Хардкорный дата-сайентист может собрать нейросеть даже из спичечных коробков. Однако CDS — это про решение производственных задач малой кровью и в разумные сроки. И для таких решений необходим соответствующий инструментарий.

Привет, на связи снова Андрей Косинцев из ЕВРАЗа, и под катом вы узнаете, как самообучаются ML-модели и самоверстается фронтенд.

Читать далее
Total votes 7: ↑6 and ↓1+11
Comments7

Исторический момент: ChatGPT обрёл «суперсилу Wolfram»

Level of difficultyMedium
Reading time18 min
Views33K

Четвёртая версия ChatGPT одних заставила пищать от восторга, а других повергла в уныние. Кто-то уже нашёл этой системе множество творческих применений, а кто-то пророчит, что эта нейросеть лишит работы кучу людей. Теперь возможности ChatGPT стали ещё шире: систему интегрировали с Wolfram | Alpha, легендарным движком для вычисления ответов в самых разных областях знания. Мы перевели для вас огромную подробную статью об этом от одного из разработчиков Wolfram | Alpha.

Читать далее
Total votes 49: ↑44 and ↓5+52
Comments35

Стриминговая аналитика с применением Apache Pulsar и структурированные потоки Spark

Level of difficultyHard
Reading time17 min
Views1.8K
image

Эта статья написана в соавторстве Даниэлем и Джианнисом Полизосом, который ещё в 2017 году был одним из первых студентов Rock the JVM. Сейчас Джианнис – старший разработчик и контрибьютор Apache Pulsar, многообещающего нового инструментария для передачи распределённых сообщений и потоковых данных. В этой статье сочетаются два наших любимых технических инструмента: Apache Pulsar и Apache Spark.

Потоковая обработка – важный и необходимый аспект современных инфраструктур данных. Сегодня компании стремятся поставить себе на службу потоковую передачу и аналитику данных в реальном времени, чтобы быстрее предоставлять пользователям результаты, повышать удобство работы с ресурсом и, соответственно, поднимать его бизнес-ценность.

Примеров такого рода сколько угодно: представьте себе онлайн-сервис, предоставляющий пользователю рекомендации на основе того, какие действия пользователь совершает на веб-странице. Ещё можно представить IoT-компанию, желающую отслеживать показания сенсоров и своевременно реагировать на потенциальные сбои. К этой же категории относятся системы компьютерного зрения, которые должны в режиме реального времени анализировать видеозаписи или обнаруживать случаи мошенничества в банковских системах; этот список можно продолжать и продолжать.

Как правило, в конвейерах для потоковой обработки данных требуется уровень хранения потоков, например, Apache Pulsar или Apache Kafka. Далее для выполнения более тонких задач по обработке потоков нам потребуется движок потоковых вычислений, например, Apache Flink или Spark Structured Streaming.

Когда требуется обеспечить унифицированную пакетную обработку и работу с потоками в системах, развёрнутых в облаке, Apache Pulsar отлично подходит для полной технической поддержки таких вычислительных движков. Apache Pulsar предназначен для работы с облачной (cloud-native) инфраструктурой, а также сделан в расчёте на стратегии унифицированной пакетной обработки данных и работу с потоками.
Читать дальше →
Total votes 16: ↑16 and ↓0+16
Comments0

Собеседования в FAANG like компании или почему мы не умеем оценивать кандидатов

Reading time3 min
Views7.9K

В этой статье я хочу поговорить об этапах отбора в FAANG (он же MAANG) компании. Сразу оговорюсь, что к таким компаниям я отнесу не только компании, которые входят в аббревиатуру, но и все компании, которые проводят собеседования по такой же системе.

И так, как выглядит типичное собеседование в такие компании (в зависимости от компании/позиции набор секций может отличаться, я опишу наиболее часто встречающиеся). Первое, что происходит везде - созвон с рекрутером. Тут в целом все стандартно, задаете друг другу пару вопросов и дальше рекрутер минут 10 дает описание проектам, которое улетает у тебя из головы сразу как только ты покинешь звонок. Вторым этапом идет технический скрининг, который может провести рекрутер, тогда это будет сделано в пункте 1, либо отдельным звонком технический специалист. Дальше начинается самое интересное: общение по твоему языку и стеку, алгоритмическая секция, сис дизайн, behavioral (она же поведенческая) секция. На этих этапах остановимся поподробнее. 

Вы только вдумайтесь, чтобы с нуля подготовиться к собеседованию (с нуля, это не значит, что ты решил "вайти в айти", а хочешь пройти собеседование в FAANG like компанию первый раз, либо после долгого перерыва) приходится как минимум год решать алгоритмические задачки с LeetCode, HackerRank или любого другого аналога. Это напоминает мне подготовку к экзамену. Просто подумайте, что успешное прохождение этой секции может сказать о кандидате? По мне так то, что он успешно может решать задачки с LeetCode, так что если для позиции важен такой навык, то это безусловно плюс.

Читать далее
Total votes 28: ↑17 and ↓11+15
Comments49

Kubeflow: учимся устанавливать и запускать Kubeflow на локальной машине

Reading time6 min
Views4K
Пошаговое руководство по установке и конфигурированию всех компонентов kubeflow на локальной машине.

image
Рис. 1. Взаимодействие Kubeflow и Kubernetes | рисунок автора |иконки от Eucalyp

Kubeflow [1] – это созданная Google опенсорсная платформа, на которой разворачивается весь жизненный цикл разрабатываемой модели машинного обучения. Kubeflow представляет собой инструментарий, каждый компонент которого применяется для отработки каждой из стадий жизненного цикла при машинном обучении, а именно: исследования данных, конструирования признаков, преобразования признаков, обучения модели, оценки модели, тонкой настройки модели, предоставления модели и версионирования модели. Главный атрибут kubeflow заключается в том, что он предназначен для работы на базе kubernetes [2]. Таким образом, kubeflow пользуется именно теми преимуществами, которые предоставляет кластер kubernetes, в частности, оркестрацией контейнеров и автомасштабированием.
Читать дальше →
Total votes 10: ↑9 and ↓1+13
Comments1

Почему повышение точности прогноза не гарантирует повышение прибыли. Часть 1

Reading time4 min
Views2.5K

Вашу компанию легко ввести в заблуждение, если вы думаете, что увеличение прибыли - это всегда повышенные показатели точности прогноза. В российской практике оценка точности прогноза - один из ключевых показателей, на который ориентируются компании. Однако по нашему опыту он переоценен и часто вводит компании в заблуждение относительно его влияния на конечную прибыль. В статье последовательно рассмотрим 5 основных проблем, с которыми сопряжено использование данного показателя. Также предложим варианты их решения.

Читать далее
Total votes 4: ↑4 and ↓0+4
Comments1

Сравнение систем Machine Learning as a Service: Amazon, Microsoft Azure, Google Cloud AI, IBM Watson

Reading time26 min
Views5.4K

Большинству компаний машинное обучение кажется чем-то сверхсложным, дорогим и требующим серьёзных специалистов. И если вы намереваетесь создавать новую систему рекомендаций Netflix, то так и есть. Однако тенденция превращения всего в сервис затронула и эту сложную сферу. Начать с нуля проект ML можно без особых инвестиций, и это будет правильным решением, если ваша компания новичок в data science и хочет начать с решения самых простых задач.

Одна из самых вдохновляющих историй об ML — это рассказ о японском фермере, решившем автоматически сортировать огурцы, чтобы помочь своим родителям в этой утомительной работе. В отличие от крупных корпораций, этот парень не имел ни опыта в машинном обучении, ни большого бюджета. Однако ему удалось освоить TensorFlow и применить глубокое обучение для распознавания разных классов огурцов.

Благодаря облачным сервисам машинного обучения вы можете начать создавать свои первые рабочие модели, делая ценные выводы из прогнозов даже при наличии небольшой команды. Мы уже говорили о стратегии машинного обучения. Теперь давайте рассмотрим лучшие на рынке платформы машинного обучения и поговорим об инфраструктурных решениях, которые нужно принять.
Читать дальше →
Total votes 2: ↑2 and ↓0+2
Comments1

Для чего нужен Observability Engineering

Reading time10 min
Views14K

Замечали, как часто в ИТ-отрасли появляется модное словечко, и тут же все начинают вставлять его в описание своих продуктов, чтобы привлечь побольше внимания?

Сейчас у нас в тренде observability (наблюдаемость), и многие вендоры уже берут его на вооружение.

Что такое observability? Просто навороченная версия мониторинга? Быстрее, выше, сильнее, настоящий Чак Норрис среди DevOps-инструментов! Так и хочется прикупить себе наблюдаемости, правда?

Давайте не будем поддаваться всеобщему ажиотажу и попробуем разобраться, что это такое и откуда вся шумиха.

Читать далее
Total votes 9: ↑9 and ↓0+9
Comments1

SD – это Linux, а Midjourney – Mac: краткое полное руководство по Stable Diffusion

Reading time13 min
Views81K
Вот таких тирекс-тянок выдает нейросеть

Текст про Midjourney привлек внимание, и в комментариях наметилась дискуссия про Stable Diffusion. Аргументы убедили меня попробовать SD самостоятельно, но вскоре я понял, что это не самая простая задача. Сообщество любителей Stable Diffusion произвело на свет множество удобных инструментов, которые своим количеством и сложностью могут отпугнуть новичков.

Всю неделю, что я экспериментировал с нейросетью, я боролся с желанием SD добавлять вторичные гендерные признаки по моим запросам и грустил, смотря на результаты генерации котиков. О своих страданиях частично писал в личном Telegram-канале — подписывайтесь! В этом же тексте — собрал основные советы по работе со Stable Diffusion и подвел итог, сравнив эту нейросеть с Midjourney.
Читать дальше →
Total votes 84: ↑83 and ↓1+104
Comments53

Obsidian + Dataview: Задачи

Level of difficultyMedium
Reading time5 min
Views30K

В прошлой статье Obsidian + Dataview: Таблицы я рассказал про установку плагина Dataview, формирование таблиц с его помощью и разобрал 4 кейса его использования.

Dataview - это очень мощный и функциональный плагин, с помощью которого кроме таблиц можно так же формировать списки, календари и задачи.

Сегодня хотелось бы остановиться на задачах, тем более что Dataview позволяет сделать из Обсидиана полноценный task/todo-менеджер с календарём и прочими приятностями.

Читать далее
Total votes 9: ↑9 and ↓0+9
Comments20

Полное руководство по модулю asyncio в Python. Часть 7

Reading time21 min
Views14K

Публикуем седьмую часть (12345, 6) перевода руководства по модулю asyncio в Python. Здесь представлены разделы исходного материала с 17 по 19.

Читать далее
Total votes 17: ↑17 and ↓0+17
Comments2

Машинное обучение с помощью Streamlit с использованием набора данных от Титаника

Reading time5 min
Views1.7K

В этой статье я рассказываю об использовании машинного обучения в Streamlit и о том, как оно может помочь бизнес-пользователям лучше понять, как работает наука о данных. Мы собираемся посмотреть, сможем ли мы использовать модель на практике, чтобы пользователи могли протестировать и проверить, выжил бы кто-то на Титанике с определенными характеристиками.

Здесь мы собираемся объединить мощь Streamlit с процессом машинного обучения.

Читать далее
Total votes 5: ↑5 and ↓0+5
Comments0

Интерпретируемость ML-моделей: от инструментов до потребностей пользователя

Reading time7 min
Views4.3K

Интерпретируемость ML-моделей - очень широкая концепция. То, насколько интерпретация хороша, зависит не только от инструментов и отчетов, которые мы предоставляем пользователю, но и от потребностей пользователя и особенностей задач, которые он решает.

В статье разберемся, как эффективно работать с интерпретируемостью ML-моделей в зависимости от потребностей ключевых пользователей.

Читать далее
Total votes 22: ↑22 and ↓0+22
Comments5

Декораторы, о которых вам не расскажут

Reading time11 min
Views31K

От переводчика: мне понравился подход к объяснению декораторов, описанный в этой статье, а так как других вариантов перевода я не нашёл, я решил поделиться этим с аудиторией Хабра. Надеюсь что этот текст будет полезен как новичкам, так и опытным программистам.

Если вы программируете на языке Python, вы должны были слышать о декораторах, однако существует много людей, которые либо не знакомы с ними, либо, что еще хуже, знакомы с ними (использовали так или иначе), но так и не поняли их суть.

Цель этого краткого руководства — развеять мифы, которые вы слышали о декораторах, и показать вам другие их стороны, о которых вы и не подозревали.

Читать далее
Total votes 42: ↑41 and ↓1+49
Comments12

Полное руководство по модулю asyncio в Python. Часть 6

Reading time18 min
Views19K

Привет, Хабр! Перед вами шестая часть (12345) перевода руководства по модулю asyncio в Python. Здесь представлены 14-16 разделы исходного материала.

Читать далее
Total votes 19: ↑19 and ↓0+19
Comments1
1
23 ...

Information

Rating
Does not participate
Location
Palo Alto, California, США
Date of birth
Registered
Activity