Articles / Bookmarks / Profile of serebryakovsergey / Habr

How to become an author

Sergey Serebryakov @serebryakovsergey

Research Engineer

Profile Publications Comments 34Bookmarks 735

NewTechAudit Jul 13 2023 at 09:41

Контроль за дрейфами предсказательных моделей и Popmon

Easy

8 min

8K

Python*Machine learning*

Tutorial

✏️ Technotext 2023

Привет, Хабр!

На связи участник профессионального сообщества NTA Иван Попов.

В сфере бизнеса зачастую используются модели машинного обучения для прогнозирования различных показателей, однако их предсказательная сила может снижаться с течением времени. В данном посте расскажу, что такое дрейф моделей, почему важно следить за ними, и как это можно сделать с помощью библиотеки Popmon.

Как держать дрейф модели под контролем?

0

svtDanny Aug 26 2023 at 11:43

Почему ONNX так популярен в ML: конвертации, утилиты и инференс

Medium

5 min

6.1K

High performance*Open source*IT Infrastructure*Machine learning*Artificial Intelligence

Review

Большинство инженеров, работающих с машинным обучением, уже знакомы с форматом данных ONNX. Его часто используют для хранения обученных моделей и конвертации их мeжду фреймворками.

В этой статье расскажу об ONNX и о том, почему этот формат данных широко используется. Посмотрим на особенности формата и конвертации в него и на экосистему полезных инструментов.

Читать далее

+9

ptr128 Aug 26 2023 at 16:00

Как обучить миллионы моделей прогнозирования временными сериями

Easy

5 min

3.3K

PostgreSQL*SQL*R*Machine learning*

Opinion

Не буду вдаваться в подробности о том, откуда берутся миллионы временных серий и почему они умудряются изменяться еженедельно. Просто возникла задача еженедельно сделать прогноз на 2-8 недель по паре миллионов временных серий. Причем не просто прогноз, а с кроссвалидацией и выбором наиболее оптимальной модели (ARIMA, нейронная сеть, и т.п.).

Имеется свыше терабайта исходных данных и достаточно сложные алгоритмы трансформации и чистки данных. Чтобы не гонять большие массивы данных по сети решено было реализовать прототип на одном сервере.

Читать далее

+3

murat_apishev May 4 2023 at 15:11

Зоопарк трансформеров: большой обзор моделей от BERT до Alpaca

Hard

59 min

17K

Machine learning*Just AI corporate blogArtificial IntelligenceNatural Language Processing*

Review

Авторский обзор 90+ нейросетевых моделей на основе Transformer для тех, кто не успевает читать статьи, но хочет быть в курсе ситуации и понимать технические детали идущей революции ИИ.

Читать далее

+28

Magvai69 Apr 13 2023 at 12:24

Мимо тёщиного дома я без метрик не хожу (обзор и видео доклада)

Hard

15 min

8.9K

System administration*Конференции Олега Бунина (Онтико) corporate blogDevOps*Флант corporate blogKubernetes*

В этом докладе я расскажу о мониторинге: о том, как собрать множество метрик из разных мест в одном, как разруливать права для разных частей этих метрик и как хранить большие объемы данных. Еще поговорим о выборе системы мониторинга на примере небольшого сериала о вымышленной компании, система мониторинга которой эволюционирует вместе с ростом инфраструктуры.

Читать далее

+42

EVRAZ Apr 5 2023 at 14:12

И конфеты за меня есть будете? AutoML в помощь Citizen Data Scientist’у

Easy

12 min

7.2K

Industrial Programming*Machine learning*ЕВРАЗ corporate blog

Case

В прошлых статьях мы много рассказывали о том, как Data Science помогает металлургу, что такое Self-Service Analytics и как простой технолог может командовать моделями машинного обучения. В этом посте хочется раскрыть больше технических деталей по последнему пункту.

Хардкорный дата-сайентист может собрать нейросеть даже из спичечных коробков. Однако CDS — это про решение производственных задач малой кровью и в разумные сроки. И для таких решений необходим соответствующий инструментарий.

Привет, на связи снова Андрей Косинцев из ЕВРАЗа, и под катом вы узнаете, как самообучаются ML-модели и самоверстается фронтенд.

Читать далее

+11

JetHabr Apr 5 2023 at 15:01

Исторический момент: ChatGPT обрёл «суперсилу Wolfram»

Medium

18 min

31K

Search engines*Инфосистемы Джет corporate blogMachine learning*Artificial IntelligenceVoice user interfaces*

Review

Translation

Четвёртая версия ChatGPT одних заставила пищать от восторга, а других повергла в уныние. Кто-то уже нашёл этой системе множество творческих применений, а кто-то пророчит, что эта нейросеть лишит работы кучу людей. Теперь возможности ChatGPT стали ещё шире: систему интегрировали с Wolfram | Alpha, легендарным движком для вычисления ответов в самых разных областях знания. Мы перевели для вас огромную подробную статью об этом от одного из разработчиков Wolfram | Alpha.

Читать далее

+52

Albert_Wesker Apr 5 2023 at 17:01

Стриминговая аналитика с применением Apache Pulsar и структурированные потоки Spark

Hard

17 min

1.6K

System administration*Programming*IT Infrastructure*Timeweb Cloud corporate blogApache*

Review

Translation

Эта статья написана в соавторстве Даниэлем и Джианнисом Полизосом, который ещё в 2017 году был одним из первых студентов Rock the JVM. Сейчас Джианнис – старший разработчик и контрибьютор Apache Pulsar, многообещающего нового инструментария для передачи распределённых сообщений и потоковых данных. В этой статье сочетаются два наших любимых технических инструмента: Apache Pulsar и Apache Spark.

Потоковая обработка – важный и необходимый аспект современных инфраструктур данных. Сегодня компании стремятся поставить себе на службу потоковую передачу и аналитику данных в реальном времени, чтобы быстрее предоставлять пользователям результаты, повышать удобство работы с ресурсом и, соответственно, поднимать его бизнес-ценность.

Примеров такого рода сколько угодно: представьте себе онлайн-сервис, предоставляющий пользователю рекомендации на основе того, какие действия пользователь совершает на веб-странице. Ещё можно представить IoT-компанию, желающую отслеживать показания сенсоров и своевременно реагировать на потенциальные сбои. К этой же категории относятся системы компьютерного зрения, которые должны в режиме реального времени анализировать видеозаписи или обнаруживать случаи мошенничества в банковских системах; этот список можно продолжать и продолжать.

Как правило, в конвейерах для потоковой обработки данных требуется уровень хранения потоков, например, Apache Pulsar или Apache Kafka. Далее для выполнения более тонких задач по обработке потоков нам потребуется движок потоковых вычислений, например, Apache Flink или Spark Structured Streaming.

Когда требуется обеспечить унифицированную пакетную обработку и работу с потоками в системах, развёрнутых в облаке, Apache Pulsar отлично подходит для полной технической поддержки таких вычислительных движков. Apache Pulsar предназначен для работы с облачной (cloud-native) инфраструктурой, а также сделан в расчёте на стратегии унифицированной пакетной обработки данных и работу с потоками.

Читать дальше →

+16

Jaive Feb 6 2023 at 21:29

Собеседования в FAANG like компании или почему мы не умеем оценивать кандидатов

3 min

7.6K

IT careerIT-companies

В этой статье я хочу поговорить об этапах отбора в FAANG (он же MAANG) компании. Сразу оговорюсь, что к таким компаниям я отнесу не только компании, которые входят в аббревиатуру, но и все компании, которые проводят собеседования по такой же системе.

И так, как выглядит типичное собеседование в такие компании (в зависимости от компании/позиции набор секций может отличаться, я опишу наиболее часто встречающиеся). Первое, что происходит везде - созвон с рекрутером. Тут в целом все стандартно, задаете друг другу пару вопросов и дальше рекрутер минут 10 дает описание проектам, которое улетает у тебя из головы сразу как только ты покинешь звонок. Вторым этапом идет технический скрининг, который может провести рекрутер, тогда это будет сделано в пункте 1, либо отдельным звонком технический специалист. Дальше начинается самое интересное: общение по твоему языку и стеку, алгоритмическая секция, сис дизайн, behavioral (она же поведенческая) секция. На этих этапах остановимся поподробнее.

Вы только вдумайтесь, чтобы с нуля подготовиться к собеседованию (с нуля, это не значит, что ты решил "вайти в айти", а хочешь пройти собеседование в FAANG like компанию первый раз, либо после долгого перерыва) приходится как минимум год решать алгоритмические задачки с LeetCode, HackerRank или любого другого аналога. Это напоминает мне подготовку к экзамену. Просто подумайте, что успешное прохождение этой секции может сказать о кандидате? По мне так то, что он успешно может решать задачки с LeetCode, так что если для позиции важен такой навык, то это безусловно плюс.

Читать далее

+15

Shyhartskoi Feb 1 2023 at 17:01

Kubeflow: учимся устанавливать и запускать Kubeflow на локальной машине

6 min

3.4K

Timeweb Cloud corporate blogDevelopment for MacOS*Machine learning*Kubernetes*

Tutorial

Translation

Пошаговое руководство по установке и конфигурированию всех компонентов kubeflow на локальной машине.

Рис. 1. Взаимодействие Kubeflow и Kubernetes | рисунок автора |иконки от Eucalyp

Kubeflow [1] – это созданная Google опенсорсная платформа, на которой разворачивается весь жизненный цикл разрабатываемой модели машинного обучения. Kubeflow представляет собой инструментарий, каждый компонент которого применяется для отработки каждой из стадий жизненного цикла при машинном обучении, а именно: исследования данных, конструирования признаков, преобразования признаков, обучения модели, оценки модели, тонкой настройки модели, предоставления модели и версионирования модели. Главный атрибут kubeflow заключается в том, что он предназначен для работы на базе kubernetes [2]. Таким образом, kubeflow пользуется именно теми преимуществами, которые предоставляет кластер kubernetes, в частности, оркестрацией контейнеров и автомасштабированием.

Читать дальше →

+13

fnow Jan 30 2023 at 13:30

Почему повышение точности прогноза не гарантирует повышение прибыли. Часть 1

4 min

2.1K

ERP-systems*Product Management*Sales management*

Review

Вашу компанию легко ввести в заблуждение, если вы думаете, что увеличение прибыли - это всегда повышенные показатели точности прогноза. В российской практике оценка точности прогноза - один из ключевых показателей, на который ориентируются компании. Однако по нашему опыту он переоценен и часто вводит компании в заблуждение относительно его влияния на конечную прибыль. В статье последовательно рассмотрим 5 основных проблем, с которыми сопряжено использование данного показателя. Также предложим варианты их решения.

Читать далее

+4

kucev Jan 30 2023 at 14:16

Сравнение систем Machine Learning as a Service: Amazon, Microsoft Azure, Google Cloud AI, IBM Watson

26 min

4.5K

Data Mining*Image processing*Big Data*Machine learning*Artificial Intelligence

Translation

Большинству компаний машинное обучение кажется чем-то сверхсложным, дорогим и требующим серьёзных специалистов. И если вы намереваетесь создавать новую систему рекомендаций Netflix, то так и есть. Однако тенденция превращения всего в сервис затронула и эту сложную сферу. Начать с нуля проект ML можно без особых инвестиций, и это будет правильным решением, если ваша компания новичок в data science и хочет начать с решения самых простых задач.

Одна из самых вдохновляющих историй об ML — это рассказ о японском фермере, решившем автоматически сортировать огурцы, чтобы помочь своим родителям в этой утомительной работе. В отличие от крупных корпораций, этот парень не имел ни опыта в машинном обучении, ни большого бюджета. Однако ему удалось освоить TensorFlow и применить глубокое обучение для распознавания разных классов огурцов.

Благодаря облачным сервисам машинного обучения вы можете начать создавать свои первые рабочие модели, делая ценные выводы из прогнозов даже при наличии небольшой команды. Мы уже говорили о стратегии машинного обучения. Теперь давайте рассмотрим лучшие на рынке платформы машинного обучения и поговорим об инфраструктурных решениях, которые нужно принять.

Читать дальше →

+2

Anna_sokol22 Jan 30 2023 at 14:56

Для чего нужен Observability Engineering

10 min

9.7K

IT Infrastructure*Слёрм corporate blogIT careerDevOps*

Translation

Замечали, как часто в ИТ-отрасли появляется модное словечко, и тут же все начинают вставлять его в описание своих продуктов, чтобы привлечь побольше внимания?

Сейчас у нас в тренде observability (наблюдаемость), и многие вендоры уже берут его на вооружение.

Что такое observability? Просто навороченная версия мониторинга? Быстрее, выше, сильнее, настоящий Чак Норрис среди DevOps-инструментов! Так и хочется прикупить себе наблюдаемости, правда?

Давайте не будем поддаваться всеобщему ажиотажу и попробуем разобраться, что это такое и откуда вся шумиха.

Читать далее

+9

Firemoon Jan 24 2023 at 16:10

SD – это Linux, а Midjourney – Mac: краткое полное руководство по Stable Diffusion

13 min

74K

IT Infrastructure*Selectel corporate blogMachine learning*Artificial IntelligenceIT-companies

Tutorial

Вот таких тирекс-тянок выдает нейросеть

Текст про Midjourney привлек внимание, и в комментариях наметилась дискуссия про Stable Diffusion. Аргументы убедили меня попробовать SD самостоятельно, но вскоре я понял, что это не самая простая задача. Сообщество любителей Stable Diffusion произвело на свет множество удобных инструментов, которые своим количеством и сложностью могут отпугнуть новичков.

Всю неделю, что я экспериментировал с нейросетью, я боролся с желанием SD добавлять вторичные гендерные признаки по моим запросам и грустил, смотря на результаты генерации котиков. О своих страданиях частично писал в личном Telegram-канале — подписывайтесь! В этом же тексте — собрал основные советы по работе со Stable Diffusion и подвел итог, сравнив эту нейросеть с Midjourney.

Читать дальше →

+104

CyberMock Jan 23 2023 at 12:27

Obsidian + Dataview: Задачи

Medium

5 min

20K

Data storage*Project management*GTD*SoftwareLifehacks for geeks

Tutorial

В прошлой статье Obsidian + Dataview: Таблицы я рассказал про установку плагина Dataview, формирование таблиц с его помощью и разобрал 4 кейса его использования.

Dataview - это очень мощный и функциональный плагин, с помощью которого кроме таблиц можно так же формировать списки, календари и задачи.

Сегодня хотелось бы остановиться на задачах, тем более что Dataview позволяет сделать из Обсидиана полноценный task/todo-менеджер с календарём и прочими приятностями.

Читать далее

+9

mr-pickles Jan 23 2023 at 12:31

Полное руководство по модулю asyncio в Python. Часть 7

21 min

11K

Python*Programming*Wunder Fund corporate blog

Tutorial

Translation

Публикуем седьмую часть (1, 2, 3, 4, 5, 6) перевода руководства по модулю asyncio в Python. Здесь представлены разделы исходного материала с 17 по 19.

Читать далее

+17

MaxRokatansky Jan 23 2023 at 19:16

Машинное обучение с помощью Streamlit с использованием набора данных от Титаника

5 min

1.5K

Machine learning*OTUS corporate blog

В этой статье я рассказываю об использовании машинного обучения в Streamlit и о том, как оно может помочь бизнес-пользователям лучше понять, как работает наука о данных. Мы собираемся посмотреть, сможем ли мы использовать модель на практике, чтобы пользователи могли протестировать и проверить, выжил бы кто-то на Титанике с определенными характеристиками.

Здесь мы собираемся объединить мощь Streamlit с процессом машинного обучения.

Читать далее

+5

Efaldgent Jan 19 2023 at 14:00

Интерпретируемость ML-моделей: от инструментов до потребностей пользователя

7 min

3.9K

Big Data*Machine learning*Open Data Science corporate blogArtificial Intelligence

Интерпретируемость ML-моделей - очень широкая концепция. То, насколько интерпретация хороша, зависит не только от инструментов и отчетов, которые мы предоставляем пользователю, но и от потребностей пользователя и особенностей задач, которые он решает.

В статье разберемся, как эффективно работать с интерпретируемостью ML-моделей в зависимости от потребностей ключевых пользователей.

Читать далее

+22

svfat Jan 16 2023 at 13:02

Декораторы, о которых вам не расскажут

11 min

30K

Python*Designing and refactoring*

Tutorial

Translation

От переводчика: мне понравился подход к объяснению декораторов, описанный в этой статье, а так как других вариантов перевода я не нашёл, я решил поделиться этим с аудиторией Хабра. Надеюсь что этот текст будет полезен как новичкам, так и опытным программистам.

Если вы программируете на языке Python, вы должны были слышать о декораторах, однако существует много людей, которые либо не знакомы с ними, либо, что еще хуже, знакомы с ними (использовали так или иначе), но так и не поняли их суть.

Цель этого краткого руководства — развеять мифы, которые вы слышали о декораторах, и показать вам другие их стороны, о которых вы и не подозревали.

Читать далее

+49

mr-pickles Jan 16 2023 at 13:05

Полное руководство по модулю asyncio в Python. Часть 6

18 min

15K

Python*Programming*Wunder Fund corporate blog

Tutorial

Translation

Привет, Хабр! Перед вами шестая часть (1, 2, 3, 4, 5) перевода руководства по модулю asyncio в Python. Здесь представлены 14-16 разделы исходного материала.

Читать далее

+19

1

2 3 ...