Articles / Profile of skillfactory_school / Habr

How to become an author

Skillfactory School @skillfactory_school

Школа Computer Science

ProfileArticles220PostsNews2Comments34

skillfactory_school Jun 30 at 12:49

SSH для дата сайентиста: обзор для начинающих

Easy

5 min

2.6K

Machine learning*

Review

SSH — один из самых важных инструментов в арсенале любого специалиста, работающего с данными. Как человек, который провел бесчисленные часы, подключаясь к удаленным серверам для обучения моделей, могу сказать: без SSH никуда.

Читать далее

-3

skillfactory_school Jun 19 at 15:46

Как построить хороший пайплайн разработки ML-модели

Easy

14 min

2.9K

Machine learning*

Review

Получать предсказуемые результаты при обучении моделей, легко увеличивать объемы данных и адаптировать к процессам новых членов команды — для этого нужны четкая структура, последовательность действий и набор инструментов. То есть, хороший пайплайн разработки. Разбираемся, из чего он состоит и как его построить.

Читать далее

+3

skillfactory_school Jun 2 at 08:39

Apache Flink для начинающих: архитектура, библиотеки и применение

Easy

12 min

2.4K

Apache*Big Data*Data Engineering*Machine learning*

Review

Apache Flink — это фреймворк и распределенный движок обработки данных, поддерживающий какпакетную (ограниченную), так и потоковую (неограниченную)обработку данных. Это значит, что с его помощью можно обрабатывать как статичные (неизменяемые) данные, так и данные, поступающие в реальном времени.

Читать далее

0

skillfactory_school May 28 at 13:22

Потоковая обработка данных с Kafka Streams: что это и как использовать

Easy

11 min

2.4K

Review

Apache Kafka — это распределенная платформа, которая передает и обрабатывает данные в режиме реального времени. Ее используют для логирования, передачи событий, потоковой аналитики и интеграции микросервисов.

Для работы с данными внутри Kafka есть Kafka Streams — библиотека, которая помогает строить потоковые приложения. С ее помощью можно обрабатывать события в реальном времени, например, выполнять ETL-процессы без использования внешних систем.

В статье рассказываем, как устроен Kafka Streams, и разбираем практические примеры его применения.

Читать далее

+1

skillfactory_school May 12 at 11:46

Что такое MLFlow и как он помогает в разработке моделей

Easy

8 min

1.7K

Review

Многие начинающие в ML наверняка сталкивались с ситуацией: вы пробуете разные модели, меняете параметры, запускаете обучение снова и снова… и через пару дней уже не можете вспомнить, какой именно набор параметров дал тот самый лучший результат. Или, что еще хуже, вы получили отличную модель на своем ноутбуке, а у коллеги на его машине она не воспроизводится. На помощь придет MLflow.

Читать далее

+3

skillfactory_school Apr 30 at 08:16

Apache NiFi для новичков: обзор функций, принцип работы, полезные ссылки

Easy

9 min

1.2K

Review

Вместе с экспертом по работе с данными рассказываем об удобном инструменте, который помогает управлять данными и организовывать их взаимодействие между собой.

Читать далее

0

skillfactory_school Apr 30 at 07:22

Apache Zookeeper: гид для начинающих

Easy

6 min

5.4K

Review

Разбираемся, что это за инструмент, какие у него есть плюсы, минусы и аналоги.

Apache ZooKeeper — это сервис, который помогает разным частям распределенной системы (серверам, приложениям, процессам) работать согласованно.

Читать далее

+1

skillfactory_school Apr 17 at 15:31

Как написать приложение на JavaFX: гид для начинающих

11 min

5.9K

Skillfactory corporate blogJava*

JavaFX — это мощный инструмент для создания кроссплатформенных графических интерфейсов на Java. В этой статье разберём, как разработать простое приложение на JavaFX с использованием визуального редактора в двух популярных средах разработки. Также рассмотрим альтернативный подход — создание интерфейса вручную, без визуального редактора.

Читать далее

+5

skillfactory_school Apr 15 at 13:13

Optuna: находим лучшие настройки для моделей без головной боли

Easy

9 min

1.1K

Skillfactory corporate blogBig Data*

Review

Если вы уже пробовали обучать модели, то знаете: выбрал не тот гиперпараметр — получил плохой результат. А перебирать их вручную или даже с помощью GridSearchCV из scikit-learn — долго, муторно и не всегда эффективно. Поэтому сегодня поговорим о том, как заставить компьютер делать эту скучную работу за нас.

В этом поможет Optuna — библиотека для автоматической оптимизации гиперпараметров. Она умнее простого перебора и часто находит отличные комбинации параметров гораздо быстрее.

Читать далее

+2

skillfactory_school Mar 31 at 14:18

Параллельные вычисления, конкурентность и асинхронное программирование в Python: обзор для начинающих

Easy

12 min

8.3K

Skillfactory corporate blogPython*

Review

Однопоточные приложения на Python ограничены в производительности: они выполняют задачи последовательно и не используют преимущества многоядерных процессоров. Кроме того, такие программы не справляются с обработкой множества операций одновременно, особенно если речь идет о задачах, связанных с вводом-выводом, например сетевыми запросами или чтением файлов.

Производительность можно значительно улучшить, внедрив в код параллельные вычисления, конкурентность или асинхронное программирование. Для этого Python предлагает такие инструменты, как multiprocessing, threading и asyncio.

Читать далее

+8

skillfactory_school Mar 26 at 13:41

Как создать первую модель машинного обучения на Python: гид для начинающих

Easy

6 min

9.4K

Skillfactory corporate blog

Review

Инструкция для новичков в Machine Learning с примерами кода и популярными библиотеками

Умение создать собственную модель машинного обучения — это обязательно для дата-сайентистов и хороший дополнительный навык для программистов. Разбираемся на практике, как это сделать.

Читать далее

+5

skillfactory_school Mar 13 at 09:32

Как SonarQube помогает автоматизировать код-ревью: гид для начинающих

Easy

10 min

5.4K

Skillfactory corporate blogPython*

Review

SonarQube — это инструмент анализа качества кода, написанный на Java. Он выявляет баги, уязвимости, дублирование кода и «запахи кода» (code smells).

SonarQube используют в CI/CD (Continuous Integration, Continuous Delivery — непрерывная интеграция и доставка) для автоматической проверки и улучшения качества кода.

Читать далее

+1

skillfactory_school Mar 4 at 16:28

Синтетические данные в 2025: волшебная таблетка для нейросетей или темная лошадка?

Easy

9 min

1.2K

Skillfactory corporate blogMachine learning*

Мир генерирует данные быстрее, чем когда-либо: умные часы, онлайн-покупки, медицинские датчики… Кажется, что данных просто море. Но вот парадокс: для обучения крутых нейросетей данных все равно не хватает. Особенно если вы хотите создать что-то новенькое — например, умного помощника для диагностики и лечения редких болезней или систему контроля качества на заводе, который выпускает уникальные детали. При этом нужно не забыть новые законы о приватности данных — как бы чего не нарушить, работая с личной информацией людей.

В этот момент на помощь приходят синтетические данные. Разбираемся, что это такое, чем они полезны и вредны. Также узнаем, какие технологии помогают их создавать, и заглянем в будущее этого направления.

Читать далее

-1

skillfactory_school Feb 28 at 12:31

AutoML: гид по автоматизации машинного обучения для начинающих

Easy

8 min

3.5K

Skillfactory corporate blogMachine learning*

Review

Каждый, кто пытался построить даже самую простую модель машинного обучения, знает, сколько всего нужно учесть: сбор данных, предобработка, выбор алгоритма, подбор гиперпараметров, оценка качества… Это большой объем рутинных задач, но есть и хорошие новости: их можно автоматизировать. На помощь придет AutoML.

В 2025 году AutoML уже не просто модное слово, а мощный инструмент, который меняет правила игры в Data Science. Разберемся, что это такое, каким бывает и как его использовать, чтобы стать еще круче в ML.

Читать далее

+2

skillfactory_school Feb 20 at 13:21

MapReduce: гид для начинающих

Easy

12 min

5.9K

Skillfactory corporate blogBig Data*

Review

Разберем роль модели MapReduce в составе Hadoop, а также расскажем, как использовать его отдельно и насколько это эффективно.

Читать далее

0

skillfactory_school Feb 7 at 11:42

Федеративное обучение: учимся вместе, не раскрывая секретов

Easy

6 min

1.7K

Skillfactory corporate blogBig Data*

Review

Как обучать ML-модели на большом объеме данных из разных источников, сохраняя их конфиденциальность? Ответ — федеративное машинное обучение (Federated Learning, или FL). Эксперт простыми словами на примерах рассказывает, что это такое, как работает и в каких областях применяется

Читать далее

+3

skillfactory_school Nov 28 2024 at 15:08

Модели BERT для машинного обучения: гайд для начинающих

Easy

9 min

12K

Skillfactory corporate blogBig Data*

Review

BERT (Bidirectional Encoder Representations from Transformers) — это одна из ключевых моделей обработки естественного языка (NLP), построенная на архитектуре трансформера.

Читать далее

+11

skillfactory_school Nov 22 2024 at 17:07

Анализ временных рядов: полное руководство для начинающих

Easy

8 min

20K

Skillfactory corporate blogBig Data*

Recovery Mode

Временной ряд — это последовательность значений, которые протекают и измеряются в определенном временном промежутке. К бытовым примерам временного ряда можно отнести метеорологические наблюдения или колебания цен на рынке.

Аналитикам такие наборы данных позволяют выявлять закономерности, прогнозировать будущее и предлагать бизнесу обоснованные решения. В этой статье разберемся, с чего начать осваивать анализ временных рядов, вместе с Team Lead Data Scientist в VK Максимом Кулаевым.

Читать далее

+4

skillfactory_school Nov 15 2024 at 14:58

Совершенный код: 10 книг по веб-разработке для начинающих

Easy

5 min

11K

Skillfactory corporate blogWebsite development*

Review

Книги — отличный способ узнать больше и начать изучать новую профессию. Составили подборку учебников по программированию, которые помогут познакомиться с веб-разработкой.

Читать далее

-2

skillfactory_school Nov 8 2024 at 15:43

Support Vector Machine: +1 алгоритм машинного обучения для начинающих

Easy

5 min

5.4K

Skillfactory corporate blogBig Data*Data Engineering*

Tutorial

Recovery Mode

Метод опорных векторов — это алгоритм машинного обучения, применяемый для задач линейной и нелинейной классификации, регрессии и обнаружения аномальных данных. С его помощью можно классифицировать текст, изображения, обнаружить спам, идентифицировать почерк, анализировать экспрессии генов, распознавать лица, делать прогнозы и так далее. SVM адаптируется и эффективен в различных приложениях, поскольку может управлять многомерными данными и нелинейными отношениями.

Читать далее

+5

1

2 3 ...