Pull to refresh
3
0
Skillfactory School@skillfactory_school

Школа Computer Science

Send message

SSH для дата сайентиста: обзор для начинающих

Level of difficultyEasy
Reading time5 min
Reach and readers2.4K

SSH — один из самых важных инструментов в арсенале любого специалиста, работающего с данными. Как человек, который провел бесчисленные часы, подключаясь к удаленным серверам для обучения моделей, могу сказать: без SSH никуда.

Читать далее

Как построить хороший пайплайн разработки ML-модели

Level of difficultyEasy
Reading time14 min
Reach and readers3.9K

Получать предсказуемые результаты при обучении моделей, легко увеличивать объемы данных и адаптировать к процессам новых членов команды — для этого нужны четкая структура, последовательность действий и набор инструментов. То есть, хороший пайплайн разработки. Разбираемся, из чего он состоит и как его построить.

Читать далее

Apache Flink для начинающих: архитектура, библиотеки и применение

Level of difficultyEasy
Reading time12 min
Reach and readers3.3K

Apache Flink — это фреймворк и распределенный движок обработки данных, поддерживающий какпакетную (ограниченную), так и потоковую (неограниченную)обработку данных. Это значит, что с его помощью можно обрабатывать как статичные (неизменяемые) данные, так и данные, поступающие в реальном времени.

Читать далее

Потоковая обработка данных с Kafka Streams: что это и как использовать

Level of difficultyEasy
Reading time11 min
Reach and readers2.2K

Apache Kafka — это распределенная платформа, которая передает и обрабатывает данные в режиме реального времени. Ее используют для логирования, передачи событий, потоковой аналитики и интеграции микросервисов.

Для работы с данными внутри Kafka есть Kafka Streams — библиотека, которая помогает строить потоковые приложения. С ее помощью можно обрабатывать события в реальном времени, например, выполнять ETL-процессы без использования внешних систем.

В статье рассказываем, как устроен Kafka Streams, и разбираем практические примеры его применения. 

Читать далее

Что такое MLFlow и как он помогает в разработке моделей

Level of difficultyEasy
Reading time8 min
Reach and readers1.5K

Многие начинающие в ML наверняка сталкивались с ситуацией: вы пробуете разные модели, меняете параметры, запускаете обучение снова и снова… и через пару дней уже не можете вспомнить, какой именно набор параметров дал тот самый лучший результат. Или, что еще хуже, вы получили отличную модель на своем ноутбуке, а у коллеги на его машине она не воспроизводится. На помощь придет MLflow.

Читать далее

Apache NiFi для новичков: обзор функций, принцип работы, полезные ссылки

Level of difficultyEasy
Reading time9 min
Reach and readers1.8K

Вместе с экспертом по работе с данными рассказываем об удобном инструменте, который помогает управлять данными и организовывать их взаимодействие между собой. 

Читать далее

Apache Zookeeper: гид для начинающих

Level of difficultyEasy
Reading time6 min
Reach and readers7K

Разбираемся, что это за инструмент, какие у него есть плюсы, минусы и аналоги.

Apache ZooKeeper — это сервис, который помогает разным частям распределенной системы (серверам, приложениям, процессам) работать согласованно.

Читать далее

Как написать приложение на JavaFX: гид для начинающих

Reading time11 min
Reach and readers7.4K

JavaFX — это мощный инструмент для создания кроссплатформенных графических интерфейсов на Java. В этой статье разберём, как разработать простое приложение на JavaFX с использованием визуального редактора в двух популярных средах разработки. Также рассмотрим альтернативный подход — создание интерфейса вручную, без визуального редактора.

Читать далее

Optuna: находим лучшие настройки для моделей без головной боли

Level of difficultyEasy
Reading time9 min
Reach and readers1.9K

Если вы уже пробовали обучать модели, то знаете: выбрал не тот гиперпараметр — получил плохой результат. А перебирать их вручную или даже с помощью GridSearchCV из scikit-learn — долго, муторно и не всегда эффективно. Поэтому сегодня поговорим о том, как заставить компьютер делать эту скучную работу за нас. 

В этом поможет Optuna — библиотека для автоматической оптимизации гиперпараметров. Она умнее простого перебора и часто находит отличные комбинации параметров гораздо быстрее.

Читать далее

Параллельные вычисления, конкурентность и асинхронное программирование в Python: обзор для начинающих

Level of difficultyEasy
Reading time12 min
Reach and readers10K

Однопоточные приложения на Python ограничены в производительности: они выполняют задачи последовательно и не используют преимущества многоядерных процессоров. Кроме того, такие программы не справляются с обработкой множества операций одновременно, особенно если речь идет о задачах, связанных с вводом-выводом, например сетевыми запросами или чтением файлов.

Производительность можно значительно улучшить, внедрив в код параллельные вычисления, конкурентность или асинхронное программирование. Для этого Python предлагает такие инструменты, как multiprocessing, threading и asyncio.

Читать далее

Как создать первую модель машинного обучения на Python: гид для начинающих

Level of difficultyEasy
Reading time6 min
Reach and readers8.6K

Инструкция для новичков в Machine Learning с примерами кода и популярными библиотеками

Умение создать собственную модель машинного обучения — это обязательно для дата-сайентистов и хороший дополнительный навык для программистов. Разбираемся на практике, как это сделать. 

Читать далее

Как SonarQube помогает автоматизировать код-ревью: гид для начинающих

Level of difficultyEasy
Reading time10 min
Reach and readers9.9K

SonarQube — это инструмент анализа качества кода, написанный на Java. Он выявляет баги, уязвимости, дублирование кода и «запахи кода» (code smells).

SonarQube используют в CI/CD (Continuous Integration, Continuous Delivery — непрерывная интеграция и доставка) для автоматической проверки и улучшения качества кода.

Читать далее

Синтетические данные в 2025: волшебная таблетка для нейросетей или темная лошадка?

Level of difficultyEasy
Reading time9 min
Reach and readers1.1K

Мир генерирует данные быстрее, чем когда-либо: умные часы, онлайн-покупки, медицинские датчики… Кажется, что данных просто море. Но вот парадокс: для обучения крутых нейросетей данных все равно не хватает. Особенно если вы хотите создать что-то новенькое — например, умного помощника для диагностики и лечения редких болезней или систему контроля качества на заводе, который выпускает уникальные детали. При этом нужно не забыть новые законы о приватности данных — как бы чего не нарушить, работая с личной информацией людей.

В этот момент на помощь приходят синтетические данные. Разбираемся, что это такое, чем они полезны и вредны. Также узнаем, какие технологии помогают их создавать, и заглянем в будущее этого направления.

Читать далее

AutoML: гид по автоматизации машинного обучения для начинающих

Level of difficultyEasy
Reading time8 min
Reach and readers3.6K

Каждый, кто пытался построить даже самую простую модель машинного обучения, знает, сколько всего нужно учесть: сбор данных, предобработка, выбор алгоритма, подбор гиперпараметров, оценка качества… Это большой объем рутинных задач, но есть и хорошие новости: их можно автоматизировать. На помощь придет AutoML.

В 2025 году AutoML уже не просто модное слово, а мощный инструмент, который меняет правила игры в Data Science. Разберемся, что это такое, каким бывает и как его использовать, чтобы стать еще круче в ML.

Читать далее

Федеративное обучение: учимся вместе, не раскрывая секретов

Level of difficultyEasy
Reading time6 min
Reach and readers2K

Как обучать ML-модели на большом объеме данных из разных источников, сохраняя их конфиденциальность? Ответ — федеративное машинное обучение (Federated Learning, или FL). Эксперт простыми словами на примерах рассказывает, что это такое, как работает и в каких областях применяется

Читать далее

Модели BERT для машинного обучения: гайд для начинающих

Level of difficultyEasy
Reading time9 min
Reach and readers13K

BERT (Bidirectional Encoder Representations from Transformers) — это одна из ключевых моделей обработки естественного языка (NLP), построенная на архитектуре трансформера.

Читать далее

Анализ временных рядов: полное руководство для начинающих

Level of difficultyEasy
Reading time8 min
Reach and readers20K

Временной ряд — это последовательность значений, которые протекают и измеряются в определенном временном промежутке. К бытовым примерам временного ряда можно отнести метеорологические наблюдения или колебания цен на рынке. 

Аналитикам такие наборы данных позволяют выявлять закономерности, прогнозировать будущее и предлагать бизнесу обоснованные решения. В этой статье разберемся, с чего начать осваивать анализ временных рядов, вместе с Team Lead Data Scientist в VK Максимом Кулаевым. 

Читать далее

Совершенный код: 10 книг по веб-разработке для начинающих

Level of difficultyEasy
Reading time5 min
Reach and readers10K

Книги — отличный способ узнать больше и начать изучать новую профессию. Составили подборку учебников по программированию, которые помогут познакомиться с веб-разработкой. 

Читать далее

Support Vector Machine: +1 алгоритм машинного обучения для начинающих

Level of difficultyEasy
Reading time5 min
Reach and readers4.2K

Метод опорных векторов — это алгоритм машинного обучения, применяемый для задач линейной и нелинейной классификации, регрессии и обнаружения аномальных данных. С его помощью можно классифицировать текст, изображения, обнаружить спам, идентифицировать почерк, анализировать экспрессии генов, распознавать лица, делать прогнозы и так далее. SVM адаптируется и эффективен в различных приложениях, поскольку может управлять многомерными данными и нелинейными отношениями.

Читать далее
1
23 ...

Information

Rating
Does not participate
Location
Россия
Registered
Activity