Статьи / Закладки / Профиль snackTate / Хабр

Как стать автором

Глеб @snackTate

Пользователь

Профиль Публикации Комментарии 3Закладки 212

io_io 18 авг 2015 в 15:08

Как легко понять логистическую регрессию

5 мин

212K

Блог компании .ioBig Data*Анализ и проектирование систем*Машинное обучение*

Туториал

Перевод

Логистическая регрессия является одним из статистических методов классификации с использованием линейного дискриминанта Фишера. Также она входит в топ часто используемых алгоритмов в науке о данных. В этой статье суть логистической регрессии описана так, что она станет понятна даже людям не очень близким к статистике.

Читать дальше →

+13

dimkablin 19 апр в 02:19

Как аппроксимировать любую функцию с помощью PyTorch

Простой

6 мин

7.2K

Python*Программирование*Машинное обучение*

Туториал

При анализе данных и построении моделей машинного обучения часто возникает необходимость аппроксимировать сложные функции. PyTorch предоставляет удобные инструменты для создания и обучения нейронных сетей, которые могут быть эффективно использованы для этой цели. В этом посте мы рассмотрим простой пример аппроксимации функции с использованием PyTorch.

Читать далее

+4

AntonSoroka 18 апр в 14:20

Автоматически выделяем кусочно-линейные тренды временного ряда

Средний

7 мин

5.7K

Статистика в ITOpen source*Математика*Машинное обучение*Python*

Из песочницы

Меня зовут Антон Сорока, я математик и аналитик данных.

Я хотел бы рассказать об алгоритме, который выделяет кусочно-линейный тренд из временного ряда и сам определяет точки изменения тренда. Другими словами, это алгоритм для автоматического кусочно-линейного приближения любой функции. Это может понадобиться, если вам важно анализировать линейные тренды ряда, но единственная линия явно недостаточно точно описывает ряд, и самостоятельно искать точки, где тренд менялся, неудобно. Реализация этого алгоритма есть в open-source библиотеке для анализа изменений временных рядов, написанной на Python.

Читать далее

+9

Ilyichev 17 апр в 14:15

Predictive Analytics — все, что нужно знать (обзор ключевых моментов)

Средний

10 мин

7.4K

Из песочницы

Predictive Analytics — или по-русски плановая или прогнозная аналитика, в основе которой лежит ответ на вопрос: «Что может произойти?»

Читать далее

+5

stranger777 12 авг 2021 в 17:46

Как выглядит эффект бэггинга на смещение и дисперсию

12 мин

4.1K

Блог компании SkillfactoryPython*Математика*Визуализация данных*Научно-популярное

Перевод

Часто суть статей о бэггинге сводится к тому, что вы обучаете множество деревьев решений на различных частях данных и усредняете прогнозы, чтобы получить окончательный прогноз, который улучшается из-за того, что дисперсия случайного леса меньше дисперсии одного дерева решений. Тексты с таким заключением содержат отличные демонстрации, код и много других мыслей. Но криптоаналитику и дата-сайентисту, доктору Роберту Кюблеру, переводом статьи которого мы делимся сегодня, часто не хватает хороших выкладок о причине, почему бэггинг — хорошая идея, а ещё не хватает демонстраций уменьшения дисперсии на реальных данных. Восполняем этот пробел к старту нашего флагманского курса по Data Science.

Читать далее

+9

The-Founder-1 14 апр в 16:15

Оптимизация гиперпараметров за 5 секунд?

Средний

12 мин

6K

Python*Машинное обучение*Искусственный интеллектTensorFlow*

Обзор

Пока люди с самыми малыми вычислительными машинами в пустую тратят время на перебор гиперпараметров внутри библиотеки Scikit-learn – настоящие гении тайм-менеджмента выбирают TPE и Optuna.

В этой статье мы рассмотрим самые популярные методы оптимизации Grid.Search и Random.Search, принципы Байесовской/вероятностной оптимизации, а также TPE в Optuna. В конце прописали небольшой словарик с функциями, атрибутами и объектами фреймворка, а также привели наглядный пример использования.

Читать далее

+4

nrsharip 11 апр в 16:06

Индуктивная статистика: доверительные интервалы, предельные ошибки, размер выборки и проверка гипотез

Средний

15 мин

11K

Python*Алгоритмы*Математика*Статистика в ITИнфографика

Одной из самых распространённых задач аналитики является формирование суждений о большой совокупности (например, о миллионах пользователей приложения), опираясь на данные лишь небольшой части этой совокупности - выборке. Можно ли сделать вывод о миллионной аудитории крупного мобильного приложения, собрав данные 100 пользователей? Или стоит собрать данные о 1000 пользователях? Какую вероятность ошибиться при анализе мы можем допустить: 5% или 1%? Относятся ли две выборки к одной совокупности, или между ними есть ощутимая значимая разница и они относятся к разным совокупностям? Точность прогноза и вероятность ошибки при ответе на эти и другие вопросы поддаются вполне конкретным расчётам и могут корректироваться в зависимости от потребностей продукта и бизнеса на этапе планирования и подготовки эксперимента. Рассмотрим подробнее, как параметры эксперимента и статистические критерии оказывают влияние на результаты анализа и выводы обо всей совокупности, а для этого смоделируем тысячу A/A, A/B и A/B/C/D тестов.

Читать далее

+25

NechkaP 6 апр в 15:42

Pandas: от хаоса к красоте кода

Простой

9 мин

15K

Python*Программирование*Визуализация данных*

Туториал

Перевод

Работа с pandas.DataFrame может превратиться в неловкую кучу старого (не очень) доброго спагетти-кода. Я и мои коллеги часто используем эту библиотеку, и хотя мы стараемся придерживаться хороших практик программирования, иногда мы все равно мешаем друг другу, создавая запутанный код.

Я собрала несколько советов и подводных камней, которых следует избегать, чтобы сделать код на pandas чистым. Надеюсь, вам они тоже будут полезны. Также я буду ссылаться на классическую книгу Роберта Мартина «Чистый код: создание, анализ и рефакторинг».

Погнали!

+7

daniil_dzheparov 8 апр в 16:30

Анализ навыков data-специализаций в вакансиях HH.ru

Простой

4 мин

5.9K

SQL*Data Engineering*

Аналитика

Всем привет!

--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Читать далее

+6

alexrzntsv 3 апр в 10:00

AutoML на практике — как делать автоматизацию, а не её иллюзию

Средний

15 мин

12K

Блог компании Альфа-БанкПрограммирование*Big Data*Машинное обучение*

Кейс

Привет, Хабр! Меня зовут Алексей Рязанцев, я Junior Data Scientist в Лаборатории Машинного обучения Альфа-Банка. Свой путь в Лаборатории я начал со стажировки летом-осенью 2023-го года, на которой для меня была интересная задача — разработать с нуля собственный AutoML в Альфа-Банке.

Когда количество ML-моделей в компании исчисляется сотнями, процессы десятками, а фичи тысячами, вопрос «а нужен ли нам AutoML?» уже не стоит. Стоит другой вопрос - как сделать AutoML так, чтобы он был действительно полезен и им реально хотелось пользоваться?

В этом посте я подробно освещу путь создания нашего AutoML-сервиса: расскажу обо всех препятствиях, которые мы преодолели, и поделюсь инсайтами, полученными в ходе работы. Вместе мы пройдем полный путь практического AutoML - начиная от его первоначальной идеи и мотивации, и заканчивая текущими успехами и планами на будущее.

Читать далее

+32

Morlena106 2 апр в 10:09

Идеальное резюме, разговор с IT-рекрутером

Простой

14 мин

15K

Учебный процесс в ITКарьера в IT-индустрии

Мнение

Очередная статья в помощь начинающим разработчикам. На этот раз я писала статью совместно с Анной Ветровой (на данный момент она IT Recruitment Team Lead в международном кадровом агентстве), изначально я нашла ее для написания поста о идеальном резюме в свой канал, но мы на столько увлеклись разговором и собрали такое количество материала, что хватило на целую статью (а то и книгу) и целых две недели только ушло на ее редактирование. Статья вышла в виде диалога, который у нас получился, будет полезна как начинающим, так и опытным разработчикам.

Читать далее

+4

ilyalisov 1 апр в 00:34

Docker для новичков — #1 Что такое контейнер, image, DockerHub?

Простой

7 мин

21K

Туториал

В этой статье я расскажу о том, что такое Docker, Docker Desktop и как этим пользоваться! Два способа создания image, значения вкладок Docker Desktop

Читать далее

+16

badcasedaily1 1 апр в 07:34

Кратко про алгоритм обучения Q-learning и как он реализуется в Python для новичков

Простой

5 мин

5.8K

Блог компании OTUSМашинное обучение*

Обзор

Привет, Хабр!

Q-learning — это алгоритм обучения с подкреплением, который позволяет агенту оптимизировать свою стратегию действий в динамичной среде, стремясь максимизировать сумму будущих наград. Агент исследует среду, принимая решения, основанные на предыдущем опыте, а не на предварительной модели мира.

В этой статье мы и рассмотрим этот алгоритм.

Читать далее

+6

egaoharu_kensei 30 мар в 22:20

Линейная регрессия. Основная идея, модификации и реализация с нуля на Python

Сложный

16 мин

23K

Python*Data Mining*Алгоритмы*Машинное обучение*Искусственный интеллект

Туториал

В машинном и глубоком обучении линейная регрессия занимает особое место, являясь не просто статистическим инструментом, но а также фундаментальным компонентом для многих более сложных концепций. В данной статье рассмотрен не только принцип работы линейной регрессии с реализацией с нуля на Python, но а также описаны её модификации и проведён небольшой сравнительный анализ основных методов регуляризации. Помимо этого, в конце указаны дополнительные источники для более глубокого ознакомления.

Читать далее

+16

badcasedaily1 27 мар в 20:45

Это мы юзаем: библиотека Optuna в Python для оптимизации гиперпараметров

Средний

7 мин

8K

Блог компании OTUSPython*Анализ и проектирование систем*Серверная оптимизация*Машинное обучение*

Обзор

Привет, Хабр!

Гиперпараметры — это параметры, которые не учатся в процессе обучения модели. Они задаются заранее. От выбора гиперпараметров напрямую зависит качество и эффективность модели, а их оптимизация может улучшить результаты предсказаний.

Традиционный подход к оптимизации гиперпараметров включает в себя grid search и random search, иногда они могут быть неэффективными и времязатратными, особенно когда пространство гиперпараметров велико.

Когда я впервые столкнулся с необходимостью настроить сотни параметров в своей нейросети, задача показалась мне Сизифовым трудом. Каждый параметр мог значительно изменить результат, и пространство поиска казалось бесконечным. И немного просидев на стековерфлой я нашел либу Optuna, которая позоволила оптимизировать этот процесс.

Optuna решает проблему оптимизации гиперпараметров, предоставляя легковесный фреймворк для автоматизации поиска оптимальных гиперпараметров. Она использует алгоритмы, такие как TPE, CMA-ES, и даже поддерживает пользовательские алгоритмы.

Optuna полностью написана на Python и имеет мало зависимостей. В этой статье рассмотрим её основной функционал.

Читать далее

+19

sawabear_a 27 мар в 14:02

Управление цветами в Seaborn: как визуализировать данные красиво

Средний

20 мин

10K

Блог компании Lamoda TechPython*Визуализация данных*Презентации

Туториал

Привет, Хабр. В этой статье я расскажу про своё видение работы с цветом при визуализации графиков. Буду показывать все на примерах — уверен, они вам понравятся.

Я покажу не только картинки было-стало, но и приведу примеры кода, а также объясню логику принятия решений: как использовать ту или иную палитру в конкретной задаче. И что самое главное, дам пошаговые советы, как сделать график логичнее и понятнее для заказчиков.

Меня зовут Саша, сейчас я работаю в Lamoda Tech старшим бизнес/дата-аналитиком. До этого я несколько лет был специалистом по данным в другой компании и регулярно представлял совету директоров анализ и прогноз физических и бизнес-показателей. Умение донести результаты исследования до заказчика, особенно если он не погружен в работу с данными — это важный аспект моей профессии. Надеюсь, моя статья с этим немного поможет.

Читать далее

+25

cooper051 26 мар в 14:21

Домашняя виртуальная лаборатория. Готовим собственный сервер виртуализации для обучения. 2. Выбираем сервер

Простой

5 мин

14K

Блог компании TS SolutionСистемное администрирование*Виртуализация*

Обзор

В предыдущем уроке мы проговорили для чего может понадобиться домашняя лаборатория и самое главное — кому она нужна. Допустим вы решили, что вам она нужна. Тут же встанет вопрос: «На чем строить эту виртуальную лабораторию?». Вопрос не такой простой, как может показаться на первый взгляд. Как минимум здесь два важных пункта, которые очень тесно связаны друг с другом:

Читать далее

+11

slivka_83 25 мар в 09:00

Самый лучший в мире курс по Машинному обучению — Алгоритмы Машинного обучения с нуля

1 мин

25K

Машинное обучение*Искусственный интеллектPython*

Обзор

Краткий обзор курса, который я недавно закончил пилить на степике. Курс хардкорный :) В нем необходимо с нуля писать алгоритмы машинного. Наверное это один из лучший способов досконально разобраться в алгоритме.

Курс бесплатный: https://stepik.org/course/68260/promo

Читать далее

+31

egaoharu_kensei 24 мар в 14:43

Линейный дискриминантный анализ (LDA). Принцип работы и реализация с нуля на Python

Сложный

7 мин

8.7K

Python*Data Mining*Алгоритмы*Машинное обучение*Искусственный интеллект

Туториал

Линейный дискриминантный анализ (Linear Discriminant Analysis или LDA) — алгоритм классификации и понижения размерности, позволяющий производить разделение классов наилучшим образом. Основная идея LDA заключается в предположении о многомерном нормальном распределении признаков внутри классов и поиске их линейного преобразования, которое максимизирует межклассовую дисперсию и минимизирует внутриклассовую. Другими словами, объекты разных классов должны иметь нормальное распределение и располагаться как можно дальше друг от друга, а одного класса — как можно ближе.

Читать далее

+8

anton_shbk 20 мар в 20:05

Общее описание и реализация Word2Vec с помощью PyTorch

Средний

12 мин

6K

Python*Машинное обучение*Natural Language Processing*

Туториал

В данной статье даётся общее описание векторного представления вложений слов - модель word2vec. Также рассматривается пример реализации модели word2vec с использованием библиотеки PyTorch. Приведена реализация как архитектуры skip-gram так и CBOW.

Читать далее

+6

3

4 5 ...