Статьи / Закладки / Профиль R0n1n

Вадим @R0n1n_i

ИИ энтузиаст и голодный до знаний студент.

Профиль Публикации 2Комментарии Закладки 260

Datactive 6 апр в 11:30

Анализ новостей с помощью сегментации и кластеризации временных рядов

10 мин

6.9K

Блог компании OTUSPython*Визуализация данных*Машинное обучение*

Из песочницы

В Отусе я прошла курс ML Advanced и открыла для себя интересные темы, связанные с анализом временных рядов, а именно, их сегментацию и кластеризацию. Я решила позаимствовать полученные знания для своей дипломной университетской работы по ивент-анализу социальных явлений и событий и описать часть этого исследования в данной статье.

Шаг 1. Сбор данных

В качестве источника данных я взяла информационно-новостной ресурс Лента.ру, так как с него легко парсить данные, новости разнообразны и пополняются в большом объеме ежедневно. Для теста я спарсила новости за последний год (март 2023 – март 2024) с помощью питоновских BeautifulSoup и requests.

В коде происходит процедура сбора заголовка, даты и тематики новостей:

+20

craxti 6 апр в 13:12

Микросервис на Python+ FastAPI

Простой

19 мин

22K

Python*

Туториал

Микросервис — это подход к разбиению большого монолитного приложения на отдельные приложения, специализирующиеся на конкретной услуге/функции. Этот подход часто называют сервис-ориентированной архитектурой или SOA.

В монолитной архитектуре каждая бизнес-логика находится в одном приложении. Службы приложений, такие как управление пользователями, аутентификация и другие функции, используют одну и ту же базу данных.

В микросервисной архитектуре приложение разбивается на несколько отдельных служб, которые выполняются в отдельных процессах. Существует другая база данных для разных функций приложения, и службы взаимодействуют друг с другом с использованием HTTP, AMQP или двоичного протокола, такого как TCP, в зависимости от характера каждой службы. Межсервисное взаимодействие также может осуществляться с использованием очередей сообщений, таких как RabbitMQ , Kafka или Redis .

+14

NechkaP 6 апр в 15:42

Pandas: от хаоса к красоте кода

Простой

9 мин

15K

Python*Программирование*Визуализация данных*

Туториал

Перевод

Работа с pandas.DataFrame может превратиться в неловкую кучу старого (не очень) доброго спагетти-кода. Я и мои коллеги часто используем эту библиотеку, и хотя мы стараемся придерживаться хороших практик программирования, иногда мы все равно мешаем друг другу, создавая запутанный код.

Я собрала несколько советов и подводных камней, которых следует избегать, чтобы сделать код на pandas чистым. Надеюсь, вам они тоже будут полезны. Также я буду ссылаться на классическую книгу Роберта Мартина «Чистый код: создание, анализ и рефакторинг».

Погнали!

SGarik 6 апр в 18:18

Автоматизированная торговля акциями с использованием глубокого обучения с подкреплением

Средний

7 мин

13K

Блог компании OTUSМашинное обучение*Финансы в IT

Туториал

В этой статье мы начинаем рассматривать практическое применение библиотеки FinRL для построения торгового агента. В предыдущей статье мы вкратце рассмотрели библиотеку FinRL, предоставляемые ей возможности моделирования рынка и обучения торговых агентов на основании алгоритмов обучения с подкреплением.

Это вторая статья нашего обучающего цикла и в ней мы построим примитивного агента, который анализирует поступающие данные о стоимости позиции на рынке и пытается предсказать будущую цену. Вполне очевидно, что результат такого примитивного агента будет весьма далек от приемлемого уровня, но этот шаг поможет нам создать модель рынка с помощью библиотеки FinRL, обучить агента и быть готовыми к построению более сложных и осмысленных моделей.

+17

Alex_Mer5er 7 апр в 19:44

Мега-Учебник Flask Глава 3: Веб-формы (издание 2024)

Средний

16 мин

12K

Flask*Python*Веб-разработка*

Туториал

Перевод

В главе 2 я создал простой шаблон для домашней страницы приложения и использовал поддельные объекты в качестве заполнителей для того, чего у меня еще нет, например, пользователей и записей в блоге. В этой главе я собираюсь устранить одно из многих недостатков, которые у меня все еще есть в этом приложении, в частности, как принимать входные данные от пользователей через веб-формы.

Начать изучение

timonin 7 апр в 23:24

Жажда «цифровой крови»: как Google, OpenAI и Meta переступают черту ради развития ИИ

Простой

13 мин

19K

Искусственный интеллектБудущее здесь

Технологические гиганты OpenAI, Google и Meta* в погоне за онлайн-данными для обучения своих новейших систем искусственного интеллекта готовы на всё: игнорировать корпоративные политики, менять собственные правила и даже обсуждать возможность обхода законов об авторском праве.

+20

alexrzntsv 3 апр в 10:00

AutoML на практике — как делать автоматизацию, а не её иллюзию

Средний

15 мин

12K

Блог компании Альфа-БанкПрограммирование*Big Data*Машинное обучение*

Кейс

Привет, Хабр! Меня зовут Алексей Рязанцев, я Junior Data Scientist в Лаборатории Машинного обучения Альфа-Банка. Свой путь в Лаборатории я начал со стажировки летом-осенью 2023-го года, на которой для меня была интересная задача — разработать с нуля собственный AutoML в Альфа-Банке.

Когда количество ML-моделей в компании исчисляется сотнями, процессы десятками, а фичи тысячами, вопрос «а нужен ли нам AutoML?» уже не стоит. Стоит другой вопрос - как сделать AutoML так, чтобы он был действительно полезен и им реально хотелось пользоваться?

В этом посте я подробно освещу путь создания нашего AutoML-сервиса: расскажу обо всех препятствиях, которые мы преодолели, и поделюсь инсайтами, полученными в ходе работы. Вместе мы пройдем полный путь практического AutoML - начиная от его первоначальной идеи и мотивации, и заканчивая текущими успехами и планами на будущее.

+32

SmirnovValeriy 1 апр в 10:03

ANNA – сервис для автоматической разработки нейронных сетей

Простой

10 мин

8.6K

Блог компании Альфа-БанкBig Data*Машинное обучение*

Кейс

Нейросетевые модели уже несколько лет успешно применяются в Альфа-Банке для решения ключевых задач, таких как кредитный скоринг, прогнозирование склонности клиентов к продуктам и определение оттока. Модели глубокого обучения демонстрируют высокое качество и стабильно улучшают метрики при добавлении к традиционным бустинговым моделям, что приносит Банку сотни миллионов рублей ежегодно.

Однако со временем процесс переобучения моделей под новые целевые переменные становится рутиной: используемые архитектуры почти не меняются, данные собираются по стандартным алгоритмам, по стандартным же алгоритмам обучаются модели и внедряются в продакшен.

Как продолжать успешно внедрять нейросетевые модели в основные бизнес-задачи, не тратя время на неэффективные рутинные процессы – в нашей новой статье.

+31

badcasedaily1 1 апр в 07:34

Кратко про алгоритм обучения Q-learning и как он реализуется в Python для новичков

Простой

5 мин

Блог компании OTUSМашинное обучение*

Обзор

Привет, Хабр!

Q-learning — это алгоритм обучения с подкреплением, который позволяет агенту оптимизировать свою стратегию действий в динамичной среде, стремясь максимизировать сумму будущих наград. Агент исследует среду, принимая решения, основанные на предыдущем опыте, а не на предварительной модели мира.

В этой статье мы и рассмотрим этот алгоритм.

korelskayaelya 13 мар 2023 в 11:02

Классификация изображений в облачной системе Google Colab

Сложный

43 мин

7.2K

Python*Big Data*Машинное обучение*Научно-популярноеИскусственный интеллект

Из песочницы

✏️ Технотекст 2023

Нейронку можно обучить не только понимать, где на картинке собака, а где кошка. Можно шагнуть дальше, чтобы обучить ее распознавать данные графиков зрачковых реакций на свет и выдавать результат: норма или отклонение.

Эта статья про сверточные нейронные сети, классификацию изображений с помощью моделей глубокого обучения, а также применение Google Colab для написания кода на Python.

saul 26 июл 2018 в 07:42

AI, практический курс. Современные архитектуры глубоких нейронных сетей для классификации изображений

7 мин

17K

Блог компании IntelПрограммирование*Обработка изображений*Машинное обучение*

Перевод

В предыдущей статье, Обзор нейронных сетей для классификации изображений, мы ознакомились с основными базовыми понятиями сверточных нейронных сетей, а также лежащими в их основе идеями. В данной статье мы рассмотрим несколько архитектур глубоких нейронных сетей, обладающих большой вычислительной мощностью — таких как AlexNet, ZFNet, VGG, GoogLeNet и ResNet — и подытожим основные преимущества каждой из этих архитектур. Структура статьи основана на записи в блоге Основные понятия сверточных нейронных сетей, часть 3.

Читать дальше →

+21

SLY_G 15 мар 2019 в 10:00

У нейросетей удивительно простая стратегия классификации изображений

6 мин

17K

Искусственный интеллектМашинное обучение*

Перевод

Свёрточные нейросети отлично справляются с классификацией искажённых изображений, в отличие от людей

В данной статье я покажу, почему передовые глубинные нейросети прекрасно могут распознавать искажённые изображения и как это помогает раскрыть удивительно простую стратегию, используемую нейросетями для классификации естественных фотографий. У этих открытий, опубликованных в ICLR 2019, есть много последствий: во-первых, они демонстрируют, что найти «решение» ImageNet гораздо проще, чем считалось. Во-вторых, они помогают нам создавать более интерпретируемые и понятные системы классификации изображений. В-третьих, они объясняют несколько явлений, наблюдаемых в современных свёрточных нейросетях (СНС), к примеру, их склонность к поиску текстур (см. другую нашу работу в ICLR 2019 и соотв. запись в блоге), и игнорирование пространственного расположения частей объекта.

Читать дальше →

+38

saul 9 июл 2018 в 13:58

AI, практический курс. Обзор нейронных сетей для классификации изображений

8 мин

29K

Блог компании IntelМашинное обучение*Обработка изображений*Программирование*

Перевод

В данной статье приводится доступный теоретический обзор сверточных нейронных сетей (Convolutional Neural Network, CNN) и разъясняется их применение к задаче классификации изображений.

Читать дальше →

+23

aansty4U 27 мар в 17:17

Скрытые симптомы: как модели машинного обучения предсказывают развитие болезни Альцгеймера за 7 лет до ее начала

Средний

20 мин

3.6K

Блог компании BotHubМашинное обучение*Здоровье

Обзор

К сожалению, в настоящее время нет лекарств, способных полностью вылечить болезнь Альцгеймера (деменцию) или остановить ее прогрессирование на поздних стадиях. В мире с таким диагнозом ежегодного сталкиваются порядка 50 миллионов человек, и с каждым годом эти цифры растут.

Во многом качество жизни пациентов с Альцгеймером зависит от того, как быстро человек обратился к специалистам, однако это тоже является большой проблемой. Болезнь долгое время протекает незаметно, а потом быстро и бесповоротно переходит в тяжелую стадию.

На помощь в решении данной проблемы пришло машинное обучение!

В данном исследовании я подробно расскажу, как с помощью моделей машинного обучения ученым удалось выявить диагнозы и характеристики состояний пациентов, предшествующие развитию болезни Альцгеймера за 7 лет до ее отправной точки!

Приятного прочтения! :)

+19

badcasedaily1 27 мар в 20:45

Это мы юзаем: библиотека Optuna в Python для оптимизации гиперпараметров

Средний

7 мин

8.6K

Блог компании OTUSPython*Анализ и проектирование систем*Серверная оптимизация*Машинное обучение*

Обзор

Привет, Хабр!

Гиперпараметры — это параметры, которые не учатся в процессе обучения модели. Они задаются заранее. От выбора гиперпараметров напрямую зависит качество и эффективность модели, а их оптимизация может улучшить результаты предсказаний.

Традиционный подход к оптимизации гиперпараметров включает в себя grid search и random search, иногда они могут быть неэффективными и времязатратными, особенно когда пространство гиперпараметров велико.

Когда я впервые столкнулся с необходимостью настроить сотни параметров в своей нейросети, задача показалась мне Сизифовым трудом. Каждый параметр мог значительно изменить результат, и пространство поиска казалось бесконечным. И немного просидев на стековерфлой я нашел либу Optuna, которая позоволила оптимизировать этот процесс.

Optuna решает проблему оптимизации гиперпараметров, предоставляя легковесный фреймворк для автоматизации поиска оптимальных гиперпараметров. Она использует алгоритмы, такие как TPE, CMA-ES, и даже поддерживает пользовательские алгоритмы.

Optuna полностью написана на Python и имеет мало зависимостей. В этой статье рассмотрим её основной функционал.

+19

egaoharu_kensei 28 мар в 13:06

Логистическая и Softmax-регрессии. Основная идея и реализация с нуля на Python

Сложный

9 мин

7.5K

Python*Data Mining*Алгоритмы*Машинное обучение*Искусственный интеллект

Туториал

Начнём с более простого. Логистическая регрессия — линейный бинарный классификатор, основанный на применении сигмоидальной функции к линейной комбинации признаков, результатом которого является вероятность принадлежности к определённому классу. Обычно порог устанавливается 0.5: если вероятность меньше порога — класс относится к 0, а если больше — к 1. В принципе, условия определения логистической регрессии такие же как и у линейной за исключением бинаризации таргета.

sawabear_a 27 мар в 14:02

Управление цветами в Seaborn: как визуализировать данные красиво

Средний

20 мин

11K

Блог компании Lamoda TechPython*Визуализация данных*Презентации

Туториал

Привет, Хабр. В этой статье я расскажу про своё видение работы с цветом при визуализации графиков. Буду показывать все на примерах — уверен, они вам понравятся.

Я покажу не только картинки было-стало, но и приведу примеры кода, а также объясню логику принятия решений: как использовать ту или иную палитру в конкретной задаче. И что самое главное, дам пошаговые советы, как сделать график логичнее и понятнее для заказчиков.

Меня зовут Саша, сейчас я работаю в Lamoda Tech старшим бизнес/дата-аналитиком. До этого я несколько лет был специалистом по данным в другой компании и регулярно представлял совету директоров анализ и прогноз физических и бизнес-показателей. Умение донести результаты исследования до заказчика, особенно если он не погружен в работу с данными — это важный аспект моей профессии. Надеюсь, моя статья с этим немного поможет.

+25

Bogdan_m01 27 мар в 00:29

Классификация экзопланет (часть II построение моделей)

Средний

8 мин

1.4K

Искусственный интеллектМашинное обучение*Python*

Это вторая и заключительная часть статьи, в которой мы рассматриваем задачу классификации экзопланет. Если предыдущая статья была больше про предобработку данных, то здесь мы будем строить модели, отбирать лучшие и экспериментировать.

egaoharu_kensei 8 мар в 22:01

Кластеризация в ML: от теоретических основ популярных алгоритмов к их реализации с нуля на Python

Сложный

34 мин

29K

Python*Data Mining*Алгоритмы*Машинное обучение*Искусственный интеллект

Туториал

✏️ Технотекст 2023

Кластеризация — это набор методов без учителя для группировки данных по определённым критериям в так называемые кластеры, что позволяет выявлять сходства и различия между объектами, а также упрощать их анализ и визуализацию. Из-за частичного сходства в постановке задач с классификацией кластеризацию ещё называют unsupervised classification.

В данной статье описан не только принцип работы популярных алгоритмов кластеризации от простых к более продвинутым, но а также представлены их упрощённые реализации с нуля на Python, отражающие основную идею. Помимо этого, в конце каждого раздела указаны дополнительные источники для более глубокого ознакомления.

+36

egaoharu_kensei 9 мар в 19:56

Метод главных компонент (PCA). Принцип работы и реализация с нуля на Python

Сложный

8 мин

18K

Python*Data Mining*Алгоритмы*Машинное обучение*Искусственный интеллект

Туториал

Метод главных компонент (Principal Component Analysis или же PCA) — алгоритм обучения без учителя, используемый для понижения размерности и выявления наиболее информативных признаков в данных. Его суть заключается в предположении о линейности отношений данных и их проекции на подпространство ортогональных векторов, в которых дисперсия будет максимальной.

Такие вектора называются главными компонентами и они определяют направления наибольшей изменчивости (информативности) данных. Альтернативно суть PCA можно определить как линейное проецирование, минимизирующее среднеквадратичное расстояние между исходными точками и их проекциями.

+10

1 2

4 5 ...

12 13