Статьи / Закладки / Профиль Tarzan3668 / Хабр

Пузицкий Михаил @Tarzan3668

Data Science, предприниматель

Профиль Статьи 3Посты Новости Комментарии 8

asozykin 3 мая 2022 в 11:19

Развертывание моделей машинного обучения. Часть первая. Размещаем Web-приложение в облачной платформе Heroku

11 мин

11K

Облачные вычисления*Машинное обучение*Учебный процесс в ITDevOps*Искусственный интеллект

Туториал

В этой серии статей мы рассмотрим, как на основе готовых моделей создавать приложения, использующие машинное обучение, и организовывать доступ пользователей к ним. Начнем с создания Web-приложения для классификации изображений на Streamlit и развертывания его на облачной платформе Heroku в бесплатном аккаунте. Этот подход подойдет для прототипов и персональных или учебных проектов.

vova_sam 5 мар 2023 в 14:17

Перевод предобученной модели Keras на матричные вычисления

Средний

11 мин

7.2K

Python*Машинное обучение*TensorFlow*

Туториал

По заказу одного из проектов мне потребовалось сделать агрегатор новостей в Телеграм. После долгих поисков реализации (о них ниже в статье) была создана нейронная сеть на базе Keras, которая имела высокое качество, но оказалось, что Keras нельзя было установить на инфраструктуре (просто не было соответствующей сборки) и мне пришлось решать вопрос, как перевести обученную модель в Keras на реализацию, которая не требует установленного Keras.

Эта статья о том, как я переписал обученную в Keras сеть на работу с матричными операциями в Numpy. Заодно это помогло мне "заглянуть под капот" нейронной сети.

chemtech 25 янв 2021 в 09:51

Как настроить мультинодовый кластер Airflow с помощью Celery и RabbitMQ

4 мин

14K

Big Data*DevOps*Системное администрирование*Системное программирование*

Перевод

Что такое Airflow?

Apache Airflow — это продвинутый workflow менеджер и незаменимый инструмент в арсенале современного дата инженера.

Airflow позволяет создавать рабочие процессы в виде направленных ациклических графов (DAG) задач. Разнообразные служебные программы командной строки выполняют сложные операции на DAG. Пользовательский интерфейс легко визуализирует конвейеры, работающие в производственной среде, отслеживает ход выполнения и при необходимости устраняет неполадки.

Читать дальше →

dmlogv 27 июл 2020 в 11:00

Apache Airflow: делаем ETL проще

25 мин

180K

Big Data*Data Engineering*Python*Хранение данных*

Туториал

Привет, я Дмитрий Логвиненко — Data Engineer отдела аналитики группы компаний «Везёт».

Я расскажу вам о замечательном инструменте для разработки ETL-процессов — Apache Airflow. Но Airflow настолько универсален и многогранен, что вам стоит присмотреться к нему даже если вы не занимаетесь потоками данных, а имеете потребность периодически запускать какие-либо процессы и следить за их выполнением.

И да, я буду не только рассказывать, но и показывать: в программе много кода, скриншотов и рекомендаций.

Что обычно видишь, когда гуглишь слово Airflow / Wikimedia Commons

Читать дальше →

+11

qlmv 19 авг 2016 в 10:09

Обучение с подкреплением для самых маленьких

8 мин

75K

Python*Алгоритмы*Машинное обучение*

Из песочницы

В данной статье разобран принцип работы метода машинного обучения«Обучение с подкреплением» на примере физической системы. Алгоритм поиска оптимальной стратегии реализован в коде на Python с помощью метода «Q-Learning».

Обучение с подкреплением — это метод машинного обучения, при котором происходит обучение модели, которая не имеет сведений о системе, но имеет возможность производить какие-либо действия в ней. Действия переводят систему в новое состояние и модель получает от системы некоторое вознаграждение. Рассмотрим работу метода на примере, показанном в видео. В описании к видео находится код для Arduino, который реализуем на Python.

Задача

С помощью метода «обучение с подкреплением» необходимо научить тележку отъезжать от стены на максимальное расстояние. Награда представлена в виде значения изменения расстояния от стены до тележки при движении. Измерение расстояния D от стены производится дальномером. Движение в данном примере возможно только при определенном смещении «привода», состоящего из двух стрел S1 и S2. Стрелы представляют собой два сервопривода с направляющими, соединенными в виде «колена». Каждый сервопривод в данном примере может поворачиваться на 6 одинаковых углов. Модель имеет возможность совершить 4 действия, которые представляют собой управление двумя сервоприводами, действие 0 и 1 поворачивают первый сервопривод на определенный угол по часовой и против часовой стрелке, действие 2 и 3 поворачивают второй сервопривод на определенный угол по часовой и против часовой стрелке. На рисунке 1 показан рабочий прототип тележки.

Рис. 1. Прототип тележки для экспериментов с машинным обучением

+32

AloneCoder 11 дек 2019 в 18:14

Индексируем миллиарды текстовых векторов

9 мин

8.7K

Блог компании VKNatural Language Processing*Алгоритмы*Анализ и проектирование систем*Поисковые технологии*

Перевод

При извлечении информации часто возникает задача поиска подобных фрагментов текста. В контексте поиска запрос может быть сгенерирован пользователем (например, текст, который пользователь вводит в поисковом движке) или самой системой. Часто нам нужно сопоставлять входящий запрос с уже проиндексированными запросами. В этой статье мы рассмотрим, как можно построить систему, решающую эту задачу применительно к миллиардам запросов без траты целого состояния на серверную инфраструктуру.

Читать дальше →

+52

polina_ok 8 ноя 2022 в 11:12

Как подготовить и провести A/B-тестирование. Базовый роадмэп для новичков

12 мин

26K

Блог компании GlowByteМашинное обучение*

Хабр, привет!

Меня зовут Полина Окунева, я работаю ведущим аналитиком в компании GlowByte в команде Advanced Analytics, а также автор курса по A/B тестам. Сегодня в статье я предлагаю интересующимся небольшой гайд по A/B-тестам.

Когда я начала погружаться в тему A/B-тестирования пару лет назад, меня кидало из стороны в сторону: то перечитывала фундаментальные учебники по статистике, то переключалась на статьи о конкретных методиках. Но во всем этом многообразии материалов для меня на тот момент был огромный недостаток — я не могла собрать все в кучу и разобраться, а как же проводить-то этот A/B-тест? Я знала, что есть разные виды тестов, множественное тестирование и поправки, полезный и популярный Bootstrap… Но как все это соединить было не очевидно. Хотелось понять, какие этапы есть у A/B-тестирования и когда на что обращать внимание. Хотя бы какие термины гуглить и когда.

Сегодня я представляю вашему вниманию пазл, который сложился в моей голове по итогу плотной работы в этой теме. Я не претендую на истину в последней инстанции — шаги могут и должны(!) быть адаптированы конкретно под вашу задачу. Но если вы только начинаете входить в сферу A/B-тестирования, надеюсь, статья будет очень полезна. Я не буду подробно останавливаться на каждом понятии. Моя цель — обозначить технические этапы и показать новичкам модельную картину A/B-тестирования.

+13

ThomasAlva 3 ноя 2015 в 20:20

Ещё раз про семь основных методологий разработки

8 мин

1.1M

Блог компании EdisonПрограммирование*Веб-разработка*Разработка мобильных приложений*

Разработка программного продукта знает много достойных методологий — иначе говоря, устоявшихся best practices. Выбор зависит от специфики проекта, системы бюджетирования, субъективных предпочтений и даже темперамента руководителя. В статье описаны методологии, с которыми мы регулярно сталкиваемся в Эдисоне.

Читать дальше →

+25

crazyhatter 17 мая 2017 в 13:47

CRISP-DM: проверенная методология для Data Scientist-ов

16 мин

77K

Блог компании ГК ЛАНИТМашинное обучение*Алгоритмы*Data Mining*

Постановка задач машинного обучения математически очень проста. Любая задача классификации, регрессии или кластеризации – это по сути обычная оптимизационная задача с ограничениями. Несмотря на это, существующее многообразие алгоритмов и методов их решения делает профессию аналитика данных одной из наиболее творческих IT-профессий. Чтобы решение задачи не превратилось в бесконечный поиск «золотого» решения, а было прогнозируемым процессом, необходимо придерживаться довольно четкой последовательности действий. Эту последовательность действий описывают такие методологии, как CRISP-DM.

Методология анализа данных CRISP-DM упоминается во многих постах на Хабре, но я не смог найти ее подробных русскоязычных описаний и решил своей статьей восполнить этот пробел. В основе моего материала – оригинальное описание и адаптированное описание от IBM. Обзорную лекцию о преимуществах использования CRISP-DM можно посмотреть, например, здесь.

* Crisp (англ.) — хрустящий картофель, чипсы

Читать дальше →

+51

PatientZero 17 окт 2022 в 09:42

Как работает Stable Diffusion: объяснение в картинках

9 мин

99K

Искусственный интеллектМашинное обучение*Обработка изображений*

Перевод

Генерация изображений при помощи ИИ — одна из самых новых возможностей искусственного интеллекта, поражающая людей (в том числе и меня). Способность создания потрясающих изображений на основании текстовых описаний похожа на магию; компьютер стал ближе к тому, как творит искусство человек. Выпуск Stable Diffusion стал важной вехой в этом развитии, поскольку высокопроизводительная модель оказалась доступной широкой публике (производительная с точки зрения качества изображения, скорости и относительно низких требований к ресурсам и памяти).

Поэкспериментировав в генерацией изображений, вы можете задаться вопросом, как же она работает.

В этой статье я вкратце расскажу, как функционирует Stable Diffusion.

Читать дальше →

+29

m_Rassska 5 июл 2021 в 16:56

Алгоритм Форда-Фалкерсона

3 мин

74K

Алгоритмы*

Туториал

Из песочницы

В данной статье хотелось бы на примитивном уровне разобрать один из популярных алгоритмов нахождения максимального потока в графе.

+23

AlexanderPetrenko 21 апр 2021 в 23:06

Временные ряды. Простые решения

9 мин

48K

Python*Искусственный интеллектМатематика*Машинное обучение*Учебный процесс в IT

Туториал

Привет, Хабр!

В этой статье мы рассмотрим несколько простых подходов прогнозирования временных рядов.

Материал, изложенный в статье, на мой взгляд, хорошо дополняет первую неделю курса «Прикладные задачи анализа данных» от МФТИ и Яндекс. На обозначенном курсе можно получить теоретические знания, достаточные для решения задач прогнозирования рядов динамики, а в качестве практического закрепления материала предлагается с помощью модели ARIMA библиотеки scipy сформировать прогноз заработной платы в Российской Федерации на год вперед. В статье, мы также будем формировать прогноз заработной платы, но при этом будем использовать не библиотеку scipy, а библиотеку sklearn. Фишка в том, что в scipy уже предусмотрена модель ARIMA, а sklearn не располагает готовой моделью, поэтому нам придется потрудиться ручками. Таким образом, нам для решения задачи, в каком то смысле, необходимо будет разобраться как устроена модель изнутри. Также, в качестве дополнительного материала, в статье, задача прогнозирования решается с помощью однослойной нейронной сети библиотеки pytorch.

Читать дальше →

+10

0serg 4 окт 2013 в 22:02

Простыми словами о преобразовании Фурье

Средний

14 мин

1.1M

Математика*Визуализация данных*

Из песочницы

Я полагаю что все в общих чертах знают о существовании такого замечательного математического инструмента как преобразование Фурье. Однако в ВУЗах его почему-то преподают настолько плохо, что понимают как это преобразование работает и как им правильно следует пользоваться сравнительно немного людей. Между тем математика данного преобразования на удивление красива, проста и изящна. Я предлагаю всем желающим узнать немного больше о преобразовании Фурье и близкой ему теме того как аналоговые сигналы удается эффективно превращать для вычислительной обработки в цифровые.

(с) xkcd

Без использования сложных формул и матлаба я постараюсь ответить на следующие вопросы:

FT, DTF, DTFT — в чем отличия и как совершенно разные казалось бы формулы дают столь концептуально похожие результаты?
Как правильно интерпретировать результаты быстрого преобразования Фурье (FFT)
Что делать если дан сигнал из 179 сэмплов а БПФ требует на вход последовательность по длине равную степени двойки
Почему при попытке получить с помощью Фурье спектр синусоиды вместо ожидаемой одиночной “палки” на графике вылезает странная загогулина и что с этим можно сделать
Зачем перед АЦП и после ЦАП ставят аналоговые фильтры
Можно ли оцифровать АЦП сигнал с частотой выше половины частоты дискретизации (школьный ответ неверен, правильный ответ — можно)
Как по цифровой последовательности восстанавливают исходный сигнал

Я буду исходить из предположения что читатель понимает что такое интеграл, комплексное число (а так же его модуль и аргумент), свертка функций, плюс хотя бы “на пальцах” представляет себе что такое дельта-функция Дирака. Не знаете — не беда, прочитайте вышеприведенные ссылки. Под “произведением функций” в данном тексте я везде буду понимать “поточечное умножение”

Итак, приступим?

+181

190

Firemoon 24 янв 2023 в 16:10

SD – это Linux, а Midjourney – Mac: краткое полное руководство по Stable Diffusion

13 мин

84K

Блог компании SelectelIT-инфраструктура*IT-компанииИскусственный интеллектМашинное обучение*

Туториал

Вот таких тирекс-тянок выдает нейросеть

Текст про Midjourney привлек внимание, и в комментариях наметилась дискуссия про Stable Diffusion. Аргументы убедили меня попробовать SD самостоятельно, но вскоре я понял, что это не самая простая задача. Сообщество любителей Stable Diffusion произвело на свет множество удобных инструментов, которые своим количеством и сложностью могут отпугнуть новичков.

Всю неделю, что я экспериментировал с нейросетью, я боролся с желанием SD добавлять вторичные гендерные признаки по моим запросам и грустил, смотря на результаты генерации котиков. О своих страданиях частично писал в личном Telegram-канале — подписывайтесь! В этом же тексте — собрал основные советы по работе со Stable Diffusion и подвел итог, сравнив эту нейросеть с Midjourney.

Читать дальше →

+104

Aleksandra-Belova 15 фев 2023 в 19:57

Ошибки аналитика при изучении Python: 5 стадий принятия неизбежного

Средний

10 мин

16K

Python*

Из песочницы

Аналитик-экономист Саша устроилась на новую работу, у неё не было навыков программирования. В описании вакансии умение писать код не требовалось. Программирование преследовало экономиста в школе и университете. Саша старательно отмахивалась от написания кода, но избежать кодинга не вышло.

В Сашин первый день предыдущий сотрудник оставил три скрипта на Python для подготовки отчетности, уволился и сменил номер телефона. Ближайших срок сдачи отчетности – через месяц. Запуска кода было недостаточно для подготовки отчетов, нужно адаптировать скрипт под запрос руководителя.

Статья описывает ошибки, которые совершила Саша при изучение Python, и пути исправления этих ошибок. Статья расскажет об экстремальном опыте погружения в программирование на Python: анализ данных и визуализацию. Вот как это было…

PatientZero 16 фев 2023 в 09:45

Пишем GPT в 60 строк NumPy (часть 1 из 2)

Средний

16 мин

76K

Python*Алгоритмы*Искусственный интеллектМатематика*Машинное обучение*

Туториал

Перевод

В этом посте мы начнём реализацию с нуля GPT всего в 60 строках numpy. Во второй части статьи мы загрузим в нашу реализацию опубликованные OpenAI веса обученной модели GPT-2 и сгенерируем текст.

Читать дальше →

+92

NeVZleTeam 13 фев 2021 в 14:59

Число Рамсея R(5,5) = 43

7 мин

11K

Математика*

Из песочницы

По моему глубокому убеждению, все задачи делятся на два типа: простые и сложные. У простых задач есть простые решения (пусть и требующие для их нахождения некоторого объёма специальных знаний), а сложных задач в математике нет. Чтобы проиллюстрировать это, я покажу вам удивительное в своей простоте доказательство вынесенного в заголовок поста утверждения. Одной картинкой.

Всё ещё сложно? Тогда обо всём по порядку

VolkoIvan 9 дек 2022 в 21:22

Как получить доступ к chatGPT в России

4 мин

1.5M

Искусственный интеллектДизайн игр*Разработка игр*Разработка мобильных приложений*Веб-разработка*

Туториал

✏️ Технотекст 2023

Всем привет! Перед началом статьи сразу скажу:

САМЫЙ ВАЖНЫЙ ДИСКЛЕЙМЕР: естественно, покупая смс на чужой номер вы полностью компрометируете безопасность своего аккаунта. Мало ли кто его потом еще купит для получения доступа. Поэтому, помните, что представленный в данной статье способ получения доступа - это только на "поиграться". Не стоит вводить туда свои реальные почты и использовать это в работе, так как полученный доступ может быть в любой момент взломан/прикрыт.

Но да ладно, приступим. Здесь без всякого объяснения того что такое ChatGPT - кому надо тот знает. В этой статье я хочу поделиться путем который вас за 30Р может к этому боту привести. Вдаваться в детали бота я не хочу, это чисто статья для ребят которые хотят без лишних запар пройти путь человека который доступ к боту уже получил :)

Как и многих вокруг, меня удивила новая технология от Open AI. Попытался зайти и зарегистрироваться через гугл, но...

+67

268

KeKin 13 июн 2012 в 17:36

Копулы — что это такое и с чем их есть

5 мин

17K

Алгоритмы*Математика*

Из песочницы

На данном ресурсе часто говорят о работе со случайными величинами — ну много где они нужны. Иногда случается так, что вам нужно определить зависимость двух случайных величин друг от друга. Тут вы воскликнете — «Пффф, дык мы ж такое в школе проходили — корреляция». Вот тут я хочу вас огорчить — корреляция Пирсона — всего лишь один из множества способов показать зависимость двух случайных величин. К тому же он линейный. То есть, если зависимость между X и Y не линейная, а, допустим, квадратичная, то есть X=Y^2, тогда корреляция Пирсона покажет отсутствие зависимости. Но мы то знаем что это не так. Если вы не задумывались об этом раньше, то сейчас у вас должны появляться идеи — «Как же так?», «А что же делать?», ~~«Аааа, мы все умрем!»~~ Ответы на все эти непростые вопросы я постараюсь дать под катом.

Читать дальше →

+34

KeKin 14 авг 2012 в 13:33

Пример практического применения копул

8 мин

21K

Алгоритмы*

В предыдущей статье я рассказал теоретическое обоснование копул. Так как сам был студентом, знаю, что лучшим объяснением теоретического аппарата может служить пример его практического применения. Поэтому в этой статье попробую показать, как копулы используются для моделирования взаимозависимостей нескольких случайных величин.

Читать дальше →

+25

1 2

4 5 ...

21 22

В рейтинге: Не участвует

Откуда: Москва, Москва и Московская обл., Россия

Дата рождения: 3 июня 1968

Зарегистрирован: 2 июля 2017

Активность: 19 февраля в 19:53

Data Scientist, Computer Vision Engineer

Middle

От 350 000 ₽

Research work

Computer vision

Machine learning

Natural language processing

Pytorch

Deep Learning

Neural networks

Computer Science

Reinforcement learning

TENSORFLOW

Развертывание моделей машинного обучения. Часть первая. Размещаем Web-приложение в облачной платформе Heroku

Перевод предобученной модели Keras на матричные вычисления

Как настроить мультинодовый кластер Airflow с помощью Celery и RabbitMQ

Apache Airflow: делаем ETL проще

Обучение с подкреплением для самых маленьких

Задача

Индексируем миллиарды текстовых векторов

Как подготовить и провести A/B-тестирование. Базовый роадмэп для новичков

Ещё раз про семь основных методологий разработки

CRISP-DM: проверенная методология для Data Scientist-ов

Как работает Stable Diffusion: объяснение в картинках

Алгоритм Форда-Фалкерсона

Временные ряды. Простые решения

Простыми словами о преобразовании Фурье

SD – это Linux, а Midjourney – Mac: краткое полное руководство по Stable Diffusion

Ошибки аналитика при изучении Python: 5 стадий принятия неизбежного

Пишем GPT в 60 строк NumPy (часть 1 из 2)

Число Рамсея R(5,5) = 43

Как получить доступ к chatGPT в России

Копулы — что это такое и с чем их есть

Пример практического применения копул

Информация

Специализация