Статьи / Закладки / Профиль pony77 / Хабр

Иван Солякин @pony77

Data Scientist

Профиль Публикации 2Комментарии 9Закладки 49

NewTechAudit 22 апр 2021 в 09:42

Продвинутое использование библиотеки PYTORCH: от подготовки данных до визуализации

9 мин

22K

Python*Программирование*Машинное обучение*

PyTorch — современная библиотека машинного обучения с открытым исходным кодом, разработанная компанией Facebook. Как и другие популярные библиотеки, такие как TensorFlow и Keras, PyTorch позволяет использовать вычислительную мощность видеокарт, автоматически составлять граф вычислений, дифференцировать и считать его. Но, в отличие от предыдущих библиотек, обладает более гибким функционалом, благодаря тому, что использует динамический граф вычислений.

Сейчас мы пройдем все этапы работы с библиотекой PyTorch. Мы затронем далеко не все возможности данной библиотеки, но их хватит, чтобы начать с ней работать. Научимся пользоваться инструментами для подготовки данных, которые делают загрузку данных легкой и уменьшают объем написанного кода. Создадим простую нейросеть, а также класс, который будет ее обучать и который можно будет применить для обучения любой модели, созданной в PyTorch. В конце мы визуализируем результат, чтобы оценить качество обученной модели.

Для начала загрузим нужные библиотеки:

Kouki_RUS 18 фев 2020 в 17:24

BERT, ELMO и Ко в картинках (как в NLP пришло трансферное обучение)

11 мин

48K

Машинное обучение*

Перевод

2018 год стал переломной точкой для развития моделей машинного обучения, направленных на решение задач обработки текста (или, что более корректно, обработки естественного языка (Natural Language Processing, NLP)). Быстро растет концептуальное понимание того, как представлять слова и предложения для наиболее точного извлечения их смысловых значений и отношений между ними. Более того, NLP-сообщество продвигает невероятно мощные инструменты, которые можно бесплатно скачать и использовать в своих моделях и пайплайнах. Эту переломную точку также называют NLP’s ImageNet moment, ссылаясь на тот момент несколько лет назад, когда схожие разработки значительно ускорили развитие машинного обучения в области задач компьютерного зрения.

transformer-ber-ulmfit-elmo

(ULM-FiT не имеет ничего общего с Коржиком, но что-то лучше не пришло в голову)

Читать дальше →

+12

fantomius 18 мар 2021 в 11:00

Сэмплирование Томпсона

13 мин

10K

Python*Машинное обучение*Блог компании Домклик

Перевод

Маленький Робот потерялся в торговом центре. С помощью обучения с подкреплением мы хотим помочь ему найти свою маму. Но прежде чем он начнёт её искать, ему нужно подзарядиться от набора розеток, каждая из которых даёт разное количество энергии.

С помощью стратегий из задачи про многорукого бандита нам нужно найти лучшую розетку в кратчайшие сроки, чтобы Маленький Робот подзарядился и отправился в путь. Сэмплирование Томпсона — это один из самых сложных и интересных способов решения задачи «многорукого бандита».

+53

skillfactory_school 25 июн 2020 в 20:44

Интерактивная визуализация данных при помощи Plotly: строим красивые графики с Express и Cufflinks

12 мин

30K

Big Data*Блог компании SkillfactoryВизуализация данных*Учебный процесс в IT

Перевод

Если Вы все еще используете Matplotlib для создания графиков в Python, самое время взглянуть на мир с высоты альтернативной библиотеки интерактивной визуализации.

Plotly позволяет создавать красивые, интерактивные, экспортируемые графики с помощью всего нескольких строк кода. Однако без карты подъем в гору Plotly может быть медленным и мучительным.

Вот камни преткновения, которые могут появиться на пути авантюристов, решивших покорить эту гору:

непонятная начальная настройка для работы оффлайн без аккаунта;
неимоверное количество строк кода;
устаревшая документация;
множество различных инструментов Plotly, в которых можно заблудиться (Dash, Express, Chart Studio и Cufflinks).

Несколько раз попытавшись вскарабкаться на эту гору, я все же нашел карту, снаряжение и короткую тропинку к вершине. В этой статье я укажу вам путь, рассказав как начать работу в оффлайн-режиме, как создавать графики, а потом их корректировать, куда обратиться за помощью и какими инструментами пользоваться.

Читать дальше →

Old_tutor 23 фев 2021 в 13:13

10 полезных расширений для дата-сайентистов

5 мин

14K

Программирование*Блог компании SkillfactoryМашинное обучение*Искусственный интеллектЛайфхаки для гиков

Перевод

Каждый специалист по Data Science тратит большую часть своего времени на визуализацию данных, их предварительную обработку и настройку модели на основе полученных результатов. Для каждого исследователя данных именно эти моменты – самая сложная часть процесса, поскольку хорошую модель можно получить при условии, что вы точно выполните все эти три шага. И вот 10 очень полезных расширений Jupyter Notebook, которые помогут вам выполнить эти шаги.

Приятного чтения!

+19

Picard 23 янв 2021 в 14:39

Как сделать Data Science приложение для Windows (и не только) с графическим интерфейсом с помощью PySimpleGUI

6 мин

33K

Python*Big Data*Блог компании SkillfactoryМашинное обучение*Искусственный интеллект

Туториал

Перевод

Работать с Data Science в Jupyter, конечно, очень приятно, но если вы хотите пойти дальше и развернуть свой проект или модель на облачном сервере, то здесь есть много отличных решений — с помощью Flask, Django или Streamlit. Хотя облачные решения по-прежнему самые популярные, часто хочется создать быстрое приложение с графическим интерфейсом. Например:

Модель ML тестируется на различных наборах данных. Вы можете перетащить файлы CSV в модель и отрисовать кривую AUS/ROC. Здесь GUI проявит себя прекрасно, правда?
Построить случайную переменную или статистическое распределение в заданном диапазоне и динамически управлять параметрами с помощью графического интерфейса.
Быстро запустить некоторые задачи обработки или предварительной обработки данных в наборе с помощью GUI вместо того, чтобы писать кучу кода.

В этой статье мы покажем, как создать такой графический интерфейс, потратив минимум усилий на изучение библиотеки Python.

Приятного чтения!

+24

FooBar167 24 фев 2020 в 18:19

Сканирующее окно по массивам NumPy

9 мин

19K

Python*Программирование*Совершенный код*Алгоритмы*

CoLab блокнот с примерами.

Возможно сделать скользящее окно (rolling window, sliding window, moving window) по массивам NumPy на языке программирования Python без явных циклов. В данной статье рассматривается создание одно-, двух-, трех- и N-мерных скользящих окон по массивам NumPy. В результате скорость обработки данных увеличивается в несколько тысяч раз и сравнима по скорости с языком программирования С.

Cкользящее окно применяется в: обработке изображений, искусственных нейронных сетях, интернет протоколе TCP, обработке геномных данных, прогнозировании временных рядов и т.д.

Отказ от ответственности: в исходном коде могут быть ошибки! Если вы видите ошибку, пожалуйста, напишите мне.

Введение
Скользящее 1D окно по ND массиву в Numpy
Скользящее 2D окно по ND массиву в Numpy
Скользящее 3D окно по ND массиву в Numpy
Скользящее MD окно по ND массиву, где M ≤ N
Скользящее MD окно по ND массиву для любых M и N

Читать дальше →

+18

OLZ1 6 июн 2020 в 18:56

Интервальное прогнозирование временных рядов с помощью рекуррентных нейронных сетей с долгой краткосрочной памятью…

58 мин

36K

Python*Машинное обучение*

Перевод

Продолжение цикла публикаций статей про прогнозирование временных рядов. На повестке – перевод статьи How to Develop Multi-Step LSTM Time Series Forecasting Models for Power Usage.

Читать дальше →

+13

Dadadumdums 30 ноя 2020 в 13:59

Snowflake, Anchor Model, ELT и как с этим жить

15 мин

14K

IT-инфраструктура*Хранилища данных*Блог компании ManyChatData Engineering*

Привет! Меня зовут Антон Поляков, и я разрабатываю аналитическое хранилище данных и ELT-процессы в ManyChat. В настоящий момент в мире больших данных существуют несколько основных игроков, на которых обращают внимание при выборе инструментария и подходов к работе аналитических систем. Сегодня я расскажу вам, как мы решили отклониться от скучных классических OLAP-решений в виде Vertica или Exasol и попробовать редкую, но очень привлекательную облачную DWaaS (Data Warehouse as a Service) Snowflake в качестве основы для нашего хранилища.

С самого начала перед нами встал вопрос о выборе инструментов для работы с БД и построении ELT-процессов. Мы не хотели использовать громоздкие и привычные всем готовые решения вроде Airflow или NiFi и пошли по пути тонкой кастомизации. Это был затяжной прыжок в неизвестность, который пока продолжается и вполне успешно.

Под катом я расскажу про архитектуру нашего аналитического хранилища и покажу, каким образом мы производим загрузку, обработку и трансформацию данных.

Читать дальше →

+13

devsolution 24 ноя 2020 в 11:03

Дизайн и подходы создания Big Data пайплайнов

23 мин

8.9K

Анализ и проектирование систем*Data Mining*Big Data*Data Engineering*

Перевод

(Корень всех зол в data engineering лежит в излишне сложном конвейере обработки данных)

Исторический контекст

Разработка конвейера данных достаточно серьезная задача, а с учетом областей с огромными объемами данных, эта сложность многократно увеличивается. Инструменты и концепции, связанные с большими данными, начали развиваться примерно в начале 2000-х годов, когда масштабы и скорость интернета резко начали возрастать. Компании внезапно обнаружили, что им приходится иметь дело с огромными объемами и скоростью передачи данных. Возможно, одним из пионеров в этой области был Google, инженеры которого боролись с поисковым сканером и индексатором. По сути это по, которое в то время лежало в основе поисковика Google. Поскольку количество веб-сайтов и страниц астрономически росло, Google не мог решить, как масштабировать свой сканер/индексатор, используя существующие вычислительные ресурсы, которые были распределены географически. Ни одна из коммерческих баз данных или технологий в то время не могла масштабироваться быстро и с минимальными затратами, и обе эти технологии были необходимы Google для масштабирования своего основного продукта.

Читать дальше →

+10

a_zenchenko 6 ноя 2020 в 13:52

7 достойных курсов по изучению Git и Github

3 мин

41K

Git*GitHub*Учебный процесс в ITЧитальный зал

Перевод

Привет, хабр! Продолжаю делиться полезными подборками. Я уже публиковал посты с Github репозиторими (Часть 1 и Часть 2), а также подборку из 10 книг для разработчиков. Решил, не останавливаться:) Кому интересно — добро пожаловать под кат.

Читать дальше →

-1

Leono 28 янв 2018 в 16:17

Применение моделей CatBoost внутри ClickHouse. Лекция Яндекса

8 мин

14K

Open source*Блог компании ЯндексПромышленное программирование*Машинное обучение*

В каких ситуациях удобно применять предобученные модели машинного обучения внутри ClickHouse? Почему для такой задачи лучше всего подходит метод CatBoost? Не так давно мы провели встречу, посвящённую одновременному использованию этих двух опенсорс-технологий. На встрече выступил разработчик Николай Кочетов — его лекцией мы и решили с вами поделиться. Николай разбирает описанную задачу на примере алгоритма предсказания вероятности покупки.

— Сначала о том, как устроен ClickHouse. ClickHouse — это аналитическая распределенная СУБД. Она столбцовая и с открытым исходным кодом. Самое интересное слово здесь — «столбцовая». Что оно значит?

+24

skillfactory_school 14 июл 2020 в 12:28

Продвинутый уровень визуализации данных для Data Science на Python

7 мин

50K

Python*Big Data*Блог компании SkillfactoryВизуализация данных*Учебный процесс в IT

Перевод

Как сделать крутые, полностью интерактивные графики с помощью одной строки Python

Когнитивное искажение о невозвратных затратах (sunk cost fallacy) является одним из многих вредных когнитивных предубеждений, жертвой которых становятся люди. Это относится к нашей тенденции продолжать посвящать время и ресурсы проигранному делу, потому что мы уже потратили — утонули — так много времени в погоне. Заблуждение о заниженной стоимости применимо к тому, чтобы оставаться на плохой работе дольше, чем мы должны, рабски работать над проектом, даже когда ясно, что он не будет работать, и да, продолжать использовать утомительную, устаревшую библиотеку построения графиков — matplotlib — когда существуют более эффективные, интерактивные и более привлекательные альтернативы.

За последние несколько месяцев я понял, что единственная причина, по которой я использую matplotlib, — это сотни часов, которые я потратил на изучение сложного синтаксиса. Эти сложности приводят к часам разочарования, выясняя на StackOverflow, как форматировать даты или добавить вторую ось Y. К счастью, это прекрасное время для построения графиков в Python, и после изучения вариантов, явным победителем — с точки зрения простоты использования, документации и функциональности — является библиотека plotly. В этой статье мы погрузимся прямо в plotly, изучая, как создавать лучшие графики за меньшее время — часто с помощью одной строки кода.

Читать дальше →

+23

shwars 25 июн 2020 в 14:52

Microsoft ♥️ Python

14 мин

11K

Python*Блог компании MicrosoftБлог компании Конференции Олега Бунина (Онтико)Microsoft Azure*Облачные сервисы*

Традиционно считается, что Microsoft хорошо поддерживает языки программирования на платформе .NET: C# или F#. Но это не совсем так — облако Azure поддерживает целый спектр языков, среди которых Python занимает почетное место. А если речь заходит о машинном обучении, то Python здесь любимчик.

Какие сервисы в Microsoft ориентированы на Python, как их использовать и почему Microsoft и Python вместе навсегда, расскажет Дмитрий Сошников (@shwars).

Дмитрий Сошников работает в Microsoft 13 лет, 10 из которых — технологическим евангелистом. В Microsoft Дмитрий защищает пользователей продуктов для разработчиков от разработчиков продуктов в роли Cloud Developer Advocate. Когда возникают проблемы с продуктами компании, ему можно пожаловаться (идеально в виде issue на GitHub). Дмитрий не только посочувствует, но и передаст жалобу разработчикам компании.

+15

entony 22 мая 2019 в 16:23

ML на Scala с улыбкой, для тех, кто не боится экспериментов

7 мин

5.9K

Scala*Машинное обучение*Блог компании Юла

Всем привет! Сегодня будем говорить о реализации машинного обучения на Scala. Начну с объяснения, как мы докатились до такой жизни. Итак, наша команда долгое время использовала все возможности машинного обучения на Python. Это удобно, есть много полезных библиотек для подготовки данных, хорошая инфраструктура для разработки, я имею в виду Jupyter Notebook. Всё бы ничего, но столкнулись с проблемой распараллеливания вычислений в production, и решили использовать в проде Scala. Почему бы и нет, подумали мы, там есть куча библиотек, даже Apache Spark написан на Scala! При этом, сегодня модели мы разрабатываем на Python, а затем повторяем обучение на Scala для дальнейшей сериализации и использования в production. Но, как говорится, дьявол кроется в деталях.

Сразу хочу внести ясность, дорогой читатель, эта статья написана не с целью пошатнуть репутацию Python в вопросах машинного обучения. Нет, основная цель — приоткрыть дверь в мир машинного обучения на Scala, сделать небольшой обзор альтернативного подхода, вытекающего из нашего опыта, и рассказать, с какими трудностями мы столкнулись.

Читать дальше →

+16

a-pichugin 8 июл 2019 в 13:20

Топ-13 библиотек Scala для анализа данных

6 мин

Data Mining*Scala*Big Data*Блог компании New Professions LabМашинное обучение*

Перевод

Последнее время язык Scala стал обширно применяться специалистами Data Science. Он приобрел популярность в основном благодаря появлению Spark, который написан на Scala. На практике, часто на этапе исследования анализ и создание модели выполняются в Python, а затем реализуются в Scala, поскольку этот язык больше подходит для production.

Мы подготовили подробный обзор наиболее интересных библиотек, используемых для реализации задач машинного обучения и data science в Scala. Часть из них используется в нашей образовательной программе "Анализ данных на Scala".

Для удобства все представленные в рейтинге библиотеки были разделены на 5 групп: анализ данных и математика, NLP, визуализация, машинное обучение и прочее.

Читать дальше →

a-pichugin 4 дек 2017 в 13:23

Введение в обучение с подкреплением: от многорукого бандита до полноценного RL агента

11 мин

37K

Python*Data Mining*Big Data*Блог компании New Professions LabМашинное обучение*

Перевод

Привет, Хабр! Обучение с подкреплением является одним из самых перспективных направлений машинного обучения. С его помощью искусственный интеллект сегодня способен решать широчайший спектр задач: от робототехники и видеоигр до моделирования поведения покупателей и здравоохранения. В этой вводной статье мы изучим главную идею reinforcement learning и с нуля построим собственного самообучающегося бота.

Читать дальше →

greenwo1f 14 авг 2018 в 12:53

Многорукие бандиты в рекомендациях

9 мин

23K

Python*Data Mining*Алгоритмы*Машинное обучение*Блог компании AvitoTech

Всем привет! Меня зовут Миша Каменщиков, я занимаюсь Data Science и разработкой микросервисов в команде рекомендаций Авито. В этой статье я расскажу про наши рекомендации похожих объявлений и о том, как мы улучшаем их при помощи многоруких бандитов. С докладом на эту тему я выступал на конференции Highload++ Siberia и на мероприятии «Data & Science: Маркетинг».

Читать дальше →

+40

introvertingCode 7 апр 2020 в 11:36

LDA на статьях LiveJournal + визуализация

3 мин

2.2K

Python*Natural Language Processing*

Как-то раз стало интересно, какие темы выделит LDA (латентное размещение Дирихле) на материалах «Живого Журнала». Как говорится, есть интерес — нет проблем.

Для начала немного про LDA на пальцах, вдаваться в математические подробности не будем (кому интересно — почитает). Итак, LDA — является одним из наиболее распространенных алгоритмов для моделирования тем. Каждый документ (будь то статья, книга или любой другой источник текстовых данных) представляет собой смесь тем, а каждая тема представляет собой смесь слов.

Картинка взята из Википедии

Читать дальше →

Продвинутое использование библиотеки PYTORCH: от подготовки данных до визуализации

BERT, ELMO и Ко в картинках (как в NLP пришло трансферное обучение)

Сэмплирование Томпсона

Интерактивная визуализация данных при помощи Plotly: строим красивые графики с Express и Cufflinks

10 полезных расширений для дата-сайентистов

Как сделать Data Science приложение для Windows (и не только) с графическим интерфейсом с помощью PySimpleGUI

Сканирующее окно по массивам NumPy

Интервальное прогнозирование временных рядов с помощью рекуррентных нейронных сетей с долгой краткосрочной памятью…

Snowflake, Anchor Model, ELT и как с этим жить

Дизайн и подходы создания Big Data пайплайнов

Исторический контекст

Рекомендательные системы, основанные на графах

7 достойных курсов по изучению Git и Github

Применение моделей CatBoost внутри ClickHouse. Лекция Яндекса

Продвинутый уровень визуализации данных для Data Science на Python

Microsoft ♥️ Python

ML на Scala с улыбкой, для тех, кто не боится экспериментов

Топ-13 библиотек Scala для анализа данных

Введение в обучение с подкреплением: от многорукого бандита до полноценного RL агента

Многорукие бандиты в рекомендациях

LDA на статьях LiveJournal + визуализация

Информация