Open Data Science, Москва - Крупнейшее русскоязычное Data Science сообщество / Статьи / Хабр

Как стать автором

Профиль Статьи 179Новости 2Подписчики 11KСотрудники 115

belgraviton 19 авг 2020 в 14:02

Рубрика «Читаем статьи за вас». Июнь 2020 года

15 мин

5.5K

Блог компании Open Data ScienceАлгоритмы*Обработка изображений*Математика*Машинное обучение*

Привет, Хабр! Продолжаем публиковать рецензии на научные статьи от членов сообщества Open Data Science из канала #article_essense. Хотите получать их раньше всех — вступайте в сообщество!

Статьи на сегодня:

PointRend: Image Segmentation as Rendering (Facebook AI Research, 2020)
Natural- To Formal-Language Generation Using Tensor Product Representations (USA, 2019)
Linformer: Self-Attention with Linear Complexity (Facebook AI, 2020)
DetectoRS: Detecting Objects with Recursive Feature Pyramid and Switchable Atrous Convolution (Johns Hopkins University, Google, 2020)
Training Generative Adversarial Networks with Limited Data (NVIDIA, 2020)
Multi-Modal Dense Video Captioning (Tampere University, Finland, 2020
Are we done with ImageNet? (DeepMind, 2020)

Читать дальше →

+23

Moryshka 7 авг 2020 в 14:04

Итоговые проекты курса Deep Learning in Natural Language Processing (by DeepPavlov Lab)

5 мин

7.5K

Блог компании Московский физико-технический институт (МФТИ)Блог компании Open Data SciencePython*Искусственный интеллектNatural Language Processing*

Недавно завершился «Deep Learning in Natural Language Processing», открытый образовательный курс по обработке естественного языка. По традиции кураторы курса — сотрудники проекта DeepPavlov, открытой библиотеки для разговорного искусственного интеллекта, которую разрабатывают в лаборатории нейронных систем и глубокого обучения МФТИ. Курс проводился при информационной поддержке сообщества Open Data Science. Если нужно больше деталей по формату курса, то вам сюда. Один из ключевых элементов «DL in NLP» — это возможность почувствовать себя исследователем и реализовать собственный проект.

Периодически мы рассказываем на Medium о проектах, которые участники создают в рамках наших образовательных программ, например о том, как построить разговорного оракула. Сегодня мы готовы поделиться итогами весеннего семестрового курса 2020 года.

Немного данных и аналитики

В этом году мы побили все рекорды по численности курса: в начале февраля записавшихся было около 800 человек. Скажем честно, мы не были готовы к такому количеству участников, поэтому многие моменты придумывали на ходу вместе с ними. Но об этом мы напишем в следующий раз.

Вернемся к участникам. Неужели все окончили курс? Ответ, конечно, очевиден. С каждым новым заданием желающих становилось все меньше и меньше. Как итог — то ли из-за карантина, то ли по другим причинам, но к середине курса осталась только половина. Ну что ж, а дальше пришлось определяться с проектами. В качестве итоговых участниками было заявлено семьдесят работ. А самый популярный проект — Tweet sentiment extraction — девятнадцать команд пытались выполнить задание на Kaggle.

Подробнее про представленные проекты

На прошлой неделе мы провели заключительное занятие курса, где несколько команд представили свои проекты. Если вы пропустили открытый семинар, то мы подготовили запись. А ниже мы постараемся кратко описать реализованные кейсы.

Читать дальше →

+18

Alex_Donchuk 5 авг 2020 в 14:00

Нет времени объяснять, сделай автопилот

4 мин

9K

Блог компании Open Data SciencePython*Алгоритмы*Обработка изображений*Машинное обучение*

Здравствуйте, товарищи!

На выходных проходил хакасборкатон — гонки на самоуправляемых моделях автомобилей на базе комплекта donkeycar при содействии Х5, FLESS и сообщества энтузиастов self-driving.

Задача заключалась в следующем: сначала надо было собрать машинку из запчастей, затем ее обучить проходить трассу. Победитель определялся по самому быстрому прохождению 3 кругов. За наезд на конус — дисквалификация.

Хотя подобная задача для машинного обучения не нова, но сложности могут поджидать на всем пути: от невозможности заставить нормально работать вайфай до нежелания обученной модели пилотировать железо по треку. И все это в жестких временных рамках!

Когда мы собирались на это соревнование, сразу было понятно, что будет очень весело и очень сложно, ведь нам давалось всего 5 часов с учётом перерыва на обед чтобы собрать машинку, записать датасет и обучить модель.

+42

belgraviton 25 июн 2020 в 14:03

Рубрика «Читаем статьи за вас». Май 2020. Часть 2

13 мин

7.3K

Блог компании Open Data ScienceАлгоритмы*Обработка изображений*Математика*Машинное обучение*

Привет, Хабр! Продолжаем публиковать рецензии на научные статьи от членов сообщества Open Data Science из канала #article_essense. Хотите получать их раньше всех — вступайте в сообщество!

Статьи на сегодня:

ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks (China, 2020)
TAPAS: Weakly Supervised Table Parsing via Pre-training (Google, 2020)
DeepFaceLab: A simple, flexible and extensible faceswapping framework (2020)
End-to-End Object Detection with Transformers (Facebook AI, 2020)
Language Models are Few-Shot Learners (OpenAI, 2020)
TabNet: Attentive Interpretable Tabular Learning (Google Cloud AI, 2020)

Читать дальше →

+33

belgraviton 15 июн 2020 в 14:00

Рубрика «Читаем статьи за вас». Май 2020. Часть 1

14 мин

4.7K

Блог компании Open Data ScienceАлгоритмы*Обработка изображений*Математика*Машинное обучение*

Привет, Хабр! Продолжаем публиковать рецензии на научные статьи от членов сообщества Open Data Science из канала #article_essense. Хотите получать их раньше всех — вступайте в сообщество!

Статьи на сегодня:

Efficient Document Re-Ranking for Transformers by Precomputing Term Representations; EARL: Speedup Transformer-based Rankers with Pre-computed Representation (2020)
MakeItTalk: Speaker-Aware Talking Head Animation (Adobe, University of Massachusetts Amherst, Huya, 2020)
Jukebox: A Generative Model for Music (OpenAI, 2020)
Recipes for building an open-domain chatbot (Facebook AI Research, 2020)
One-Shot Object Detection without Fine-Tuning (HKUST, Hong Kong, Tencent, 2020)
f-BRS: Rethinking Backpropagating Refinement for Interactive Segmentation (Samsung AI Center, Moscow, 2020)
Flowtron: an Autoregressive Flow-based Generative Network for Text-to-Speech Synthesis (NVIDIA, 2020)

Читать дальше →

+22

belgraviton 3 июн 2020 в 14:06

Рубрика «Читаем статьи за вас». Апрель 2020. Часть 2

17 мин

5.6K

Блог компании Open Data ScienceАлгоритмы*Обработка изображений*Математика*Машинное обучение*

Привет, Хабр! Продолжаем публиковать рецензии на научные статьи от членов сообщества Open Data Science из канала #article_essense. Хотите получать их раньше всех — вступайте в сообщество!

Статьи на сегодня:

Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization (Georgia Institute of Technology, Atlanta, USA, 2016)
X3D: Expanding Architectures for Efficient Video Recognition (Facebook AI Research, 2020)
Adaptive Attention Span in Transformers (Facebook AI Research, 2019)
ResNeSt: Split-Attention Networks (Amazon, 2020)
Weight Standardization (Johns Hopkins University, 2019)
Supervised Contrastive Learning (Google Research, MIT, 2020)
Improved Training Speed, Accuracy, and Data Utilization Through Loss Function Optimization (USA, 2019)
TTNet: Real-time temporal and spatial video analysis of table tennis (OSAI, 2020)
Learning in the Frequency Domain (Alibaba, Arizona, 2020)

Читать дальше →

+34

belgraviton 22 мая 2020 в 15:09

Рубрика «Читаем статьи за вас». Апрель 2020. Часть 1

15 мин

5.1K

Блог компании Open Data ScienceАлгоритмы*Обработка изображений*Математика*Машинное обучение*

Привет, Хабр! Продолжаем публиковать рецензии на научные статьи от членов сообщества Open Data Science из канала #article_essense. Хотите получать их раньше всех — вступайте в сообщество!

Статьи на сегодня:

TResNet: High Performance GPU-Dedicated Architecture (DAMO Academy, Alibaba Group, 2020)
Controllable Person Image Synthesis with Attribute-Decomposed GAN (China, 2020)
Learning to See Through Obstructions (Taiwan, USA, 2020)
Tracking Objects as Points (UT Austin, Intel Labs, 2020)
CookGAN: Meal Image Synthesis from Ingredients (USA, UK, 2020)
Designing Network Design Spaces (FAIR, 2020)
Gradient Centralization: A New Optimization Technique for Deep Neural Networks (Hong Kong, Alibaba, 2020)
When Does Unsupervised Machine Translation Work? (Johns Hopkins University, USA, 2020)

Читать дальше →

+41

Safronov 4 мая 2020 в 14:00

Лекарей сжигать нельзя беречь сейчас

16 мин

7.4K

Блог компании Open Data ScienceМатематика*Машинное обучение*Управление проектами*Управление персоналом*

TLDR: кому перестановки делают больнее — меряем свёрткой графов.
Код: RolX и ванильная трёхслойная GCN на мотифах.

Выгорание на рабочем месте повстречал ещё в начале своей карьеры — и с тех пор живо интересуюсь этим вопросом. Представьте обстановку. Большой проект внедрения SAP. Высокие ставки. Амбициозные сроки. Нагрузку каждый воспринимал по-своему. Кто-то сорвался и самоустранился от выполнения обязанностей, кто-то стал токсичнее, у меня самого в какой-то момент чувство юмора пропало. Ненадолго.

Управление изменениями (дисциплина, направленная на снижение напряжения во время внедрения информационных систем) многим обязана медикам. Во-первых, сам феномен эмоционального выгорания впервые зафиксировали у медицинских работников. Во-вторых, первое масштабное исследование, обобщающее 68 кейсов значительных перемен в английских госпиталях, открыло правила успеха для агентов изменения. Кроме того, моделирование эпидемий решает задачу максимизации влияния и позволяет внедрять нововведения быстрее и естественнее через (суб)оптимально выбранных людей на нужных местах.

Всё больше медучреждений перепрофилируют и это вызывает у работников ожидаемый стресс. Покажем, как его можно измерить, а уж где знаки препинания в заголовке ставить — решайте сами.

+22

belgraviton 15 апр 2020 в 14:13

Рубрика «Читаем статьи за вас». Март 2020. Часть 2

13 мин

6.5K

Блог компании Open Data ScienceАлгоритмы*Обработка изображений*Математика*Машинное обучение*

Привет, Хабр!

Продолжаем публиковать рецензии на научные статьи от членов сообщества Open Data Science из канала #article_essense. Хотите получать их раньше всех — вступайте в сообщество! Первая часть мартовской сборки обзоров опубликована ранее.

Статьи на сегодня:

NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis (UC Berkeley, Google Research, UC San Diego, 2020)
Scene Text Recognition via Transformer (China, 2020)
PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization (Imperial College London, Google Research, 2019)
Lagrangian Neural Networks (Princeton, Oregon, Google, Flatiron, 2020)
Deformable Style Transfer (Chicago, USA, 2020)
Rethinking Few-Shot Image Classification: a Good Embedding Is All You Need? (MIT, Google, 2020)
Attentive CutMix: An Enhanced Data Augmentation Approach for Deep Learning Based Image Classification (Carnegie Mellon University, USA, 2020)

Читать дальше →

+39

belgraviton 10 апр 2020 в 13:54

Рубрика «Читаем статьи за вас». Март 2020. Часть 1

12 мин

5.7K

Блог компании Open Data ScienceАлгоритмы*Обработка изображений*Математика*Машинное обучение*

Привет, Хабр! Продолжаем публиковать рецензии на научные статьи от членов сообщества Open Data Science из канала #article_essense. Хотите получать их раньше всех — вступайте в сообщество!

Статьи на сегодня:

Fast Differentiable Sorting and Ranking (Google Brain, 2020)
MaxUp: A Simple Way to Improve Generalization of Neural Network Training (UT Austin, 2020)
Deep Nearest Neighbor Anomaly Detection (Jerusalem, Israel, 2020)
AutoML-Zero: Evolving Machine Learning Algorithms From Scratch (Google, 2020)
SpERT: Span-based Joint Entity and Relation Extraction with Transformer Pre-training (RheinMain University, Germany, 2019)
High-Resolution Daytime Translation Without Domain Labels (Samsung AI Center, Moscow, 2020)
Incremental Few-Shot Object Detection (UK, 2020)

Читать дальше →

+39

ogurtsov 7 апр 2020 в 14:59

Машинное обучение на языке R с использованием пакета mlr3

16 мин

9.3K

Блог компании Open Data ScienceData Mining*R*Машинное обучение*Data Engineering*

Источник: https://mlr3book.mlr-org.com/

Привет, Хабр!

В этом сообщении мы рассмотрим самый продуманный на сегодняшний день подход к машинному обучению на языке R — пакет mlr3 и экосистему вокруг него. Данный подход основан на «нормальном» ООП с использованием R6-классов и на представлении всех операций с данными и моделями в виде графа вычислений. Это позволяет создавать упорядоченные и гибкие пайплайны для задач машинного обучения, но на первых порах может показаться сложным и запутанным. Ниже постараемся внести определенную ясность и замотивировать к использованию mlr3 в ваших проектах.

Содержание:

Читать дальше →

+31

grisme 30 мар 2020 в 11:29

Распространение сферического коня в вакууме по территории РФ

5 мин

49K

Блог компании Open Data ScienceOpen source*Python*Data Mining*Здоровье

Привет от ODS. Мы откликнулись на идею tutu.ru поработать с их датасетом пассажиропотока РФ. И если в посте Milfgard огромная таблица выводов и научпоп, то мы хотим рассказать что под капотом.

Что, опять очередной пост про COVID-19? Да, но нет. Нам это было интересно именно с точки зрения математических методов и работы с интересным набором данных. Прежде, чем вы увидите под катом красивые картинки и графики, я обязан сказать несколько вещей:

любое моделирование — это очень сложный процесс, внутри которого невероятное количество ЕСЛИ и ПРЕДПОЛОЖИМ. Мы о них расскажем.
те, кто работал над этой статьей — не эпидемиологи или вирусологи. Мы просто группа любителей теории графов, практикующих методы моделирования сложных систем. Забавно, но именно в биоинформатике сейчас происходит наиболее существенный прогресс этой узкой области математики. Поэтому мы понимаем язык биологов, хоть и не умеем правильно обосновывать эпидемиологические модели и делать медицинские заключения.
наша симуляция всего лишь распространение сферического коня в вакууме по территории РФ. Не стоит относиться к этому серьезно, но стоит задуматься об общей картине. Она определенно интересная.
эта статья не существовала бы без датасета tutu.ru, за что им огромное спасибо.
мы хотим пригласить других заинтересованных исследователей в ODS.ai и под инициативой ML for Social Good (канал #ml4sg в ODS) вместе улучшать эту модель, чтобы получить опыт и возможность применять ее в будущем. Все интересные задачи, которые мы еще не решили, будут помечены в статье как TODO.

Под катом — результаты нашего марш-броска на датасет.

+78

belgraviton 20 мар 2020 в 15:15

Рубрика «Читаем статьи за вас». Январь — Февраль 2020

22 мин

7.9K

Блог компании Open Data ScienceАлгоритмы*Обработка изображений*Математика*Машинное обучение*

Привет, Хабр! Продолжаем публиковать рецензии на научные статьи от членов сообщества Open Data Science из канала #article_essense. Хотите получать их раньше всех — вступайте в сообщество!

Представлены обзоры 11 статей по Computer Vision, Natural Language Processing, Reinforcement learning и другим темам.

Читать дальше →

+43

Oksumoron 18 фев 2020 в 13:19

Настройка функции потерь для нейронной сети на данных сейсморазведки

13 мин

31K

Блог компании Open Data SciencePython*Геоинформационные сервисы*Машинное обучение*Искусственный интеллект

В прошлой статье мы описали эксперимент по определению минимального объема вручную размеченных срезов для обучения нейронной сети на данных сейсморазведки. Сегодня мы продолжаем эту тему, выбирая наиболее подходящую функцию потерь.

Рассмотрены 2 базовых класса функций – Binary cross entropy и Intersection over Union – в 6-ти вариантах с подбором параметров, а также комбинации функций разных классов. Дополнительно рассмотрена регуляризация функции потерь.

Спойлер: удалось существенно улучшить качество прогноза сети.

Читать дальше →

+34

Laggg 6 фев 2020 в 14:00

Материалы NLP курса от DeepPavlov

4 мин

26K

Блог компании Open Data SciencePython*Машинное обучение*Искусственный интеллектNatural Language Processing*

В этой статье вы найдете материалы очных курсов «Deep Learning in NLP», которые запускались командой DeepPavlov в 2018-2019 годах и которые являлись частичной адаптацией Stanford NLP course — cs224n. Статья будет полезна любым специалистам, погружающимися в обработку текста с помощью машинного обучения. Благодарю физтехов, разрабатывающих открытую библиотеку для разговорного искусственного интеллекта в МФТИ, и Moryshka за разрешение осветить эту тему на Хабре в нашем ods-блоге.

Читать дальше →

+59

belgraviton 29 янв 2020 в 14:00

Рубрика «Читаем статьи за вас». Октябрь — Декабрь 2019

18 мин

8.4K

Блог компании Open Data ScienceАлгоритмы*Обработка изображений*Математика*Машинное обучение*

Привет, Хабр! Продолжаем публиковать рецензии на научные статьи от членов сообщества Open Data Science из канала #article_essense. Хотите получать их раньше всех — вступайте в сообщество!

Статьи на сегодня:

Poly-encoders: Transformer Architectures and Pre-training Strategies for Fast and Accurate Multi-sentence Scoring (Facebook, 2019)
Implicit Discriminator in Variational Autoencoder (Indian Institute of Technology Ropar, 2019)
Self-training with Noisy Student improves ImageNet classification (Google Research, Carnegie Mellon University, 2019)
Momentum Contrast for Unsupervised Visual Representation Learning (Facebook, 2019)
Benchmarking Neural Network Robustness to Common Corruptions and Perturbations (University of California, Oregon State University, 2019)
DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter (Hugging Face, 2019)
Plug and Play Language Models: A Simple Approach To Controlled Text Generation (Uber AI, Caltech, HKUST, 2019)
Deep Salience Representation for F0 Estimation in Polyphonic Music ( New York University, USA, 2017)
Analyzing and Improving the Image Quality of StyleGAN (NVIDIA, 2019)

Читать дальше →

+52

Laggg 23 янв 2020 в 14:00

SVM. Подробный разбор метода опорных векторов, реализация на python

15 мин

136K

Блог компании Open Data SciencePython*Data Mining*Алгоритмы*Машинное обучение*

Привет всем, кто выбрал путь ML-самурая!

Введение:

В данной статье рассмотрим метод опорных векторов (англ. SVM, Support Vector Machine) для задачи классификации. Будет представлена основная идея алгоритма, вывод настройки его весов и разобрана простая реализация своими руками. На примере датасета $inline$ будет продемонстрирована работа написанного алгоритма с линейно разделимыми/неразделимыми данными в пространстве $inline$ и визуализация обучения/прогноза. Дополнительно будут озвучены плюсы и минусы алгоритма, его модификации.

Рисунок 1. Фото цветка ириса из открытых источников

Читать дальше →

+50

Alex_Donchuk 20 янв 2020 в 15:17

TensorRT 6.x.x.x — высокопроизводительный инференс для моделей глубокого обучения (Object Detection и Segmentation)

9 мин

22K

Блог компании Open Data SciencePython*Обработка изображений*Машинное обучение*DevOps*

Туториал

Больно только в первый раз!

Всем привет! Дорогие друзья, в этой статье я хочу поделиться своим опытом использования TensorRT, RetinaNet на базе репозитория github.com/aidonchuk/retinanet-examples (это форк официальной репы от nvidia, который позволит начать использовать в продакшен оптимизированные модели в кратчайшие сроки). Пролистывая сообщения в каналах сообщества ods.ai, я сталкиваюсь с вопросами по использованию TensorRT, и в основном вопросы повторяются, поэтому я решил написать как можно более полное руководство по использованию быстрого инференса на основе TensorRT, RetinaNet, Unet и docker.

Читать дальше →

+55

prickly_u 16 янв 2020 в 14:02

Проект Lacmus: как компьютерное зрение помогает спасать потерявшихся людей

19 мин

22K

Блог компании Open Data ScienceОбработка изображений*Машинное обучение*Искусственный интеллектБудущее здесь

Всем привет!

Возможно, вы уже знаете про инициативу Machine Learning for Social Good (#ml4sg) сообщества Open Data Science. В её рамках энтузиасты на бесплатной основе применяют методы машинного обучения для решения социально-значимых проблем. Мы, команда проекта Lacmus (#proj_rescuer_la), занимаемся внедрением современных Deep Learning-решений для поиска людей, потерявшихся вне населённой местности: в лесу, поле и т.д.

Читать дальше →

+77

Oksumoron 10 янв 2020 в 10:06

Эксперименты с нейронными сетями на данных сейсморазведки

14 мин

17K

Блог компании Open Data SciencePython*Геоинформационные сервисы*Машинное обучение*Искусственный интеллект

Сложность интерпретации данных сейсмической разведки связана с тем, что к каждой задаче необходимо искать индивидуальный подход, поскольку каждый набор таких данных уникален. Ручная обработка требует значительных трудозатрат, а результат часто содержит ошибки, связанные с человеческим фактором. Использование нейронных сетей для интерпретации может существенно сократить ручной труд, но уникальность данных накладывает ограничения на автоматизацию этой работы.

Данная статья описывает эксперимент по анализу применимости нейронных сетей для автоматизации выделения геологических слоев на 2D-изображениях на примере полностью размеченных данных из акватории Северного моря.

Проведение акваториальной сейсморазведки

Рисунок 1. Проведение акваториальной сейсморазведки (источник)

Читать дальше →

+40

4