Как стать автором
Обновить
93.45
Рейтинг
Open Data Science
Крупнейшее русскоязычное Data Science сообщество
Сначала показывать
  • Новые
  • Лучшие

Новый запуск курса Natural Language Processing

Блог компании Open Data Science Блог компании Huawei Машинное обучение *Искусственный интеллект Natural Language Processing *

TL;DR: Этой осенью сообщество Open Data Science и компания Huawei делают новый запуск курса. Регистрироваться на сайте ODS.ai

посмотреть, что внутри
Всего голосов 10: ↑10 и ↓0 +10
Просмотры 4.7K
Комментарии 7

Анализ вакансий и зарплат в Data Science

Блог компании Open Data Science Big Data *Машинное обучение *Карьера в IT-индустрии Искусственный интеллект

Привет, Хабр!

Делимся нашим исследованием вакансий и зарплат в сфере data science и data engineering. Спрос на специалистов растет, или рынок уже насытился, какие технологии теряют, а какие набирают популярность, размер зарплатных вилок и от чего они зависят?

Для анализа мы использовали вакансии, публикуемые в сообществе ODS. По правилам сообщества все вакансии должны иметь зарплатную вилку от и до и подробное описание вакансии - есть что анализировать. К статье прилагается репозиторий с ноутбуком и исходными данными.

Читать далее
Всего голосов 35: ↑34 и ↓1 +33
Просмотры 20K
Комментарии 17

О квантовых компьютерах, биткоине и превосходстве. Лекция открытого курса qmlcourse

Блог компании Open Data Science Машинное обучение *Научно-популярное Квантовые технологии

Это первая статья из планируемого цикла статей в рамках открытого курса по квантовому машинному обучению. В этой статье мы попытаемся ответить на самые частые вопросы, которые можно встретить в комментариях к статьям к хабе "Квантовые технологии". А именно, мы поговорим о том, что это за компьютеры вообще, какие задачи они могут решать и для чего все так хотят их создать. Дальше мы постараемся оценить тот размер квантовых компьютеров, который необходим для того, чтобы они стали практически полезными и сравним его с теми размерами, которые имеют самые топовые квантовые компьютеры сегодня. В конце немного обсудим тему квантового превосходства, а именно, что это такое ну и немного поговорим о том, сколько стоит сегодня запустить что-то на настоящем квантовом компьютере в облаке.

Поехали!
Всего голосов 30: ↑29 и ↓1 +28
Просмотры 6.2K
Комментарии 4

Создание и балансировка инвестиционного портфеля с помощью ML

Блог компании Open Data Science Data Mining *Машинное обучение *Искусственный интеллект Финансы в IT

В прошлой статье я писал про свои ML-модели для оценки отдельных компаний, но вопрос формирования итогового портфеля совсем не затрагивал. В этом посте хочу рассказать о том, как я собираю свой личный портфель, а так же поделиться сайтом, на котором реализую весь описанный в статье функционал http://stocks.ml. Дисклеймер: у автора нет экономического образования и все выводы и суждения в статье делаются на основе житейского опыта и здравого смысла.

Читать далее
Всего голосов 23: ↑21 и ↓2 +19
Просмотры 14K
Комментарии 20

Учиться, учиться, и ещё раз учиться?

Блог компании Open Data Science Анализ и проектирование систем *Машинное обучение *Управление проектами *Управление продуктом *

TLDR: крохотные модельки обошли модные графовые нейронки в предсказании свойств молекул.
Код: здесь. Берегите Природу.


image
ФОТО: Андерс Хеллберг для Wikimedia Commons, модель — Грета Тунберг


Необученная графовая свёрточная нейронная сеть [1] (uGCN) со случайной инициализацией весов уже пару лет занимает первое место в моём списке алгоритмов для задач машинного обучения на графах из-за копеечной стоимости, простоты реализации, да вполне очевидной элегантности решения. В то же время, насколько мне известно, никто ещё не не проводил соревнований между этой простой моделью и её старшей сестрой — полноценно обученной графовой свёрточной нейронной сетью (GCN) в режиме обучения с учителем. Вот я сделал.


Мотивация: показать, что uGCN выдаёт качественные представления, которые можно использовать в последующих задачах машинного обучения в индуктивном режиме, когда модели обобщаются к не виденным ранее данным (вдохновлено недавним отчётом [2] о производительности простых моделей в трансдуктивном случае).


Полученные результаты — занимательны. В худшем случае простые модели (uGCN + degree kernel + random forest) показали счёт 54:90 против полноценно обученных GCN, в то время как реалистичный сценарий закончился разгромным реваншем 93:51, указывающим на то, что мы можем позволить себе почти бесплатные эмбеддинги, которые превосходят или показывают результаты на уровне полноценно обученных GCN в задаче предсказания свойств графа (например — эффекта медикаментов: яд или лекарство) за долю стоимости. Простые модели обучались ~10 минут в то время как весь эксперимент продлился ~4 часа. Перейдём же к деталям и разберёмся с тем, что произошло!

Читать дальше →
Всего голосов 34: ↑31 и ↓3 +28
Просмотры 9.4K
Комментарии 2

DeepPavlov стал частью Google Summer of Code в 2021 году

Блог компании Open Data Science Машинное обучение *Искусственный интеллект Natural Language Processing *Удалённая работа

В этом году открытая платформа для обработки естественного языка DeepPavlov, разрабатываемая лабораторией нейронных систем и глубокого обучения МФТИ,  впервые стала частью ежегодной программы для молодых разработчиков Google Summer of Code.

Google Summer of Code (GSoC) — это ежегодное событие, проводимое компанией Google для привлечения молодых разработчиков к разработке проектов с открытым исходным кодом в их свободное летнее время. К участию допускаются студенты высших учебных заведений (бакалавриат, магистратура, аспирантура) и колледжей. Это отличная возможность не только развить навыки программирования, но и заработать!

Работать можно в любой организации, которая есть в соответствующем списке на странице Google Summer of Code, но мы предлагаем вам участвовать в рамках сообщества DeepPavlov. И сегодня мы расскажем подробнее о приеме и задачах, которые готовы предложить студентам этим летом. Вместе с вами мы выведем сообщество разработчиков ПО с открытым исходным кодом на новый уровень. 

Читать далее
Всего голосов 8: ↑8 и ↓0 +8
Просмотры 2.8K
Комментарии 12

Мои machine learning тулы для инвестирования

Блог компании Open Data Science Data Mining *Машинное обучение *Венчурные инвестиции Искусственный интеллект

В последнее время все больше людей приходит к тому, чтобы не держать деньги под матрасом, а куда-то их инвестировать в надежде сохранить и преумножить свой капитал. Вариант с матрасом плох тем, что с повышением цен на товары и услуги(инфляция) покупательная способность денег падает и через какое-то время купить на них можно значительно меньше, чем раньше. Есть много вариантов, куда вложить деньги(недвижимость, банковский вклад, ценные металлы), но в последнее время популярным становится инвестирование в акции. Только у брокера Тинькофф Инвестиции за несколько лет число клиентов превысило 3.5 млн. В статье я постараюсь описать свой подход к выбору бумаг и поделюсь инструментами, которые для этого разрабатываю.

Читать далее
Всего голосов 55: ↑54 и ↓1 +53
Просмотры 26K
Комментарии 38

Собираем Свой Суперкомпьютер Недорого

Блог компании Open Data Science Обработка изображений *Машинное обучение *Развитие стартапа Компьютерное железо

thumbnail


Нынче никого не удивишь достижениями искусственного интеллекта машинного обучения (ML) в самых разных областях. При этом доверчивые граждане редко задают два вопроса: (i) а какая собственно цена экспериментов и финальной системы и (ii) имеет ли сделанное хоть какую-то целесообразность? Самым важным компонентом такой цены являются как ни странно цена на железо и зарплаты людей. В случае если это все крутится в облаке, нужно еще умножать стоимость железа в 2-3 раза (маржа посредника).


И тут мы неизбежно приходим к тому, что несмотря на то, что теперь даже в официальные билды PyTorch добавляют бета-поддержку ROCm, Nvidia де-факто в этом цикле обновления железа (и скорее всего следующем) остается монополистом. Понятно, что есть TPU от Google и мифические IPU от Graphcore, но реальной альтернативы не в облаке пока нет и не предвидится (первая версия CUDA вышла аж 13 лет назад!).


Что делать и какие опции есть, когда зачем-то хочется собрать свой "суперкомпьютер", но при этом не хочется платить маржу, заложенную в продукты для ультра-богатых [мысленно вставить комментарий про госдолг США, майнинг, крах Бреттон-Вудсткой системы, цены на здравоохранение в странах ОЭСР]? Чтобы попасть в топ-500 суперкомпьютеров достаточно купить DGX Superpod, в котором от 20 до 100 с лишним видеокарт. Из своей практики — де-факто серьезное машинное обучение сейчас подразумевает карточки Nvidia в количестве примерно 8-20 штук (понятно что карточки бывают разные).

Читать дальше →
Всего голосов 42: ↑42 и ↓0 +42
Просмотры 24K
Комментарии 97

Рубрика «Читаем статьи за вас». Сентябрь — октябрь 2020 года

Блог компании Open Data Science Алгоритмы *Обработка изображений *Математика *Машинное обучение *

Привет, Хабр! Продолжаем публиковать рецензии на научные статьи от членов сообщества Open Data Science из канала #article_essense. Хотите получать их раньше всех — вступайте в сообщество!

Статьи на сегодня:

1. A Better Use of Audio-Visual Cues: Dense Video Captioning with Bi-modal Transformer (Tampere University, Finland, 2020)
2. Fast Bi-layer Neural Synthesis of One-Shot Realistic Head Avatars (Samsung AI Center, 2020)
3. Enhancing the Locality and Breaking the Memory Bottleneck of Transformer on Time Series Forecasting (University of California, USA, 2019)
4. Whitening for Self-Supervised Representation Learning (University of Trento, Italy, 2020)
5. MelGAN: Generative Adversarial Networks for Conditional Waveform Synthesis (Lyrebird AI and University of Montreal, 2019)
6. StyleFlow: Attribute-conditioned Exploration of StyleGAN-Generated Images using Conditional Continuous Normalizing Flows (KAUST, Adobe, 2020)

Читать далее
Всего голосов 34: ↑34 и ↓0 +34
Просмотры 3.6K
Комментарии 1

Пора избавляться от мышки или Hand Pose Estimation на базе LiDAR за 30 минут

Блог компании Open Data Science Python *Программирование *Машинное обучение *DIY или Сделай сам
Tutorial
image

Всем привет! Пока киберпанк еще не настолько вошел в нашу жизнь, и нейроинтерфейсы далеки от идеала, первым этапом на пути к будущему манипуляторов могут стать LiDAR. Поэтому, чтобы не скучать на праздниках, я решил немного пофантазировать на тему средств управления компьютером и, предположительно, любым устройством, вплоть до экскаватора, космического корабля, дрона или кухонной плиты.
Всего голосов 84: ↑84 и ↓0 +84
Просмотры 27K
Комментарии 74

Шесть степеней свободы: 3D object detection и не только

Блог компании Open Data Science Алгоритмы *Обработка изображений *Машинное обучение *

В компьютерном зрении часто приходится работать с двумерными изображениями, и значительно реже - с 3D объектами. Из-за этого многие ML инженеры чувствуют себя неуверенно в этой области: много незнакомых слов, непонятно, куда тут применить старых друзей Resnet и Unet. Поэтому сегодня я хотел бы немного поговорить о 3D на примере задачи определения шести степеней свободы, что в каком-то виде синонимично 3D object detection. Я разберу одну из свежих работ на эту тему с некоторыми отступлениями. 

Кратко о задаче

Для начала давайте определимся, что такое шесть степеней свободы (6 DoF - degrees of freedom). Представим себе некоторый ригидный (неизменяемый, т.е. при трансформации все точки будут оставаться на той же дистанции друг от друга) объект в трехмерном мире. Чтобы описать его положение относительно наблюдателя понадобится 6 измерений: три будут отвечать за повороты по разным осям, а еще три - за смещение по соответствующим осям. Соответственно, имея эти шесть чисел, мы представляем, как объект расположен относительно какого-то базиса (например, точки, с которой ведется фотосъемка). Эта задача является классической для робототехники (где находится объект, который нужно схватить роборукой?), дополненной реальности (где нарисовать маску в MSQRD, ушки в Snapchat или кроссовки в Wanna Kicks) , беспилотных автомобилей и других доменов.

Я буду рассматривать статью MobilePose: Real-Time Pose Estimation for Unseen Objects with Weak Shape Supervision (Hou et al., 2020). Эта статья, написанная авторами из Google Research, предлагает надежный и, что немаловажно, быстрый пайплайн для решения задачи, будет уместно разобрать его по частям.

Читать далее
Всего голосов 38: ↑38 и ↓0 +38
Просмотры 5.7K
Комментарии 4

Рубрика «Читаем статьи за вас». Июль — август 2020 года

Блог компании Open Data Science Алгоритмы *Обработка изображений *Математика *Машинное обучение *


Привет, Хабр! Продолжаем публиковать рецензии на научные статьи от членов сообщества Open Data Science из канала #article_essense. Хотите получать их раньше всех — вступайте в сообщество!


Статьи на сегодня:


  1. High-Resolution Neural Face Swapping for Visual Effects (Disney Research Studios, ETH Zurich, 2020)
  2. Beyond Accuracy: Behavioral Testing of NLP Models with CheckList (USA, 2020)
  3. Thieves on Sesame Street! Model Extraction of BERT-based APIs (UMass & Google Research, ICLR, 2019)
  4. Time-Aware User Embeddings as a Service (Yahoo! Research, Temple University, 2020)
  5. Are Labels Necessary for Neural Architecture Search? (Johns Hopkins University, Facebook AI Research, 2020)
  6. GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding (Google, 2020)
  7. Data Shapley: Equitable Valuation of Data for Machine Learning (USA, 2019)
  8. Language-agnostic BERT Sentence Embedding (Google AI, 2020)
  9. Self-Supervised Learning for Large-Scale Unsupervised Image Clustering (Technion, Israel, 2020)
  10. Batch-Channel Normalization and Weight Standardization (2 papers, Johns HopkinsUniversity, USA, 2019)
Читать дальше →
Всего голосов 29: ↑28 и ↓1 +27
Просмотры 4.9K
Комментарии 1

Data Fest 2020 — полностью в Online уже завтра

Блог компании Open Data Science Машинное обучение *Конференции Искусственный интеллект
Data Fest пройдет в этом году в онлайн формате 19 и 20 сентября 2020. Фестиваль организован сообществом Open Data Science и как обычно соберет исследователей, инженеров и разработчиков в области анализа данных, искусственного интеллекта и машинного обучения.

Регистрация. Ну а дальше к деталям.

Читать дальше →
Всего голосов 43: ↑40 и ↓3 +37
Просмотры 3.9K
Комментарии 2

Рубрика «Читаем статьи за вас». Июнь 2020 года

Блог компании Open Data Science Алгоритмы *Обработка изображений *Математика *Машинное обучение *


Привет, Хабр! Продолжаем публиковать рецензии на научные статьи от членов сообщества Open Data Science из канала #article_essense. Хотите получать их раньше всех — вступайте в сообщество!


Статьи на сегодня:


  1. PointRend: Image Segmentation as Rendering (Facebook AI Research, 2020)
  2. Natural- To Formal-Language Generation Using Tensor Product Representations (USA, 2019)
  3. Linformer: Self-Attention with Linear Complexity (Facebook AI, 2020)
  4. DetectoRS: Detecting Objects with Recursive Feature Pyramid and Switchable Atrous Convolution (Johns Hopkins University, Google, 2020)
  5. Training Generative Adversarial Networks with Limited Data (NVIDIA, 2020)
  6. Multi-Modal Dense Video Captioning (Tampere University, Finland, 2020
  7. Are we done with ImageNet? (DeepMind, 2020)
Читать дальше →
Всего голосов 27: ↑25 и ↓2 +23
Просмотры 4.6K
Комментарии 0

Итоговые проекты курса Deep Learning in Natural Language Processing (by DeepPavlov Lab)

Блог компании Open Data Science Блог компании Московский физико-технический институт (МФТИ) Python *Искусственный интеллект Natural Language Processing *
Недавно завершился «Deep Learning in Natural Language Processing», открытый образовательный курс по обработке естественного языка. По традиции кураторы курса — сотрудники проекта DeepPavlov, открытой библиотеки для разговорного искусственного интеллекта, которую разрабатывают в лаборатории нейронных систем и глубокого обучения МФТИ. Курс проводился при информационной поддержке сообщества Open Data Science. Если нужно больше деталей по формату курса, то вам сюда. Один из ключевых элементов «DL in NLP» — это возможность почувствовать себя исследователем и реализовать собственный проект.

Периодически мы рассказываем на Medium о проектах, которые участники создают в рамках наших образовательных программ, например о том, как построить разговорного оракула. Сегодня мы готовы поделиться итогами весеннего семестрового курса 2020 года.



Немного данных и аналитики


В этом году мы побили все рекорды по численности курса: в начале февраля записавшихся было около 800 человек. Скажем честно, мы не были готовы к такому количеству участников, поэтому многие моменты придумывали на ходу вместе с ними. Но об этом мы напишем в следующий раз.

Вернемся к участникам. Неужели все окончили курс? Ответ, конечно, очевиден. С каждым новым заданием желающих становилось все меньше и меньше. Как итог — то ли из-за карантина, то ли по другим причинам, но к середине курса осталась только половина. Ну что ж, а дальше пришлось определяться с проектами. В качестве итоговых участниками было заявлено семьдесят работ. А самый популярный проект — Tweet sentiment extraction — девятнадцать команд пытались выполнить задание на Kaggle.

Подробнее про представленные проекты


На прошлой неделе мы провели заключительное занятие курса, где несколько команд представили свои проекты. Если вы пропустили открытый семинар, то мы подготовили запись. А ниже мы постараемся кратко описать реализованные кейсы.
Читать дальше →
Всего голосов 20: ↑19 и ↓1 +18
Просмотры 5.9K
Комментарии 0

Нет времени объяснять, сделай автопилот

Блог компании Open Data Science Python *Алгоритмы *Обработка изображений *Машинное обучение *
image

Здравствуйте, товарищи!

На выходных проходил хакасборкатон — гонки на самоуправляемых моделях автомобилей на базе комплекта donkeycar при содействии Х5, FLESS и сообщества энтузиастов self-driving.

Задача заключалась в следующем: сначала надо было собрать машинку из запчастей, затем ее обучить проходить трассу. Победитель определялся по самому быстрому прохождению 3 кругов. За наезд на конус — дисквалификация.

Хотя подобная задача для машинного обучения не нова, но сложности могут поджидать на всем пути: от невозможности заставить нормально работать вайфай до нежелания обученной модели пилотировать железо по треку. И все это в жестких временных рамках!

Когда мы собирались на это соревнование, сразу было понятно, что будет очень весело и очень сложно, ведь нам давалось всего 5 часов с учётом перерыва на обед чтобы собрать машинку, записать датасет и обучить модель.
Всего голосов 44: ↑43 и ↓1 +42
Просмотры 8.2K
Комментарии 19

Рубрика «Читаем статьи за вас». Май 2020. Часть 2

Блог компании Open Data Science Алгоритмы *Обработка изображений *Математика *Машинное обучение *


Привет, Хабр! Продолжаем публиковать рецензии на научные статьи от членов сообщества Open Data Science из канала #article_essense. Хотите получать их раньше всех — вступайте в сообщество!


Статьи на сегодня:


  1. ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks (China, 2020)
  2. TAPAS: Weakly Supervised Table Parsing via Pre-training (Google, 2020)
  3. DeepFaceLab: A simple, flexible and extensible faceswapping framework (2020)
  4. End-to-End Object Detection with Transformers (Facebook AI, 2020)
  5. Language Models are Few-Shot Learners (OpenAI, 2020)
  6. TabNet: Attentive Interpretable Tabular Learning (Google Cloud AI, 2020)
Читать дальше →
Всего голосов 35: ↑34 и ↓1 +33
Просмотры 6.4K
Комментарии 0

Рубрика «Читаем статьи за вас». Май 2020. Часть 1

Блог компании Open Data Science Алгоритмы *Обработка изображений *Математика *Машинное обучение *


Привет, Хабр! Продолжаем публиковать рецензии на научные статьи от членов сообщества Open Data Science из канала #article_essense. Хотите получать их раньше всех — вступайте в сообщество!


Статьи на сегодня:


  1. Efficient Document Re-Ranking for Transformers by Precomputing Term Representations; EARL: Speedup Transformer-based Rankers with Pre-computed Representation (2020)
  2. MakeItTalk: Speaker-Aware Talking Head Animation (Adobe, University of Massachusetts Amherst, Huya, 2020)
  3. Jukebox: A Generative Model for Music (OpenAI, 2020)
  4. Recipes for building an open-domain chatbot (Facebook AI Research, 2020)
  5. One-Shot Object Detection without Fine-Tuning (HKUST, Hong Kong, Tencent, 2020)
  6. f-BRS: Rethinking Backpropagating Refinement for Interactive Segmentation (Samsung AI Center, Moscow, 2020)
  7. Flowtron: an Autoregressive Flow-based Generative Network for Text-to-Speech Synthesis (NVIDIA, 2020)
Читать дальше →
Всего голосов 26: ↑24 и ↓2 +22
Просмотры 4.1K
Комментарии 3

Рубрика «Читаем статьи за вас». Апрель 2020. Часть 2

Блог компании Open Data Science Алгоритмы *Обработка изображений *Математика *Машинное обучение *


Привет, Хабр! Продолжаем публиковать рецензии на научные статьи от членов сообщества Open Data Science из канала #article_essense. Хотите получать их раньше всех — вступайте в сообщество!


Статьи на сегодня:


  1. Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization (Georgia Institute of Technology, Atlanta, USA, 2016)
  2. X3D: Expanding Architectures for Efficient Video Recognition (Facebook AI Research, 2020)
  3. Adaptive Attention Span in Transformers (Facebook AI Research, 2019)
  4. ResNeSt: Split-Attention Networks (Amazon, 2020)
  5. Weight Standardization (Johns Hopkins University, 2019)
  6. Supervised Contrastive Learning (Google Research, MIT, 2020)
  7. Improved Training Speed, Accuracy, and Data Utilization Through Loss Function Optimization (USA, 2019)
  8. TTNet: Real-time temporal and spatial video analysis of table tennis (OSAI, 2020)
  9. Learning in the Frequency Domain (Alibaba, Arizona, 2020)
Читать дальше →
Всего голосов 36: ↑35 и ↓1 +34
Просмотры 4.7K
Комментарии 0

Рубрика «Читаем статьи за вас». Апрель 2020. Часть 1

Блог компании Open Data Science Алгоритмы *Обработка изображений *Математика *Машинное обучение *


Привет, Хабр! Продолжаем публиковать рецензии на научные статьи от членов сообщества Open Data Science из канала #article_essense. Хотите получать их раньше всех — вступайте в сообщество!


Статьи на сегодня:


  1. TResNet: High Performance GPU-Dedicated Architecture (DAMO Academy, Alibaba Group, 2020)
  2. Controllable Person Image Synthesis with Attribute-Decomposed GAN (China, 2020)
  3. Learning to See Through Obstructions (Taiwan, USA, 2020)
  4. Tracking Objects as Points (UT Austin, Intel Labs, 2020)
  5. CookGAN: Meal Image Synthesis from Ingredients (USA, UK, 2020)
  6. Designing Network Design Spaces (FAIR, 2020)
  7. Gradient Centralization: A New Optimization Technique for Deep Neural Networks (Hong Kong, Alibaba, 2020)
  8. When Does Unsupervised Machine Translation Work? (Johns Hopkins University, USA, 2020)
Читать дальше →
Всего голосов 43: ↑42 и ↓1 +41
Просмотры 4.6K
Комментарии 0

Информация

Дата основания
Местоположение
Россия
Сайт
ods.ai
Численность
5 001–10 000 человек
Дата регистрации