Как стать автором
Обновить

Бесплатная GPU Tesla K80 для ваших экспериментов с нейросетями

Время на прочтение6 мин
Количество просмотров72K


Около месяца назад Google сервис Colaboratory, предоставляющий доступ к Jupyter ноутбукам, включил возможность бесплатно использовать GPU Tesla K80 с 13 Гб видеопамяти на борту. Если до сих пор единственным препятствием для погружения в мир нейросетей могло быть отсутствие доступа к GPU, теперь Вы можете смело сказать, “Держись Deep Learning, я иду!”.


Я попробовал использовать Colaboratory для работы над kaggle задачами. Мне больше всего не хватало возможности удобно сохранять натренированные tensorflow модели и использовать tensorboard. В данном посте, я хочу поделиться опытом и рассказать, как эти возможности добавить в colab. А напоследок покажу, как можно получить доступ к контейнеру по ssh и пользоваться привычными удобными инструментами bash, screen, rsync.

Читать дальше →
Всего голосов 44: ↑42 и ↓2+40
Комментарии29

Автоматическая векторизация спутниковых снимков: одна модель — два первых места

Время на прочтение10 мин
Количество просмотров15K

image


Всем привет!


В данной статье хочу поделиться с вами историей о том, как одна и та же архитектура модели принесла сразу две победы в соревнованиях по машинному обучению на платформе topcoder с интервалом месяц.


Речь пойдёт о следующих соревнованиях:


  • Urban 3d mapper — поиск домиков на спутниковых снимках. Соревнование длилось 2 месяца, было 54 участников и пять призовых мест.
  • Spacenet: road detection challenge — поиск графа дорог. На решение также давалось 2 месяца, включало 33 участника и пять призовых позиций.

В статье рассказывается об общих подходах к решению таких задач и особенностях реализации для конкретных конкурсов.


Для комфортного чтения статьи желательно обладать базовыми знаниями о свёрточных нейронных сетях и их обучении.

Читать дальше →
Всего голосов 62: ↑62 и ↓0+62
Комментарии4

Коэффициент Джини. Из экономики в машинное обучение

Время на прочтение17 мин
Количество просмотров124K
Интересный факт: в 1912 году итальянский статистик и демограф Коррадо Джини написал знаменитый труд «Вариативность и изменчивость признака», и в этом же году «Титаник» затонул в водах Атлантики. Казалось бы, что общего между этими двумя событиями? Всё просто, их последствия нашли широкое применение в области машинного обучения. И если датасет «Титаник» в представлении не нуждается, то об одной замечательной статистике, впервые опубликованной в труде итальянского учёного, мы поговорим поподробней. Сразу хочу заметить, что статья не имеет никакого отношения к коэффициенту Джини (Gini Impurity), который используется в деревьях решений как критерий качества разбиения в задачах классификации. Эти коэффициенты никак не связаны друг с другом и общего между ними примерно столько же, сколько общего между трактором в Брянской области и газонокосилкой в Оклахоме.

Коэффициент Джини (Gini coefficient) — метрика качества, которая часто используется при оценке предсказательных моделей в задачах бинарной классификации в условиях сильной несбалансированности классов целевой переменной. Именно она широко применяется в задачах банковского кредитования, страхования и целевом маркетинге. Для полного понимания этой метрики нам для начала необходимо окунуться в экономику и разобраться, для чего она используется там.
Читать дальше →
Всего голосов 67: ↑66 и ↓1+65
Комментарии17

Как быстро написать и выкатить в продакшн алгоритм машинного обучения

Время на прочтение15 мин
Количество просмотров14K
Сейчас анализ данных все шире используется в самых разных, зачастую далеких от ИТ, областях и задачи, стоящие перед специалистом на ранних этапах проекта радикально отличаются от тех, с которыми сталкиваются крупные компании с развитыми отделами аналитики. В этой статье я расскажу о том, как быстро сделать полезный прототип и подготовить простой API для его использования прикладным программистом.

Для примера рассмотрим задачу предсказания цены на трубы размещенную на платформе для соревнований Kaggle. Описание и данные можно найти здесь. На самом деле на практике очень часто встречаются задачи в которых надо быстро сделать прототип имея очень небольшое количество данных, а то и вообще не имея реальных данных до момента первого внедрения. В этих случаях приходится подходить к задаче творчески, начинать с несложных эвристик и ценить каждый запрос или размеченный объект. Но в нашей модельной ситуации таких проблем, к счастью, нет и поэтому мы можем сразу начать с обзора данных, определения задачи и попыток применения алгоритмов.
Читать дальше →
Всего голосов 17: ↑14 и ↓3+11
Комментарии4

Применяем Deep Watershed Transform в соревновании Kaggle Data Science Bowl 2018

Время на прочтение7 мин
Количество просмотров8.3K

Применяем Deep Watershed Transform в соревновании Kaggle Data Science Bowl 2018


Представляем вам перевод статьи по ссылке и оригинальный докеризированный код. Данное решение позволяет попасть примерно в топ-100 на приватном лидерборде на втором этапе конкурса среди общего числа участников в районе нескольких тысяч, используя только одну модель на одном фолде без ансамблей и без дополнительного пост-процессинга. С учетом нестабильности целевой метрики на соревновании, я полагаю, что добавление нескольких описанных ниже фишек в принципе может также сильно улучшить и этот результат, если вы захотите использовать подобное решение для своих задач.



описание пайплайна решения

Читать дальше →
Всего голосов 31: ↑29 и ↓2+27
Комментарии0

Настройка модели машинного обучения: подбор признаков и оптимизация гиперпараметров

Время на прочтение26 мин
Количество просмотров19K

Введение


В предыдущей статье цикла мы обсудили постановку задачи анализа данных, сделали первые шаги в настройке модели машинного обучения и написали интерфейс, удобный для использования прикладным программистом. Сегодня мы проведем дальнейшее исследование задачи — поэкспериментируем с новыми признаками, попробуем более сложные модели и варианты их настроечных параметров.



В статье, насколько возможно, используется русскоязычная терминология, выбранная автором на основе буквальных переводов англоязычных терминов и устоявшегося в сообществе сленга. О ней можно почитать здесь.
Читать дальше →
Всего голосов 7: ↑4 и ↓3+1
Комментарии10

Как быстро найти и не потерять AI и Data Science специалистов

Время на прочтение9 мин
Количество просмотров10K

В соавторстве с Анной Перовой


Введение


Каждый день человечество создает, использует и хранит огромные объемы данных. Каждая статья, пост в блоге или instagram, каждый лайк да и вообще каждый факт коммуникации — данные, которые, будучи обработанными становятся ценными, приносят прибыль и предостерегают от рисков того кто ими владеет и умеет извлекать соответствующую информацию.


С ростом возможностей анализа данных и осознания полезности имеющихся архивов повышается и потребность в экспертах по Data Science, машинного обучения и искусственного интеллекта (AI), способных работать с данными и создавать на их основе полезные модели, а также, системы самостоятельно обрабатывающие данные и заставляющие их работать.


Почему тем, кто набирает команды в этой сфере необходимо задуматься о новых методах рекрутинга?


Как еще в 2015 году писали на TechCrunch, по мнению Mckinsey, которые, надо признать оказались не далеко от истины, 490 000 специалистов потребуется в этой области к 2018 году.

Читать дальше →
Всего голосов 18: ↑10 и ↓8+2
Комментарии16

Школа Данных: как совместить математику и бизнес

Время на прочтение4 мин
Количество просмотров5.5K
image

Что мешает успешно совместить математику и бизнес?

Этот текст — первая из серии статей о том, как корректно встроить инструменты big data с выгодой для бизнеса.

Маленький спойлер: все получится, если помнить о самом бизнесе.

Еще 5 лет назад крупные компании хотели внедрить у себя новомодную “бигдату”. Но настоящих экспериментаторов было мало. Исключениями стали те, кто точно обладал массой данных: телеком, банковский сектор, интернет-компании. А в 2018 году за экспертизой в больших данных бизнесы приходят сами, причем из самых неожиданных отраслей: металлургия, страхование, авиаиндустрия.
Читать дальше →
Всего голосов 8: ↑7 и ↓1+6
Комментарии8

Kaggle: Amazon from Space — трюки и хаки при обучении нейросетей

Время на прочтение9 мин
Количество просмотров19K


Летом прошлого года закончилось соревнование на площадке kaggle, которое было посвящено классификации спутниковых снимков лесов Амазонки. Наша команда заняла 7 место из 900+ участников. Не смотря на то, что соревнование закончилось давно, почти все приемы нашего решения применимы до сих пор, причём не только для соревнований, но и для обучения нейросетей для прода. За подробностями под кат.
Читать дальше →
Всего голосов 60: ↑58 и ↓2+56
Комментарии12

Соревнование Kaggle Home Credit Default Risk — анализ данных и простые предсказательные модели

Время на прочтение33 мин
Количество просмотров19K
На датафесте 2 в Минске Владимир Игловиков, инженер по машинному зрению в Lyft, совершенно замечательно объяснил, что лучший способ научиться Data Science — это участвовать в соревнованиях, запускать чужие решения, комбинировать их, добиваться результата и показывать свою работу. Собственно в рамках этой парадигмы я и решил посмотреть внимательнее на соревнование по оценке кредитного риска от Home Credit и объяснить (начинающим дата саентистам и прежде всего самому себе), как правильно анализировать подобные датасеты и строить под них модели.


Читать дальше →
Всего голосов 19: ↑18 и ↓1+17
Комментарии9

iMaterialist Furniture Challenge или 50 оттенков стульев

Время на прочтение5 мин
Количество просмотров4.8K
Недавно на Kaggle закончилось соревнование iMaterialist Challenge (Furniture), задачей в котором было классифицировать изображения на 128 видов мебели и предметов быта (так называемая fine-grained classification, где классы очень близки друг к другу).

В этой статье я опишу подход, который принес нам с m0rtido третье место, но прежде, чем переходить к сути, предлагаю воспользоваться для решения этой задачи естественной нейросетью в голове и разделить стулья на фото ниже на три класса.


Читать дальше →
Всего голосов 28: ↑28 и ↓0+28
Комментарии8

Выявление и классификация токсичных комментариев. Лекция в Яндексе

Время на прочтение10 мин
Количество просмотров16K
Во всех современных системах модерации используется либо краудсорсинг, либо уже ставшее классикой машинное обучение. На очередной тренировке по ML в Яндексе Константин Котик, Игорь Галицкий и Алексей Носков рассказали о своём участии в конкурсе по массовому выявлению оскорбительных комментариев. Конкурс проходил на платформе Kaggle.


— Всем привет! Меня зовут Константин Котик, я data scientist в компании «Кнопка жизни», студент физфака и Высшей школы бизнеса МГУ.
Всего голосов 27: ↑25 и ↓2+23
Комментарии21

kaggle: IEEE's Camera Model Identification

Время на прочтение7 мин
Количество просмотров6.4K
В конце зимы этого года прошло соревнование IEEE's Signal Processing Society — Camera Model Identification. Я участвовал в этом командном соревновании в качестве ментора. Об альтернативном способе формирования команды, решении и втором этапе под катом.


Читать дальше →
Всего голосов 40: ↑37 и ↓3+34
Комментарии5

3-е место в отборочном этапе DataScienceGame 2018

Время на прочтение10 мин
Количество просмотров6.9K
image

Недавно закончился отборочный этап DataScienceGame2018, который проходил в формате kaggle InClass. DataScienceGame — это международное студенческое соревнование, которое проводится на ежегодной основе. Нашей команде удалось оказаться на 3м месте среди более чем 100 команд и при этом НЕ пройти в финальный этап.
Читать дальше →
Всего голосов 23: ↑23 и ↓0+23
Комментарии9

Как студенты из Перми попали в финал международного чемпионата по анализу данных Data Mining Cup 2019

Время на прочтение5 мин
Количество просмотров3.7K
Всем привет. В этой статье я расскажу о нашем опыте участия в соревновании по анализу данных Data Mining Cup 2019 (DMC) и о том, как нам удалось войти в ТОП-10 команд и принять участие в очном финале чемпионата в Берлине.

image
Читать дальше →
Всего голосов 13: ↑12 и ↓1+11
Комментарии0

Машинное обучение vs. аналитический подход

Время на прочтение5 мин
Количество просмотров7.9K


Какое-то время назад мы нашли свои старые материалы, по которым обучали первые потоки на наших курсах машинного обучения в Школе Данных и сравнили их с теперешними. Мы удивились, сколько всего мы добавили и поменяли за 5 лет обучения. Осознав, почему мы это сделали и как, на самом деле, поменялся подход к решению задач Data Science, мы решили написать вот эту публикацию.
Читать дальше →
Всего голосов 19: ↑16 и ↓3+13
Комментарии7

Kaggle-подходы для CV в проде: внедрить нельзя выпилить

Время на прочтение6 мин
Количество просмотров12K
Среди дата сайнтистов ведется немало холиваров, и один из них касается соревновательного машинного обучения. Действительно ли успехи на Kaggle показывают способности специалиста решать типичные рабочие задачи? Арсений arseny_info (R&D Team Lead @ WANNABY, Kaggle Master, далее в тексте A.) и Артур n01z3 (Head of Computer Vision @ X5 Retail Group, Kaggle Grandmaster, далее в тексте N.) отмасштабировали холивар на новый уровень: вместо очередного обсуждения в чате взяли микрофоны и устроили публичное обсуждение на митапе, по мотивам которого и родилась эта статья.
Читать дальше →
Всего голосов 54: ↑53 и ↓1+52
Комментарии4

Kaggle: не можем ходить — будем бегать

Время на прочтение19 мин
Количество просмотров13K
Насколько сложна тема машинного обучения? Если Вы неплохо математически подкованы, но объем знаний о машинном обучении стремится к нулю, как далеко Вы сможете зайти в серьезном конкурсе на платформе Kaggle?


Попробуем выяснить, насколько глубока кроличья нора
Всего голосов 30: ↑29 и ↓1+28
Комментарии13

Quick Draw Doodle Recognition: как подружить R, C++ и нейросетки

Время на прочтение32 мин
Количество просмотров6.7K


Привет, Хабр!

Осенью прошлого года на Kaggle проходил конкурс по классификации нарисованных от руки картинок Quick Draw Doodle Recognition, в котором среди прочих поучаствовала команда R-щиков в составе Артема Клевцова, Филиппа Управителева и Андрея Огурцова. Подробно описывать соревнование не будем, это уже сделано в недавней публикации.

С фармом медалек в этот раз не сложилось, но было получено много ценного опыта, поэтому о ряде наиболее интересных и полезных на Кагле и в повседневной работе вещей хотелось бы рассказать сообществу. Среди рассмотренных тем: нелегкая жизнь без OpenCV, парсинг JSON-ов (на этих примерах рассматривается интеграция кода на С++ в скрипты или пакеты на R посредством Rcpp), параметризация скриптов и докеризация итогового решения. Весь код из сообщения в пригодном для запуска виде доступен в репозитории.

Содержание:


  1. Эффективная загрузка данных из CSV в базу MonetDB
  2. Подготовка батчей
  3. Итераторы для выгрузки батчей из БД
  4. Выбор архитектуры модели
  5. Параметризация скриптов
  6. Докеризация скриптов
  7. Использование нескольких GPU в облаке Google Cloud
  8. Вместо заключения
Читать дальше →
Всего голосов 48: ↑48 и ↓0+48
Комментарии7

Резидентская программа Яндекса, или Как опытному бэкендеру стать ML-инженером

Время на прочтение5 мин
Количество просмотров13K


Яндекс открывает резидентскую программу по машинному обучению для опытных бэкенд-разработчиков. Если вы много писали на C++/Python и хотите применить эти знания в ML — то мы научим вас заниматься практическими исследованиями и выделим опытных кураторов. Вы поработаете над ключевыми сервисами Яндекса и получите навыки в таких областях, как линейные модели и градиентный бустинг, рекомендательные системы, нейросети для анализа изображений, текста и звука. Ещё вы узнаете, как правильно оценивать свои модели с помощью метрик в офлайне и онлайне.

Продолжительность программы — один год, в течение которого участники будут работать в управлении машинного интеллекта и исследований Яндекса, а также посещать лекции и семинары. Участие оплачивается и предполагает полную занятость: 40 часов в неделю, начиная с 1 июля этого года. Приём заявок уже открыт и продлится до 1 мая. 

А теперь подробнее — о том, какую аудиторию мы ждём, каким будет рабочий процесс и в целом, как бэкенд-специалисту переключиться на карьеру в ML.

Читать дальше →
Всего голосов 33: ↑32 и ↓1+31
Комментарии17