Articles / Bookmarks / Profile of Dark_Daiver / Habr

How to become an author

Пользователь

ProfileArticlesPostsNewsComments298

mephistopheies Apr 5 2017 at 11:23

Байесовские многорукие бандиты против A/B тестов

20 min

68K

Open Data Science corporate blogPython*Mathematics*Machine learning*Web services testing*

Здравствуйте, коллеги. Рассмотрим обычный онлайн-эксперимент в некоторой компании «Усы и когти». У неё есть веб-сайт, на котором есть красная кнопка в форме прямоугольника с закругленными краями. Если пользователь нажимает на эту кнопку, то где-то в мире мурлычет от радости один котенок. Задача компании — максимизация мурлыкания. Также есть отдел маркетинга, который усердно исследует формы кнопок и то, как они влияют на конверсию показов в клико-мурлыкания. Потратив почти весь бюджет компании на уникальные исследования, отдел маркетинга разделился на четыре противоборствующие группировоки. У каждой группировки есть своя гениальная идея того, как должна выглядеть кнопка. В целом никто не против формы кнопки, но красный цвет раздражает всех маркетологов, и в итоге было предложено четыре альтернативных варианта. На самом деле, даже не так важно, какие именно это варианты, нас интересует тот вариант, который максимизирует мурлыкания. Маркетинг предлагает провести A/B/n-тест, но мы не согласны: и так на эти сомнительные исследования спущено денег немерено. Попробуем осчастливить как можно больше котят и сэкономить на трафике. Для оптимизации трафика, пущенного на тесты, мы будем использовать шайку многоруких байесовских бандитов (bayesian multi-armed bandits). Вперед.

Читать дальше →

+63

waiwnf Apr 5 2017 at 09:02

Автопилот своими силами. Часть 1 — набираем обучающие данные

7 min

24K

RoboticsMachine learning*Image processing*

Привет, Хабр. Это пост-отчет-тьюториал про беспилотные автомобили — как (начать) делать свой без расходов на оборудование. Весь код доступен на github, и помимо прочего вы научитесь легко генерить такие класные картинки:

SLAM trajectory + map example

Поехали!

Читать дальше →

+42

N01Z3 Apr 4 2017 at 12:02

Второе почетное. Заметки участника конкурса Dstl Satellite Imagery Feature Detection

9 min

15K

AvitoTech corporate blogAlgorithms*System Analysis and Design*Machine learning*Image processing*

Недавно закончилось соревнование по машинному обучению Dstl Satellite Imagery Feature Detection в котором приняло участие аж трое сотрудников Avito. Я хочу поделиться опытом участия от своего лица и рассказать о решении.

+58

inkpot Apr 4 2017 at 11:52

Kademlia (DHT) — практическое руководство

8 min

16K

Java*Development for Android*

Речь пойдет о DHT на примере ее реализации известной под названием Kademlia. DHT переводится как распределенная хеш таблица и предназначена для построения децентрализованной сети обмена информацией. Все ниже изложенное работает в клиенте для ED2K сетей для платформы Android и в виде демона на линуксе. Детали реализации ниже.

Читать дальше →

+17

sovcharenko Mar 16 2017 at 13:01

Библиотеки для глубокого обучения Theano/Lasagne

14 min

46K

Open Data Science corporate blogMachine learning*Mathematics*Algorithms*Python*

Tutorial

Привет, Хабр!

Параллельно с публикациями статей открытого курса по машинному обучению мы решили запустить ещё одну серию — о работе с популярными фреймворками для нейронных сетей и глубокого обучения.

Я открою этот цикл статьёй о Theano — библиотеке, которая используется для разработки систем машинного обучения как сама по себе, так и в качестве вычислительного бекэнда для более высокоуровневых библиотек, например, Lasagne, Keras или Blocks.

Theano разрабатывается с 2007 года главным образом группой MILA из Университета Монреаля и названа в честь древнегреческой женщины-философа и математика Феано (предположительно изображена на картинке). Основными принципами являются: интеграция с numpy, прозрачное использование различных вычислительных устройств (главным образом GPU), динамическая генерация оптимизированного С-кода.

Читать дальше →

+53

BelBES Mar 14 2017 at 05:47

LIFT: Learned Invariant Feature Transform

7 min

12K

Algorithms*Machine learning*Image processing*

Введение

В последние годы вездесущие нейронные сети находят все больше и больше применений в различных областях знаний, вытесняя классические алгоритмы, использовавшиеся многие годы. Не стала исключением и область компьютерного зрения, где год за годом все больше и больше задач решаются при помощи современных нейронных сетей. Настало время написать об еще одном павшем бойце в войне "Традиционное зрение vs. Глубокое Обучение". Долгие годы на задаче поиска локальных особенностей изображений (так называемых ключевых точек) безраздельно властвовал алгоритм SIFT(Scale-invariant Feature Transform), предложеный в далеком 1999 году, многие сложили головы в попытках превзойти его, но удалось это лишь Deep Learning'у. Итак, встречайте, новый алгоритм поиска локальных особенностей — LIFT (Learned Invariant Feature Transform).

+36

kdenisk Feb 22 2017 at 17:29

Нейронные сети в картинках: от одного нейрона до глубоких архитектур

7 min

97K

Machine learning*

Многие материалы по нейронным сетям сразу начинаются с демонстрации довольно сложных архитектур. При этом самые базовые вещи, касающиеся функций активаций, инициализации весов, выбора количества слоёв в сети и т.д. если и рассматриваются, то вскользь. Получается начинающему практику нейронных сетей приходится брать типовые конфигурации и работать с ними фактически вслепую.

В статье мы пойдём по другому пути. Начнём с самой простой конфигурации — одного нейрона с одним входом и одним выходом, без активации. Далее будем маленькими итерациями усложнять конфигурацию сети и попробуем выжать из каждой из них разумный максимум. Это позволит подёргать сети за ниточки и наработать практическую интуицию в построении архитектур нейросетей, которая на практике оказывается очень ценным активом.

Читать дальше →

+57

eao197 Feb 21 2017 at 09:45

Модель Акторов и C++: что, зачем и как?

20 min

41K

Programming*Open source*C++*

Данная статья является доработанной текстовой версией одноименного доклада с конференции C++ CoreHard Autumn 2016, которая проходила в Минске в октябре прошлого года. Желание сделать эту статью возникло под впечатлением о том, что в мире C++ разработчики как бы делятся на два больших и не пересекающихся лагеря. В первом лагере находятся матерые спецы, которые все видели, все знают и все умеют, за плечами у которых десятки собственноручно написанных реализаций Модели Акторов, внутрях у которых хитрые, конечно же самостоятельно сделанные, lock-free очереди и state-of-the-art механизмы обслуживания сообщений. Такие проффи сами часами могут рассказывать про тонкости многопоточного программирования (только почему-то редко это делают). Во втором лагере — зеленые новички, которых волею судьбы занесло в мир C++, которые пока слабо представляют себе различия между unique_ptr и shared_ptr, про шаблоны только слышали, а в области многопоточности имеют поверхностное впечатление только о std::thread, std::mutex и, может быть, std::condition_variable. Для людей из первого лагеря я вряд ли что-нибудь интересное расскажу, а вот разработчикам из второго лагеря попробую вкратце рассказать о том, что Модель Акторов в C++ — это нормально. И что есть ряд готовых инструментов, на примере которых можно увидеть, что же это такое.

Читать дальше →

+24

mephistopheies Feb 20 2017 at 13:01

Базовые принципы машинного обучения на примере линейной регрессии

20 min

194K

Open Data Science corporate blogPython*Algorithms*Mathematics*Machine learning*

Здравствуйте, коллеги! Это блог открытой русскоговорящей дата саентологической ложи. Нас уже легион, точнее 2500+ человек в слаке. За полтора года мы нагенерили 800к+ сообщений (ради этого слак выделил нам корпоративный аккаунт). Наши люди есть везде и, может, даже в вашей организации. Если вы интересуетесь машинным обучением, но по каким-то причинам не знаете про Open Data Science, то возможно вы в курсе мероприятий, которые организовывает сообщество. Самым масштабным из них является DataFest, который проходил недавно в офисе Mail.Ru Group, за два дня его посетило 1700 человек. Мы растем, наши ложи открываются в городах России, а также в Нью-Йорке, Дубае и даже во Львове, да, мы не воюем, а иногда даже и употребляем горячительные напитки вместе. И да, мы некоммерческая организация, наша цель — просвещение. Мы делаем все ради искусства. (пс: на фотографии вы можете наблюдать заседание ложи в одном из тайных храмов в Москве).

Мне выпала честь сделать первый пост, и я, пожалуй, отклонюсь от своей привычной нейросетевой тематики и сделаю пост о базовых понятиях машинного обучения на примере одной из самых простых и самых полезных моделей — линейной регрессии. Я буду использовать язык питон для демонстрации экспериментов и отрисовки графиков, все это вы с легкостью сможете повторить на своем компьютере. Поехали.

Читать дальше →

+75

Siarshai Feb 20 2017 at 06:46

Интересные алгоритмы кластеризации, часть вторая: DBSCAN

10 min

113K

Data Mining*Algorithms*Mathematics*Machine learning*

Часть первая — Affinity Propagation
Часть вторая — DBSCAN
Часть третья — кластеризация временных рядов
Часть четвёртая — Self-Organizing Maps (SOM)
Часть пятая — Growing Neural Gas (GNG)

Углубимся ещё немного в малохоженные дебри Data Science. Сегодня в очереди на препарацию алгоритм кластеризации DBSCAN. Прошу под кат людей, которые сталкивались или собираются столкнуться с кластеризацией данных, в которых встречаются сгустки произвольной формы — сегодня ваш арсенал пополнится отличным инструментом.

Читать дальше →

+24

Leono Feb 8 2017 at 12:02

Нейробайесовский подход к задачам машинного обучения. Лекция Дмитрия Ветрова в Яндексе

15 min

35K

Яндекс corporate blogMathematics*Machine learning*

Этим постом мы завершаем серию лекций с Data Fest. Одним из центральных событий конференции стал доклад Дмитрия Ветрова — профессора факультета компьютерных наук НИУ ВШЭ. Дмитрий входит в число самых известных в России специалистов по машинному обучению и, начиная с прошлого года, работает в Яндексе ведущим исследователем. В докладе он рассказывает об основах байесовского подхода и объясняет, какие преимущества дает этот подход при использовании нейронных сетей.

Под катом — расшифровка и часть слайдов.

+51

wunder_editor Jan 31 2017 at 09:45

Как отлаживать модели машинного обучения

5 min

12K

Wunder Fund corporate blogAlgorithms*Machine learning*

Translation

Я размышлял, в основном с точки зрения преподавателя, о том, как научить отлаживать модели машинного обучения. Лично мне кажется полезным рассмотреть модель с точки зрения ошибок разного рода: байесовская ошибка (насколько ошибочен лучший из возможных классификаторов), ошибка аппроксимации (что мы потеряем из-за ограничения класса гипотезы), ошибка оценки (связанная с ограниченной длиной выборки), ошибка оптимизации (что случится, если не найти глобальный оптимум для задачи оптимизации). Я понял, что полезно попытаться отнести ошибку к определенной области, а потом устранять недостатки в этой конкретной области.

Читать дальше →

+14

devpony Jan 23 2017 at 08:20

Ищем знакомые лица

15 min

65K

Machine learning*Mathematics*Python*

Привет

В статье я хочу познакомить читателя с задачей идентификации: пройтись от основных определений до реализации одной из недавних статей в данной области. Итогом должно стать приложение, способное искать одинаковых людей на фотографиях и, что самое главное, понимание того, как оно работает.

+69

pkruglov Jan 3 2017 at 17:31

Подборка русских и зарубежных фантастических книг за год

5 min

81K

VK corporate blogScience fictionPopular scienceProfessional literature*

Почти два года назад мы делали подборку любопытных фантастических книг, вышедших в 2014 году. И в начале этого года мы решили поддержать это начинание — предлагаем вам одни из самых интересных, по мнению читателей, фантастических произведений, вышедших в 2016-м (как на русском, так и на английском).

Читать дальше →

+20

Siarshai Jan 4 2017 at 11:18

Методы оптимизации нейронных сетей

17 min

228K

Algorithms*Mathematics*Machine learning*

В подавляющем большинстве источников информации о нейронных сетях под «а теперь давайте обучим нашу сеть» понимается «скормим целевую функцию оптимизатору» лишь с минимальной настройкой скорости обучения. Иногда говорится, что обновлять веса сети можно не только стохастическим градиентным спуском, но безо всякого объяснения, чем же примечательны другие алгоритмы и что означают загадочные $\inline \beta$ и $\inline \gamma$ в их параметрах. Даже преподаватели на курсах машинного обучения зачастую не заостряют на этом внимание. Я бы хотел исправить недостаток информации в рунете о различных оптимизаторах, которые могут встретиться вам в современных пакетах машинного обучения. Надеюсь, моя статья будет полезна людям, которые хотят углубить своё понимание машинного обучения или даже изобрести что-то своё.

Под катом много картинок, в том числе анимированных gif.

Читать дальше →

+78

dfgwer Dec 30 2016 at 08:51

Что можно почитать из свежей художественной литературы

3 min

59K

Professional literature*Science fiction

Recovery Mode

Близится новогодние каникулы и нужно как-то провести это время. Поэтому создал список книг которые можно почитать. Отбирал по следующим критериям. Увлекательное, это книги для чтения с удовольствием. Непустые, есть какие-то новые идеи или мысли, может просто хорошее описание чего-нибудь. Свежее, списков хорошей классики хватает. И главное, запомнившиеся.

Короткий список

Самое лучшее. Если вы еще не читали, то я вам завидую.

Элиезер Юдковский «Harry Potter and the Methods of Rationality»

Методы рациональности мы все знаем и любим.hpmor.ruПолный перевод на русский, hpmor.com оригинал на английском, yudkowsky.net здесь еще несколько других произведений которые стоит прочитать и статьи.

Роберт Ибатуллин «Роза и Червь»

Алмаз научной фантастики. Реалистичный космос, с учетом новых знаний и теоретически возможных технологий без фантастических добавок. За прошлый год книга была дописана и издано на бумаге и в электронной форме.

Джон МакКрей «Worm»

Эпическая история о девушке получившую нетрадиционную суперсилу в темном и мрачном супергеройском мире. Настоящий эпик, свежий супергеройский мир, огромный объем хватит на все каникулы. Оригинал, Перевод на русский, незакончен.

Читать дальше →

+20

wunder_editor Dec 19 2016 at 18:05

Статьи, лежащие в основе подхода Facebook к компьютерному зрению

8 min

14K

Wunder Fund corporate blogMachine learning*Algorithms*

Translation

Знаете такую компанию — Facebook? Да-да, ту самую, у сайта которой 1,6 миллиардов пользователей. И если взять все посты-поздравления с днем рождения, ваши позорные детские фотографии (у меня они такие), того дальнего родственника, лайкающего каждый ваш статус, — и вот вам множество данных для анализа.

С точки зрения анализа изображений Facebook весьма далеко продвинулся со сверточными нейронными сетями (Convolutional Neural Network, CNN). В августе подразделение Facebook по исследованиям в области искусственного интеллекта (Facebook AI Research, сокращенно FAIR) опубликовала блог-пост об алгоритмах компьютерного зрения, которые лежат в основе некоторых их алгоритмов сегментации изображений. В этом посте мы кратко изложим и разъясним три статьи, на которые ссылается этот блог.

Читать дальше →

+18

Schvepsss Nov 29 2016 at 14:56

Deep Learning: Cочетание глубокой сверточной нейронной сети с рекуррентной нейронной сетью

6 min

23K

Microsoft corporate blogImage processing*Algorithms*Machine learning*

Translation

Представляем вам завершающую статью из цикла по Deep Learning, в которой отражены итоги работы по обучению ГСНС для изображений из определенных областей на примере распознавания и тегирования элементов одежды. Предыдущие части вы найдете под катом.

Читать дальше →

+25

zedroid Nov 28 2016 at 06:48

GFDM и тензоры. Продолжение

8 min

16K

Cellular communicationThe future is herePopular science

Сначала я хотел не углубляться в тензоры и описать их мимоходом, касаясь только используемого мной функционала. Однако я изменил свое мнение и решил рассказать больше. Добро пожаловать в многомерный мир.

Какие еще тензоры?

+14

wunder_editor Nov 22 2016 at 12:50

Глубокое обучение для новичков: тонкая настройка нейронной сети

21 min

106K

Wunder Fund corporate blogAlgorithms*Machine learning*

Tutorial

Translation

Введение

Представляем третью (и последнюю) статью в серии, задуманной, чтобы помочь быстро разобраться в технологии глубокого обучения; мы будем двигаться от базовых принципов к нетривиальным особенностям с целью получить достойную производительность на двух наборах данных: MNIST (классификация рукописных цифр) и CIFAR-10 (классификация небольших изображений по десяти классам: самолет, автомобиль, птица, кошка, олень, собака, лягушка, лошадь, корабль и грузовик).

Читать дальше →

+16

6

7 8 ...