Articles / Bookmarks / Profile of kraY / Habr

Виталий @kraY

Пользователь

Profile Publications Comments 23Bookmarks 411

befuddle Dec 7 2017 at 21:12

Сверточная сеть на python. Часть 1. Определение основных параметров модели

8 min

73K

Open Data Science corporate blogAlgorithms*Mathematics*Machine learning*Image processing*

Несмотря на то, что можно найти не одну статью, объясняющую принцип метода обратного распространения ошибки в сверточных сетях (раз, два, три и даже дающих “интуитивное” понимание — четыре), мне, тем не менее, никак не удавалось полностью понять эту тему. Кажется, что авторы недостаточно внимания уделяют обычным примерам либо же опускают какие-то хорошо понятные им, но не очевидные другим особенности, и весь материал по этой причине становится неподъемным. Мне хотелось разложить все по полочкам для самого себя и в итоге конспекты вылились в статью. Я постарался исключить все недостатки существующих объяснений и надеюсь, что эта статья ни у кого не вызовет вопросов или недопониманий. И, может, следующий новичок, который, также как и я, захочет во всем разобраться, потратит уже меньше времени.

Читать дальше →

+14

yorko Dec 20 2017 at 15:00

Материалы открытого курса OpenDataScience и Mail.Ru Group по машинному обучению и новый запуск

9 min

148K

Open Data Science corporate blogVK corporate blogData Mining*Python*Machine learning*

Недавно OpenDataScience и Mail.Ru Group провели открытый курс машинного обучения. В прошлом анонсе много сказано о курсе. В этой статье мы поделимся материалами курса, а также объявим новый запуск.

UPD: теперь курс — на английском языке под брендом mlcourse.ai со статьями на Medium, а материалами — на Kaggle (Dataset) и на GitHub.

Кому не терпится: новый запуск курса — 1 февраля, регистрация не нужна, но чтоб мы вас запомнили и отдельно пригласили, заполните форму. Курс состоит из серии статей на Хабре (Первичный анализ данных с Pandas — первая из них), дополняющих их лекций на YouTube-канале, воспроизводимых материалов (Jupyter notebooks в github-репозитории курса), домашних заданий, соревнований Kaggle Inclass, тьюториалов и индивидуальных проектов по анализу данных. Главные новости будут в группе ВКонтакте, а жизнь во время курса будет теплиться в Slack OpenDataScience (вступить) в канале #mlcourse_ai.

+78

krubinshteyn Nov 21 2017 at 09:42

Машинное обучение своими руками (часть 2). Сервис для классификации обращений в тех. поддержку

6 min

11K

Okdesk corporate blogHelp Desk Software*Python*Algorithms*Machine learning*

В октябре команда облачного сервиса Okdesk приняла участие в пензенском хакатоне, в рамках которого мы разработали "коробочного" Telegram-бота для Okdesk. Бот позволит клиентам сервисных компаний отправлять заявки на обслуживание, переписываться по заявками и ставить оценки выполнению заявок не выходя из любимого мессенджера.

Мы планировали написать об этом статью на Хабру, но вовремя остановились. Воистину, кому сегодня интересно читать о том, что на очередном хакатоне был разработан очередной Telegram-бот? Поэтому мы написали продолжение статьи о машинном обучении для классификации заявок в тех. поддержку. В этой статьей рассказываем о том, как после обучения алгоритма сделать работающий сервис, на вход которому передается текст клиентской заявки, а на выходе — категория, к которой относится заявка.

Читать дальше →

+12

Scorobey Nov 9 2017 at 01:28

Оптимизация портфеля ценных бумаг средствами Python

12 min

26K

Python*Business Models*Mathematics*Development for Windows*

Введение

На финансовом рынке обращается, как правило, несколько типов ценных бумаг: государственные ценные бумаги, муниципальные облигации, корпоративные акции и т.п.

Если у участника рынка есть свободные деньги, то их можно отнести в банк и получать проценты или купить на них ценные бумаги и получать дополнительный доход. Но в какой банк отнести? Какие ценные бумаги купить?

Ценные бумаги с низкими рисками, как правило, малодоходны, а высокодоходные, как правило, более рискованны. Экономическая наука может дать некоторые рекомендации для решения этого вопроса, но для этого необходимо иметь соответствующие программные средства, желательно с простым интерфейсом и бесплатные.

Программные средства для анализа портфелей ценных бумах должны работать с матрицами доходности и решать задачи нелинейного программирования с ограничениями в виде строгих и нестрогих неравенств. Символьное решение на Python некоторых типов задач нелинейного программирования мною уже рассматривалось в публикации [1]. Однако, применить предложенные в указанной публикации методы для анализа портфеля ценных бумаг нельзя из-за ограничений в виде строгих неравенств.

Целью настоящей публикации является разработка методов оптимизации портфелей ценных бумаг с использованием библиотеки scipy.optimize. Пришлось исследовать и применить при программировании такие мало известные возможности указанной библиотеки, как введение дополнительных ограничений в функцию цели [2].

Читать дальше →

randall Oct 6 2017 at 15:20

Топливо для ИИ: подборка открытых датасетов для машинного обучения

6 min

81K

VK corporate blogMachine learning*Open data*Programming*

Связанные проекты сообщества Open Data (проект Linked Open Data Cloud). Многие датасеты на этой диаграмме могут включать в себя данные, защищенные авторским правом, и они не упоминаются в данной статье

Если вы прямо сейчас не делаете свой ИИ, то другие будут делать его вместо вас для себя. Ничто более не мешает вам создать систему на основе машинного обучения. Есть открытая библиотека глубинного обучения TensorFlow, большое количество алгоритмов для обучения в библиотеке Torch, фреймворк для реализации распределенной обработки неструктурированных и слабоструктурированных данных Spark и множество других инструментов, облегчающих работу.

Добавьте к этому доступность больших вычислительных мощностей, и вы поймете, что для полного счастья не хватает лишь одного ингредиента — данных. Огромное количество данных находится в открытом доступе, однако непросто понять, на какие из открытых датасетов стоит обратить внимание, какие из них годятся для проверки идей, а какие могут быть полезны в качестве средства проверки потенциальных продуктов или их свойств до того, как вы накопите собственные проприетарные данные.

Мы разобрались в этом вопросе и собрали данные по датасетам, удовлетворяющим критериям открытости, востребованности, скорости работы и близости к реальным задачам.

Читать дальше →

+65

roman_nasonov Oct 3 2017 at 19:16

Выявление скрытых зависимостей в данных для повышения качества прогноза в машинном обучении

19 min

15K

Data Mining*Machine learning*

From sandbox

План статьи

Постановка задачи.
Формальное описание задачи.
Примеры задач.
Несколько примеров на синтетических данных со скрытыми линейными зависимостями.
Какие ещё скрытые зависимости могут содержаться в данных.
Автоматизация поиска зависимостей.

Число признаков меньше пороговой величины.
Число признаков превышает пороговую величину.

Постановка задачи

Нередко в машинном обучении встречаются ситуации, когда данные собираются априори, и лишь затем возникает необходимость разделить некоторую выборку по известным классам. Как следствие часто может возникнуть ситуация, когда имеющийся набор признаков плохо подходит для эффективной классификации. По крайней мере, при первом приближении.

В такой ситуации можно строить композиции слабо работающих по отдельности методов, а можно начать с обогащения данных путём выявления скрытых зависимостей между признаками. И затем строить на основе найденных зависимостей новые наборы признаков, некоторые из которых могут потенциально дать существенный прирост качества классификации.

Формальное описание задачи

Перед нами ставится задача классификации L объектов, заданных n вещественными числами. Мы будем рассматривать простой двухклассовый случай, когда метки классов — это −1 и +1. Наша цель — построить линейный классификатор, то есть такую функцию, которая возвращает −1 или + 1. При этом набор признаковых описаний таков, что для объектов противоположных классов, измеренных на данном множестве признаков, практически не работает гипотеза компактности, а разделяющая гиперплоскость строится крайне неэффективно.

Иными словами, всё выглядит так, будто задача классификации на данном множестве объектов не может быть решена эффективно.

Читать дальше →

ru_vds Aug 17 2017 at 12:00

Веб-камера, Node.js и OpenCV: делаем систему распознавания лиц

5 min

40K

RUVDS.com corporate blogJavaScript*Image processing*Node.JS*

Translation

Компьютерное зрение — это, в двух словах, набор технологий, в основу которых положены принципы человеческого зрения, которые позволяют компьютеру видеть и понимать то, что он видит. На первый взгляд вроде бы просто, но на самом деле это далеко не так.

Если вы хотите осознать важность компьютерного зрения и узнать об областях его применения, посмотрите это видео.

Как говорится: «лучше один раз увидеть», в данном случае — увидеть, как Amazon использует эту технологию для создания торговых центров нового поколения. Потрясающе, правда?

Если вы хотите приобщиться к технологиям компьютерного зрения — предлагаю поговорить о том, как создать интерактивную систему распознавания лиц с использованием обычной веб-камеры, Node.js и OpenCV.

Читать дальше →

+25

lyalius Jul 20 2017 at 16:00

Как перейти от КЛАДР к ФИАС и ничего себе не сломать

7 min

109K

HFLabs corporate blogAPI*System Analysis and Design*Website development*Development for e-commerce*

ГНИВЦ ФНС сообщает, что с начала 2018 года КЛАДР перестанет существовать и скачать его будет нельзя.

Дисклеймер:
Если вы совсем не поняли, что означают эти наборы букв, ничего страшного. Ниже мы расскажем о реалиях работы с адресами в России. Если вам это неинтересно, почитайте про топографические каламбуры.

Правильные адреса нужны компаниям, которые любят своих клиентов. Знакомые банки, страховые и интернет-магазины, которые сейчас используют справочник КЛАДР, спрашивают нас, что же делать дальше. Поэтому мы запарились и написали пошаговое руководство по переходу ~~с одних букв на другие~~ от КЛАДР к ФИАС.

Поехали!

+24

Twelvee May 15 2017 at 14:17

Учим нейронную сеть геометрии

5 min

21K

PHP*Machine learning*

From sandbox

Доброго времени суток, пользователи Хабра и просто гости. Хотел бы поделиться с Вами опытом работы с нейронными сетями.

Читать дальше →

+10

sashacmc May 22 2017 at 19:24

Умный дом, как я до такого докатился. Часть 4-я

4 min

36K

DIY

В первых трех частях я рассказал как у меня возникла идея (необходимость) построения “умного дома” и как я ее воплотил в жизнь.

В этой части я расскажу какие недостатки были выявлены за четыре года эксплуатации системы и какие еще полезные штуки удалось внедрить.

Ну и небольшой спойлер: под катом будет краткое описание “очередной поделки на esp8266 с преферансом и куртизанками”.

Поехали!

+32

AVGrudin May 1 2017 at 15:29

Где поучиться робототехнике онлайн?

4 min

43K

Эду-Крафт corporate blogRoboticsArtificial Intelligence

Представляю Вашему вниманию подборку онлайн-курсов по робототехнике, машинному обучению и искусственному интеллекту на самых больших и популярных платформах онлайн-обучения. Некоторые их этих курсов уже можно прослушать на русском языке, но большинство пока все еще на английском.

Читать дальше →

+14

snakers4 May 8 2017 at 07:45

Нейрокурятник ч.0. Или нейро- без курятника

6 min

20K

Data Mining*Open source*Python*Mathematics*Machine learning*

Tutorial

Или как правильно закоптиться в нейросети

Курочка снесла яичко. Сам процесс выглядит ужасно. Результат — съедобно. Массовый геноцид кур.

В этой статье будет описано:

Где, как и почему можно получить небольшое качественное самообразование в сфере работы с нейросетями БЕСПЛАТНО, СЕЙЧАС и СОВСЕМ НЕ БЫСТРО;
Будет описана логика рекурсии и будут порекомендованы книги по теме;
Будет описан список основных терминов, которые нужно разобрать на 2-3 уровня абстракции вниз;
Будет приведен ipynb-notebook, который содержит необходимые ссылки и базовые подходы;
Будет немного своеобразного саркастичного юмора;
Будут описаны некоторые простые закономерности, с которыми вы столкнетесь при работе с нейросетями;

Статьи про нейрокурятник

Заголовок спойлера

Вступление про обучение себя нейросетям
Железо, софт и конфиг для наблюдения за курами
Бот, который постит события из жизни кур — без нейросети
Разметка датасетов
Работающая модель для распознавания кур в курятнике
Итог — работающий бот, распознающий кур в курятнике

+18

NetAngels Apr 13 2017 at 11:33

Отказоустойчивый кластер для балансировки нагрузки

8 min

59K

«NetAngels» corporate blog*nix*Nginx*Server Administration*

Recovery Mode

Поговорим о горизонтальном масштабировании. Допустим, ваш проект вырос до размеров, когда один сервер не справляется с нагрузкой, а возможностей для вертикального роста ресурсов уже нет.

Читать дальше →

+12

mephistopheies Feb 20 2017 at 16:01

Базовые принципы машинного обучения на примере линейной регрессии

20 min

184K

Open Data Science corporate blogPython*Algorithms*Mathematics*Machine learning*

Здравствуйте, коллеги! Это блог открытой русскоговорящей дата саентологической ложи. Нас уже легион, точнее 2500+ человек в слаке. За полтора года мы нагенерили 800к+ сообщений (ради этого слак выделил нам корпоративный аккаунт). Наши люди есть везде и, может, даже в вашей организации. Если вы интересуетесь машинным обучением, но по каким-то причинам не знаете про Open Data Science, то возможно вы в курсе мероприятий, которые организовывает сообщество. Самым масштабным из них является DataFest, который проходил недавно в офисе Mail.Ru Group, за два дня его посетило 1700 человек. Мы растем, наши ложи открываются в городах России, а также в Нью-Йорке, Дубае и даже во Львове, да, мы не воюем, а иногда даже и употребляем горячительные напитки вместе. И да, мы некоммерческая организация, наша цель — просвещение. Мы делаем все ради искусства. (пс: на фотографии вы можете наблюдать заседание ложи в одном из тайных храмов в Москве).

Мне выпала честь сделать первый пост, и я, пожалуй, отклонюсь от своей привычной нейросетевой тематики и сделаю пост о базовых понятиях машинного обучения на примере одной из самых простых и самых полезных моделей — линейной регрессии. Я буду использовать язык питон для демонстрации экспериментов и отрисовки графиков, все это вы с легкостью сможете повторить на своем компьютере. Поехали.

Читать дальше →

+75

Alf162 Feb 27 2017 at 11:02

Обзор материалов по машинному обучению № 2 (21 — 27 февраля 2017 года)

3 min

6.8K

Mathematics*Machine learning*

Добрый день! Это второй дайджест материалов по машинному обучению и анализу данных. Несмотря на праздники на этой неделе было много интересного.

Читать дальше →

+17

Alf162 Feb 20 2017 at 10:19

Обзор материалов по машинному обучению (13 — 20 февраля 2017 года)

3 min

9.1K

Mathematics*Machine learning*

Представляю вашему вниманию подборку материалов по машинному обучению и анализу данных за прошедшую неделю, которые показались мне интересными.

События предстоящей недели

1.

Deep Learning: Now and Future of Robotics. Skolkovo-Skoltech-NVIDIA workshop. 21 февраля.
2.

Data Science кейс-клуб. 21 февраля.
3.

Data science завтрак. 22 февраля.
4.

Тренировка по машинному обучению. 25 февраля.

Учебные курсы, конференции

1.

Онлайн-курс «Введение в обработку естественного языка» с середины марта на stepik. Страница прошлого года.
2.

Перезапуск курса «Neural Networks for Machine Learning» G.Hinton.
3.

Видео с конференции TensorFlow Developer Summit.
4.

Видео с конференции DataFest. Часть 1. Часть 2. Часть 3. Часть 4.
5.

Семинар Practical Machine Learning от Яндекса (видео). Тема: чат-боты. Запись ноябрьская, но попалась недавно.

Читать дальше →

+19

Habr_Studio Feb 17 2017 at 17:12

OpenResty: превращаем NGINX в полноценный сервер приложений

9 min

87K

Lua*High performance*Programming*Website development*

Мы вновь публикуем расшифровку доклада с конференции HighLoad++ 2016, которая проходила в подмосковном Сколково 7—8 ноября прошлого года. Владимир Протасов рассказывает, как расширить функциональность NGINX с помощью OpenResty и Lua.

Всем привет, меня зовут Владимир Протасов, я работаю в Parallels. Расскажу чуть-чуть о себе. Три четверти своей жизни я занимаюсь тем, что пишу код. Стал программистом до мозга костей в прямом смысле: я иногда во сне вижу код. Четверть жизни — промышленная разработка, написание кода, который идёт прямо в продакшн. Код, которым некоторые из вас пользуются, но не догадываются об этом.

Чтобы вы понимали насколько всё было плохо. Когда я был маленьким джуниором, я пришёл, и мне выдали такие двухтерабайтные базы. Это сейчас тут у всех highload. Я ходил на конференции, спрашивал: «Ребят, расскажите, у вас big data, всё круто? Сколько у вас там базы?» Мне отвечали: «У нас 100 гигабайт!» Я говорил: «Круто, 100 гигабайт!» А про себя думал, как бы аккуратненько сохранить покерфейс. Думаешь, да, ребята крутые, а потом возвращаешься и ковыряешься с этими многотерабайтными базами. И это — будучи джуниором. Представляете себе, какой это удар?

Я знаю больше 20 языков программирования. Это то, в чём мне пришлось разобраться в процессе работы. Тебе выдают код на Erlang, на C, на С++, на Lua, на Python, на Ruby, на чем-то еще, и тебе надо это всё пилить. В общем пришлось. Точное количество посчитать так и не удалось, но где-то на 20 число потерялось.

Читать дальше →

+39

Tkachev_KV Jan 25 2017 at 21:20

Простой вариант системы видеонаблюдения в помещении с использованием датчика движения и Python на платформе Raspberry

3 min

27K

Python*

Доброго времени суток, хабровчане! После нескольких экспериментов с разработкой системы видеонаблюдения, которые я отразил в предыдущей публикации, решил поделиться итоговым решением.

Читать дальше →

+34

falklol Jan 11 2017 at 12:14

Машинное обучение — это легко

7 min

346K

Big Data*Python*Machine learning*

From sandbox

В данной статье речь пойдёт о машинном обучении в целом и взаимодействии с датасетами. Если вы начинающий, не знаете с чего начать изучение и вам интересно узнать, что такое «датасет», а также зачем вообще нужен Machine Learning и почему в последнее время он набирает все большую популярность, прошу под кат. Мы будем использовать Python 3, так это как достаточно простой инструмент для изучения машинного обучения.

Читать дальше →

+37

Arnis71 Oct 12 2016 at 15:48

Нейронные сети для начинающих. Часть 1

7 min

1.6M

Machine learning*

From sandbox

Привет всем читателям Habrahabr, в этой статье я хочу поделиться с Вами моим опытом в изучении нейронных сетей и, как следствие, их реализации, с помощью языка программирования Java, на платформе Android. Мое знакомство с нейронными сетями произошло, когда вышло приложение Prisma. Оно обрабатывает любую фотографию, с помощью нейронных сетей, и воспроизводит ее с нуля, используя выбранный стиль. Заинтересовавшись этим, я бросился искать статьи и «туториалы», в первую очередь, на Хабре. И к моему великому удивлению, я не нашел ни одну статью, которая четко и поэтапно расписывала алгоритм работы нейронных сетей. Информация была разрознена и в ней отсутствовали ключевые моменты. Также, большинство авторов бросается показывать код на том или ином языке программирования, не прибегая к детальным объяснениям.

Поэтому сейчас, когда я достаточно хорошо освоил нейронные сети и нашел огромное количество информации с разных иностранных порталов, я хотел бы поделиться этим с людьми в серии публикаций, где я соберу всю информацию, которая потребуется вам, если вы только начинаете знакомство с нейронными сетями. В этой статье, я не буду делать сильный акцент на Java и буду объяснять все на примерах, чтобы вы сами смогли перенести это на любой, нужный вам язык программирования. В последующих статьях, я расскажу о своем приложении, написанном под андроид, которое предсказывает движение акций или валюты. Иными словами, всех желающих окунуться в мир нейронных сетей и жаждущих простого и доступного изложения информации или просто тех, кто что-то не понял и хочет подтянуть, добро пожаловать под кат.

Читать дальше →

+50

3 4 ...

20 21

Сверточная сеть на python. Часть 1. Определение основных параметров модели

Материалы открытого курса OpenDataScience и Mail.Ru Group по машинному обучению и новый запуск

Машинное обучение своими руками (часть 2). Сервис для классификации обращений в тех. поддержку

Оптимизация портфеля ценных бумаг средствами Python

Введение

Топливо для ИИ: подборка открытых датасетов для машинного обучения

Выявление скрытых зависимостей в данных для повышения качества прогноза в машинном обучении

План статьи

Постановка задачи

Формальное описание задачи

Веб-камера, Node.js и OpenCV: делаем систему распознавания лиц

Как перейти от КЛАДР к ФИАС и ничего себе не сломать

Учим нейронную сеть геометрии

Умный дом, как я до такого докатился. Часть 4-я

Где поучиться робототехнике онлайн?

Нейрокурятник ч.0. Или нейро- без курятника

Или как правильно закоптиться в нейросети

Отказоустойчивый кластер для балансировки нагрузки

Базовые принципы машинного обучения на примере линейной регрессии

Обзор материалов по машинному обучению № 2 (21 — 27 февраля 2017 года)

Обзор материалов по машинному обучению (13 — 20 февраля 2017 года)

OpenResty: превращаем NGINX в полноценный сервер приложений

Простой вариант системы видеонаблюдения в помещении с использованием датчика движения и Python на платформе Raspberry

Машинное обучение — это легко

Нейронные сети для начинающих. Часть 1

Information

Specialization