Машинное обучение *

Основа искусственного интеллекта

Статьи Посты Новости Авторы Компании

ZlodeiBaal 13 янв 2016 в 03:36

Постановка задачи компьютерного зрения

13 мин

72K

Алгоритмы*Анализ и проектирование систем*Машинное обучение*Обработка изображений*Веб-разработка*

Последние лет восемь я активно занимаюсь задачами, связанными с распознаванием образов, компьютерным зрением, машинным обучением. Получилось накопить достаточно большой багаж опыта и проектов (что-то своё, что-то в ранге штатного программиста, что-то под заказ). К тому же, с тех пор, как я написал пару статей на Хабре, со мной часто связываются читатели, просят помочь с их задачей, посоветовать что-то. Так что достаточно часто натыкаюсь на совершенно непредсказуемые применения CV алгоритмов.
Но, чёрт подери, в 90% случаев я вижу одну и ту же системную ошибку. Раз за разом. За последние лет 5 я её объяснял уже десяткам людей. Да что там, периодически и сам её совершаю…

В 99% задач компьютерного зрения то представление о задаче, которое вы сформулировали у себя в голове, а тем более тот путь решения, который вы наметили, не имеет с реальностью ничего общего. Всегда будут возникать ситуации, про которые вы даже не могли подумать. Единственный способ сформулировать задачу — набрать базу примеров и работать с ней, учитывая как идеальные, так и самые плохие ситуации. Чем шире база-тем точнее поставлена задача. Без базы говорить о задаче нельзя.

Тривиальная мысль. Но все ошибаются. Абсолютно все. В статье я приведу несколько примеров таких ситуаций. Когда задача поставлена плохо, когда хорошо. И какие подводные камни вас ждут в формировании ТЗ для систем компьютерного зрения.

Читать дальше →

+72

ser0t0nin 11 янв 2016 в 16:35

Рекурентная нейронная сеть в 10 строчек кода оценила отзывы зрителей нового эпизода “Звездных войн”

11 мин

160K

Блог компании DCA (Data-Centric Alliance)Python*Машинное обучение*

Hello, Habr! Недавно мы получили от “Известий” заказ на проведение исследования общественного мнения по поводу фильма «Звёздные войны: Пробуждение Силы», премьера которого состоялась 17 декабря. Для этого мы решили провести анализ тональности российского сегмента Twitter по нескольким релевантным хэштегам. Результата от нас ждали всего через 3 дня (и это в самом конце года!), поэтому нам нужен был очень быстрый способ. В интернете мы нашли несколько подобных онлайн-сервисов (среди которых sentiment140 и tweet_viz), но оказалось, что они не работают с русским языком и по каким-то причинам анализируют только маленький процент твитов. Нам помог бы сервис AlchemyAPI, но ограничение в 1000 запросов в сутки нас также не устраивало. Тогда мы решили сделать свой анализатор тональности с блэк-джеком и всем остальным, создав простенькую рекурентную нейронную сеть с памятью. Результаты нашего исследования были использованы в статье “Известий”, опубликованной 3 января.

В этой статье я немного расскажу о такого рода сетях и познакомлю с парой классных инструментов для домашних экспериментов, которые позволят строить нейронные сети любой сложности в несколько строк кода даже школьникам. Добро пожаловать под кат.

Читать дальше →

+68

fantast8 7 янв 2016 в 14:38

Яндекс.Метеум – новая разработка или маркетинговый ход?

4 мин

39K

Машинное обучение*Математика*Геоинформационные сервисы*

Из песочницы

В конце ноября компания «Яндекс» анонсировала свой обновленный погодный сервис под названием «Яндекс.Метеум». Якобы новая программная разработка по своим алгоритмам способна рассчитывать прогноз с точностью до дома. Меня как метеоролога-любителя не мог не заинтересовать новый продукт. Я всегда с уважением относился к Яндексу, даже несмотря на неудачный перезапуск Кинопоиска, но детально изучив анонс, опубликованный на сайте «Хабрахабр», я нашёл в нём ряд несостыковок и логических ошибок. Тогда я решил провести своё исследование точности нового сервиса, относительно других погодных ресурсов, а именно моего сайта «Погода 45» (Прогноз погоды для Кургана) и Foreca (базовый ресурс с которого Яндекс берёт данные).

В дальнейшем я буду опираться на расширенный анонс, опубликованный на Хабрахабре. Разберём эти несостыковки и логические неточности, которые мной были найдены в этом анонсе.

Читать дальше →

+59

imalion 26 ноя 2015 в 12:30

Яндекс анонсирует собственную технологию прогнозирования погоды Метеум. С точностью до дома

8 мин

59K

Блог компании ЯндексBig Data*Геоинформационные сервисы*Математика*Машинное обучение*

Сегодня мы анонсируем новую технологию Метеум — теперь с её помощью Яндекс.Погода будет строить собственный прогноз погоды, а не полагаться только на данные партнёров, как это было раньше.

Причём прогноз будет рассчитываться отдельно для каждой точки, из которой вы его запрашиваете, и пересчитываться каждый раз, когда вы на него смотрите, чтобы быть максимально актуальным.

В этом посте я хочу рассказать немного о том, как в наше время устроен мир погодных моделей, чем наш подход отличается от обычных, почему мы решились строить собственный прогноз и почему верим, что у нас получится лучше, чем у всех остальных.

Мы построили собственный прогноз с использованием традиционной модели атмосферы и максимально подробной сеткой, но и постарались собрать все возможные источники данных об атмосферных условиях, статистику о том, как ведёт себя погода на деле, и применили к этим данным машинное обучение, чтобы уменьшить вероятность ошибок.

Сейчас в мире есть несколько основных моделей, по которым предсказывают погоду. Например, модель с открытым исходным кодом WRF, модель GFS, которые изначально являлись американской разработкой. Сейчас ее развитием занимается агентство NOAA.

Читать дальше →

+106

120

nurumaik 7 ноя 2015 в 09:11

Как я победил в конкурсе BigData от Beeline

7 мин

88K

Машинное обучение*

Из песочницы

Все уже много раз слышали про конкурс по машинному обучению от Билайн и даже читали статьи (раз, два). Теперь конкурс закончился, и так вышло, что первое место досталось мне. И хотя от предыдущих участников меня и отделяли всего сотые доли процента, я все же хотел бы рассказать, что же такого особенного сделал. На самом деле — ничего невероятного.

Читать дальше →

+84

Zalina 20 окт 2015 в 18:22

Курс по машинному обучению на Coursera от Яндекса и ВШЭ

4 мин

117K

Блог компании ЯндексBig Data*Алгоритмы*Машинное обучение*Программирование*

Когда-то мы публиковали на Хабре курс по машинному обучению от Константина Воронцова из Школы анализа данных. Нам тогда предлагали сделать из этого полноценный курс с домашними заданиями и разместить его на Курсере.

И сегодня мы хотим сказать, что наконец можем выполнить все эти пожелания. В январе на Курсере пройдёт курс, организованный совместно Яндексом (Школой анализа данных) и ВШЭ. Записаться на него можно уже сейчас: www.coursera.org/learn/introduction-machine-learning.

Сооснователь Coursera Дафна Коллер в офисе Яндекса

Курс продлится семь недель. Это означает, что по сравнению с ШАДовским двухсеместровым курсом он будет заметно упрощен. Однако в эти семь недель мы попытались вместить только то, что точно пригодится на практике, и какие-то базовые вещи, которые нельзя не знать. В итоге получился идеальный русскоязычный курс для первого знакомства с машинным обучением.

Кроме того, мы верим, что после прохождения курса у человека должна остаться не только теория в голове, но и скилл «в пальцах». Поэтому все практические задания построены вокруг использования библиотеки scikit-learn (Python). Получается, что после прохождения нашего курса человек сможет сам решать задачи анализа данных, и ему будет проще развиваться дальше.

Под катом можно прочитать подробнее обо всех авторах курса и узнать его примерное содержание.

Читать дальше →

+79

io_io 19 авг 2015 в 15:52

Как подобрать платье с помощью метода главных компонент

3 мин

31K

Блог компании .ioАнализ и проектирование систем*Визуализация данных*Машинное обучение*

Перевод

Итак, кто не против, чтобы одежду ему подбирала программа, машина, нейросеть?

Любой набор изображений возможно проанализировать с помощью метода главных компонент. Этот метод уже довольно успешно применяется при распознавании лиц. Мы же попробуем использовать его на примере женских платьев.

Читать дальше →

+51

atikhonov 10 авг 2015 в 12:01

Покупка оптимальной квартиры с R

12 мин

62K

Data Mining*R*Машинное обучение*Программирование*

Многие люди сталкиваются с вопросом покупки или продажи недвижимости, и важный критерий здесь, как бы не купить дороже или не продать дешевле относительно других, сопоставимых вариантов. Простейший способ — сравнительный, ориентироваться на среднюю цену метра в конкретном месте и экспертно добавляя или снижая проценты от стоимости за достоинства и недостатки конкретной квартиры.

Но данный подход трудоемок, неточен и не позволит учесть все многообразие отличий квартир друг от друга. Поэтому я решил автоматизировать процесс выбора недвижимости, используя анализ данных путем предсказания «справедливой» цены. В данной публикации описаны основные этапы такого анализа, выбрана лучшая предиктивная модель из восемнадцати протестированных моделей на основании трех критериев качества, в итоге лучшие (недооцененные) квартиры сразу помечаются на карте, и все это используя одно web-приложение, созданное с помощью R.

Читать дальше →

+56

Zalina 28 июн 2015 в 16:45

Лекция Дмитрия Ветрова о математике больших данных: тензоры, нейросети, байесовский вывод

2 мин

49K

Блог компании ЯндексМатематика*Алгоритмы*Big Data*Машинное обучение*

Сегодня лекция одного из самых известных в России специалистов по машинному обучению Дмитрия Ветрова, который руководит департаментом больших данных и информационного поиска на факультете компьютерных наук, работающим во ВШЭ при поддержке Яндекса.

Как можно хранить и обрабатывать многомерные массивы в линейных по памяти структурах? Что дает обучение нейронных сетей из триллионов триллионов нейронов и как можно осуществить его без переобучения? Можно ли обрабатывать информацию «на лету», не сохраняя поступающие последовательно данные? Как оптимизировать функцию за время меньшее чем уходит на ее вычисление в одной точке? Что дает обучение по слаборазмеченным данным? И почему для решения всех перечисленных выше задач надо хорошо знать математику? И другое дальше.

Люди и их устройства стали генерировать такое количество данных, что за их ростом не успевают даже вычислительные мощности крупных компаний. И хотя без таких ресурсов работа с данными невозможна, полезными их делают люди. Сейчас мы находимся на этапе, когда информации так много, что традиционные математические методы и модели становятся неприменимы. Из лекции Дмитрия Петровича вы узнаете, почему вам надо хорошо знать математику для работы с машинным обучением и обработкой данных. И какая «новая математика» понадобится вам для этого. Слайды презентации — под катом.

Читать дальше →

+56

rocknrollnerd 2 июн 2015 в 10:30

Внезапный диван леопардовой расцветки

8 мин

83K

Обработка изображений*Машинное обучение*Алгоритмы*

Если вы интересуетесь искусственным интеллектом и прочим распознаванием, то наверняка уже видели эту картинку:

А если не видели, то это результаты Хинтона и Крижевского по классификации ImageNet-2010 глубокой сверточной сетью

Давайте взглянем на ее правый угол, где алгоритм опознал леопарда с достаточной уверенностью, разместив с большим отрывом на втором и третьем месте ягуара и гепарда.

Это вообще довольно любопытный результат, если задуматься. Потому что… скажем, вы знаете, как отличить одного большого пятнистого котика от другого большого пятнистого котика? Я, например, нет. Наверняка есть какие-то зоологические, достаточно тонкие различия, типа общей стройности/массивности и пропорций тела, но мы же все-таки говорим о компьютерном алгоритме, которые до сих пор допускают какие-то вот такие достаточно глупые с человеческой точки зрения ошибки. Как он это делает, черт возьми? Может, тут что-то связанное с контекстом и фоном (леопарда вероятнее обнаружить на дереве или в кустах, а гепарда в саванне)? В общем, когда я впервые задумался над конкретно этим результатом, мне показалось, что это очень круто и мощно, разумные машины где-то за углом и поджидают нас, да здравствует deep learning и все такое.

Так вот, на самом деле все совершенно не так.

под катом пятна

+142

141

WinPooh73 27 апр 2015 в 19:17

Определяем веса шахматных фигур регрессионным анализом

15 мин

85K

Алгоритмы*Машинное обучение*Программирование*

Здравствуй, Хабр!

В этой статье речь пойдёт о небольшом программистском этюде на тему машинного обучения. Замысел его возник у меня при прохождении известного здесь многим курса «Machine Learning», читаемого Andrew Ng на Курсере. После знакомства с методами, о которых рассказывалось на лекциях, захотелось применить их к какой-нибудь реальной задаче. Долго искать тему не пришлось — в качестве предметной области просто напрашивалась оптимизация собственного шахматного движка.

Вступление: о шахматных программах

Не будем детально углубляться в архитектуру шахматных программ — это могло бы стать темой отдельной публикации или даже их серии. Рассмотрим только самые базовые принципы. Основными компонентами практически любого небелкового шахматиста являются поиск и оценка позиции.

Поиск представляет собой перебор вариантов, то есть итеративное углубление по дереву игры. Оценочная функция отображает набор позиционных признаков на числовую шкалу и служит целевой функцией для поиска наилучшего хода. Она применяется к листьям дерева, и постепенно «возвращается» к исходной позиции (корню) с помощью альфа-бета процедуры или её вариаций.

Строго говоря, настоящая оценка может принимать только три значения: выигрыш, проигрыш или ничья — 1, 0 или ½. По теореме Цермело для любой заданной позиции она определяется однозначно. На практике же из-за комбинаторного взрыва ни один компьютер не в состоянии просчитать варианты до листьев полного дерева игры (исчерпывающий анализ в эндшпильных базах данных — это отдельный случай; 32-фигурных таблиц в обозримом будущем не появится… и в необозримом, скорее всего, тоже). Поэтому программы работают в так называемой модели Шеннона — пользуются усечённым деревом игры и приближённой оценкой, основанной на различных эвристиках.

Читать дальше →

+64

lamerman 3 апр 2015 в 00:07

Машинное обучение в навигационных устройствах: определяем маневры машины по акселерометру и гироскопу

10 мин

27K

Машинное обучение*Геоинформационные сервисы*Алгоритмы*Open source*Разработка мобильных приложений*

Программы, которые доступны нам сегодня для автомобильной навигации оказывают большую помощь водителям. Они помогают нам ориентироваться в незнакомой местности и объезжать пробки. Это большой труд людей со всего мира, который сделал нашу жизнь проще. Но нельзя останавливаться на достигнутом, технологии идут вперед и качество программ также должно расти.

Сегодня, на мой взгляд, одна из проблем навигационных устройств – это то, что они не ведут пользователя по полосам. Эта проблема увеличивает время в пути, пробки и аварийность. Недавно google maps начали отображать разметку дороги перед поворотом, что уже хороший результат, но и тут можно многое улучшить. Карты не знают на какой полосе сейчас находится машина, средствами gps узнать это проблематично, у gps слишком большая погрешность для этого. Если бы мы знали текущую полосу, то знали бы скорость движения по полосами и могли бы задолго подсказывать пользователю в явном виде, на какую полосу и когда ему лучше перестроиться. Например, навигатор говорил бы “Продолжайте держаться этой полосы до перекрестка” или “Перестройтесь на крайнюю левую полосу”.

В этой статье мы попробуем рассказать, как мы пытаемся определять перестроения, текущую полосу движения автомобиля, повороты, обгоны, а также другие маневры с помощью машинного обучения по данным акселерометра и гироскопа.

+59

mephistopheies 20 мар 2015 в 10:19

Нейропластичность в искусственных нейронных сетях

17 мин

53K

Блог компании VKМашинное обучение*Алгоритмы*Data Mining*Big Data*

Привет, Хабр, давно не виделись. В этом посте мне хотелось бы рассказать о таком относительно новом понятии в машинном обучении, как transfer learning. Так как я не нашел какого-либо устоявшегося перевода этого термина, то и в названии поста фигурирует хоть и другой, но близкий по смыслу термин, который как бы является биологической предпосылкой к формализации теории передачи знаний от одной модели к другой. Итак, план такой: для начала рассмотрим биологические предпосылки; после коснемся отличия transfer learning от очень похожей идеи предобучения глубокой нейронной сети; а в конце обсудим реальную задачу семантического хеширования изображений. Для этого мы не будем скромничать и возьмем глубокую (19 слоев) сверточную нейросеть победителей конкурса imagenet 2014 года в разделе «локализация и классификация» (Visual Geometry Group, University of Oxford), сделаем ей небольшую трепанацию, извлечем часть слоев и используем их в своих целях. Поехали.

Читать дальше →

+54

19 августа – 20 октября

RuCode.Финал. Чемпионат по алгоритмическому программированию и ИИ

Москва • Нижний Новгород • Екатеринбург • Ставрополь • Новосибриск • Калининград • Пермь • Владивосток • Чита • Краснорск • Томск • Ижевск • Петрозаводск • Казань • Курск • Тюмень • Волгоград • Уфа • Мурманск • Бишкек • Сочи • Ульяновск • Саратов • Иркутск • Долгопрудный • Онлайн

yorko 23 фев 2015 в 03:15

Необычные модели Playboy, или про обнаружение выбросов в данных c помощью Scikit-learn

7 мин

128K

Data Mining*Python*Алгоритмы*Машинное обучение*

Мотивированный статьей пользователя BubaVV про предсказание веса модели Playboy по ее формам и росту, автор решил углубиться ~~if you know what I mean~~ в эту будоражащую кровь тему исследования и в тех же данных найти выбросы, то есть ~~особо сисястые~~ модели, выделяющиеся на фоне других своими формами, ростом или весом. А на фоне этой разминки чувства юмора заодно немного рассказать начинающим исследователям данных про обнаружение выбросов (outlier detection) и аномалий (anomaly detection) в данных с помощью реализации одноклассовой машины опорных векторов (One-class Support Vector Machine) в библиотеке Scikit-learn, написанной на языке Python.

Читать дальше →

+70

alizar 29 янв 2009 в 16:58

Шоппинг с распознаванием образов

1 мин

3.2K

Машинное обучение*

Новый интернет-магазин Modista собирает образцы товаров от сотен ритейлеров и забивает в единую базу данных (163 000 товаров по четырём категориям: обувь, часы, сумочки и очки). Далее на этой базе запускают движок распознавания образов с элементами самообучения.

Поиск покупки осуществляется исключительно через визуальный интерфейс. Щёлкаете по наиболее понравившемуся товару — и таблица перестраивается под новый шаблон. По горизонтали — подобие по форме, по вертикали — подобие по цвету.

Можно предположить, что похожие интерфейсы в будущем станут стандартным элементом любого интернет-магазина.

Читать дальше →

+55

1 2 ...

23 24

Машинное обучение *

Постановка задачи компьютерного зрения

Рекурентная нейронная сеть в 10 строчек кода оценила отзывы зрителей нового эпизода “Звездных войн”

Яндекс.Метеум – новая разработка или маркетинговый ход?

Яндекс анонсирует собственную технологию прогнозирования погоды Метеум. С точностью до дома

Истории

Как я победил в конкурсе BigData от Beeline

Курс по машинному обучению на Coursera от Яндекса и ВШЭ

Как подобрать платье с помощью метода главных компонент

Покупка оптимальной квартиры с R

Лекция Дмитрия Ветрова о математике больших данных: тензоры, нейросети, байесовский вывод

Внезапный диван леопардовой расцветки

Определяем веса шахматных фигур регрессионным анализом

Вступление: о шахматных программах

Машинное обучение в навигационных устройствах: определяем маневры машины по акселерометру и гироскопу

Нейропластичность в искусственных нейронных сетях

Ближайшие события

Необычные модели Playboy, или про обнаружение выбросов в данных c помощью Scikit-learn

Шоппинг с распознаванием образов

Вклад авторов

Работа