Как стать автором
Обновить
446.29

Машинное обучение *

Основа искусственного интеллекта

Сначала показывать
Порог рейтинга
Уровень сложности

Вероятностное программирование

Время на прочтение19 мин
Количество просмотров42K
Вероятностное моделирование является одним из мощнейших инструментов для специалиста по анализу данных. К сожалению, для его использования необходимо не только уверенно владеть аппаратом теории вероятностей и математической статистики, но и знать детали работы алгоритмов приближенного байесовского вывода, что делает порог вхождения очень высоким. Из этой лекции вы узнаете о сравнительно молодой парадигме в машинном обучении — вероятностном программировании. Его задача — сделать всю мощь вероятностного моделирования доступной любому человеку, имеющему опыт программирования и минимальный опыт анализа данных.



Лекция была прочитана Борисом hr0nix Янгелем на факультете компьютерных наук, открытом в Высшей школе экономики при поддержке Яндекса. Сам Борис окончил ВМиК МГУ и Школу анализа данных Яндекса. Работал в Microsoft Research Cambridge в группе Кристофера Бишопа над фреймворком Infer.NET. Сейчас Борис — ведущий разработчик поиска Яндекса.

Под катом — расшифровка рассказа.
Читать дальше →
Всего голосов 44: ↑41 и ↓3+38
Комментарии15

Создаем комнатный детектор движения на Arduino и MATLAB

Время на прочтение7 мин
Количество просмотров27K

В этом примере будет создан простой детектор движения, на базе фоторезистора и Arduino. Управляется при помощи Arduino Support Package для MATLAB.


Читать дальше →
Всего голосов 11: ↑10 и ↓1+9
Комментарии2

Формирование музыкальных предпочтений у нейронной сети — эксперимент по созданию умного плеера

Время на прочтение7 мин
Количество просмотров37K
Данная статья посвящена работе по исследованию возможности обучить простейшую (относительно) нейронную сеть «слушать» музыку и отличать «хорошую» по мнению слушателя от «плохой».

Цель


Научить нейронную сеть отличать «плохую» музыку от «хорошей» или показать, что нейронная сеть на это неспособна (данная конкретная ее реализация).

image
Читать дальше →
Всего голосов 48: ↑47 и ↓1+46
Комментарии19

Типы личности по MBTI: влияние на восприятие рекламы

Время на прочтение5 мин
Количество просмотров42K
Привет Хабр! Анализируя пользовательские данные для нужд маркетинга и рекламы, мы решили исследовать влияние типа личности пользователя на то, как он реагирует на рекламное объявление. За основу решили взять, пожалуй, самую популярную типологию линостей MBTI (Myers-Briggs Type Indicator), известную еще с середины 20-го века. Многие крупные западные компании используют тесты MBTI при найме или при формировании команды для работы над проектами.

Но нас интересует, конечно, не готовность пользователя к командной работе, а влияние его типа личности на желание кликнуть по баннеру. Поэтому вопрос, который мы исследовали звучит так: «Могут ли типы личности влиять на CTR в рекламных кампаниях?»

В этой статье я расскажу о том как мы это делали.


Читать дальше →
Всего голосов 34: ↑25 и ↓9+16
Комментарии46

Истории

Первый опыт участия в kaggle-конкурсе и работа над ошибками

Время на прочтение5 мин
Количество просмотров15K
Хочу поделиться опытом своего первого участия в kaggle конкурсе (учебный Bag of Words). И хотя мне не удалось достичь поражающих воображение результатов, я расскажу о том, как искала и находила способы улучшить примеры “учебника” (для этого сами примеры тоже кратко опишу), а также остановлю внимание на разборе своих просчетов. Должна предупредить, что статья будет интересна прежде всего новичкам в области text mining. Тем не менее, большинство методов я описываю кратко и упрощенно, давая при этом ссылки на более точные определения, поскольку цель моя — обзор практики, а не теории. К сожалению, конкурс уже завершился, но прочитать материалы к нему все равно может быть полезно. Ссылка на код к статье тут.
Читать дальше →
Всего голосов 27: ↑24 и ↓3+21
Комментарии5

Алгоритмы разума

Время на прочтение5 мин
Количество просмотров21K
Наука всегда сопровождает технологию, изобретения дают нам новую пищу для размышлений и создают новые явления, которые еще предстоит объяснить.

Так говорит Арам Харроу (Aram Harrow), профессор физики Массачуссетского технологического в своей статье «Почему сейчас самое подходящее время для изучения квантовых вычислений».

Он считает, что с научной точки зрения энтропия не могла быть полностью изученной, пока технология парового двигателя не дала толчок к развитию термодинамики. Квантовые вычисления появились из-за потребности имитировать квантовую механику на компьютере. Так и алгоритмы человеческого разума могут быть изучены с появлением нейронных сетей. Энтропия используется во многих областях: например, при смарт кропе, в кодировании видео и изображений; в статистике.

image
Читать дальше →
Всего голосов 21: ↑18 и ↓3+15
Комментарии5

Автоматическое определение тональности текста (Sentiment Analysis)

Время на прочтение7 мин
Количество просмотров56K
За недолгое время моего процесса обучения я понял одну вещь – знаниями нужно делиться. Осознал я это давно, но лень перебороть и найти время не всегда получается.

Речь в этой статье пойдет про использование различных методов машинного обучения для решения проблем, связанных с обработкой естественного языка (NLP). Одной из таких проблем является автоматическое определение эмоциональной окраски (позитивный, негативный, нейтральный) текстовых данных, то есть анализа тональности (sentiment analysis). Цель этой задачи состоит в определении, является ли данный текст (допустим обзор фильма или комментарии) положительным, отрицательным или нейтральным по своему влиянию на репутацию конкретного объекта. Трудность анализа тональности заключается в присутствии эмоционально обогащенного языка — сленг, многозначность, неопределенность, сарказм, все эти факторы вводят в заблуждение не только людей, но и компьютеров.



На хабре уже не раз появлялись статьи связанные с определением тональности 1, 2, 3. Да и вообще, эта тема является одной из самых обсуждаемых во всем мире в последнее время [1, 2, 3, 4].

Сразу обговорю, что в этой статье особо никаких новшеств вы не найдете, данный материал скорее всего может послужит туториалом для новичков в сфере машинного обучения и NLP, коим я и являюсь. Основной же материал, который я использовал вы можете найти по этой ссылке. Весь исходный код вы можете найти по этой ссылке.

Итак, в чем же состоит проблема и как ее решить?
Читать дальше →
Всего голосов 18: ↑15 и ↓3+12
Комментарии12

Материалы Третьей конференции «Технологии Wolfram» (СПбГЭУ, 2015)

Время на прочтение6 мин
Количество просмотров5.4K

9 июня 2015 года в Санкт-Петербургском государственном экономическом университете (СПбГЭУ) прошла Третья конференция «Технологии Wolfram», которую посетило более 250 человек. Мы рады представить вам ее материалы: это большое количество записей выступлений докладчиков, а также их презентации, которые вы можете скачать и подробно изучить, а также использовать все коды, приведенные в докладах, в своей работе или хобби.

На конференции было рассмотрено огромное количество областей знаний: облачные вычисления, корпоративные решения, система моделирования и симуляции, вычислительные финансы, образовательные технологии, машинное обучение, вычислительная геометрия, наука о данных, визуализация, изображения, звук и обработка сигналов, высокопроизводительные вычисления, издательское дело и образование.
Читать дальше →
Всего голосов 6: ↑5 и ↓1+4
Комментарии0

Cortana как публичный сервис аналитики и другие анонсы Microsoft World Partner Conference

Время на прочтение4 мин
Количество просмотров6K
На Международной партнерской конференции, которая проходит в Орландо (Флорида, США), Microsoft продемонстрировала новые решения, которые позволят строить «умное облако» совместно с партнерами и создавать персонализированные технологии для каждого бизнеса. Участники конференции также обсудили инвестиции Microsoft в международные партнерские программы, направленные на трансформацию ИТ-индустрии. 

Рекорд скорости с Azure и Cortana Analytics Suite



Набор аналитических инструментов Cortana Analytics Suite

На конференции был анонсирован набор аналитических инструментов Cortana, которые помогут компаниям использовать данные, чтобы принимать важные бизнес-решения. Ранее они использовались как облачные сервисы в виртуальном помощнике Microsoft. Теперь же в набор были добавлены инструменты для работы с  большими данными, аналитические функции и технологии машинного обучения.
Читать дальше →
Всего голосов 15: ↑12 и ↓3+9
Комментарии0

Моделирование и анализ вычислительных процессов

Время на прочтение1 мин
Количество просмотров8.7K
Машины Тьюринга, Поста, Минского, алгоритмы Маркова, рекурсивные функции Клини были придуманы в первой половине двадцатого века в результате попыток формализовать понятие алгоритма. Эти математические модели до сих пор успешно применяются для решения задач разрешимости и алгоритмической сложности, но бесполезны для моделирования поведения сетевых протоколов или компонентов операционной системы. В докладе представлены некоторые современные подходы к моделированию вычислений, которые используются в индустрии при разработке сложных информационных систем.



Лекцию в марте прошлого года прочитал на факультете компьютерных наук Ростислав Яворский, доцент департамента анализа данных и искусственного интеллекта. На факультете Ростислав Эдуардович ведет курсы «Введение в программирование», «Компьютерная алгебра», «Неклассические логики и представление знаний».
Читать дальше →
Всего голосов 34: ↑32 и ↓2+30
Комментарии1

Простой метод для извлечения соотношений и фактов из текста

Время на прочтение4 мин
Количество просмотров16K
Ранее мы писали об анализе отзывов о ресторанах, с целью извлечения упоминаний разных аспектов (еды, обстановки, и подобного). Недавно в комментариях возник вопрос о извлечении из текста фактической информации, т.е. можно ли, например, из отзывов об автомобилях извлечь факты, например «быстро ломается коробка передач» => ломается(коробка передач, быстро), чтобы с этими фактами можно было потом работать. В этой статье мы опишем один из подходов к решению такой проблемы.



Метод, о котором мы расскажем, опирается на ряд упрощений, он не самый точный, но зато легок в реализации и позволяет быстро создать прототип приложения, в котором он должен использоваться. В ряде случаев его будет и вполне достаточно, а для других можно ввести усовершенствования, не отступая от основного принципа.
Читать дальше →
Всего голосов 17: ↑14 и ↓3+11
Комментарии7

Иерархическая классификация сайтов на Python

Время на прочтение8 мин
Количество просмотров27K
Привет, Хабр! Как упоминалось в прошлой статье, немаловажной частью нашей работы является сегментация пользователей. Как же мы это делаем? Наша система видит пользователей как уникальные идентификаторы cookies, которые им присваиваем мы или наши поставщики данных. Выглядит этот id, например, так:

42bcfae8-2ecc-438f-9e0b-841575de7479

Эти номера выступают ключами в различных таблицах, но первоначальным value является, в первую очередь, URL страниц, на которых данная кука была загружена, поисковые запросы, а также иногда некоторая дополнительная информация, которую даёт поставщик – IP-адрес, timestamp, информация о клиенте и прочее. Эти данные довольно неоднородные, поэтому наибольшую ценность для сегментации представляет именно URL. Создавая новый сегмент, аналитик указывает некоторый список адресов, и если какая-то кука засветится на одной из этих страничек, то она попадает в соответствующий сегмент. Получается, что чуть ли не 90% рабочего времени таких аналитиков уходит на то, чтобы подобрать подходящий набор урлов – в результате кропотливой работы с поисковиками, Yandex.Wordstat и другими инструментами.
logo
Получив таким образом более тысячи сегментов, мы поняли, что этот процесс нужно максимально автоматизировать и упростить, при этом иметь возможность мониторинга качества алгоритмов и предоставить аналитикам удобный интерфейс для работы с новым инструментом. Под катом я расскажу, как мы решаем эти задачи.
Читать дальше →
Всего голосов 36: ↑36 и ↓0+36
Комментарии18

Большие данные и большие вопросы

Время на прочтение3 мин
Количество просмотров11K
С каждым годом популярность Big Data продолжает увеличиваться. Аналитические отчеты показывают рост процентного соотношения компаний, которые активно применяют «большие данные» в тех или иных бизнес-процессах.

Сегодня мы поговорим о том, как этот новомодный термин зачастую вводит в заблуждение и не позволяет в полной мере оценить положительные стороны того, что под ним подразумевается в действительности.

Читать дальше →
Всего голосов 19: ↑12 и ↓7+5
Комментарии9

Ближайшие события

Конференция «IT IS CONF 2024»
Дата20 июня
Время09:00 – 19:00
Место
Екатеринбург
Summer Merge
Дата28 – 30 июня
Время11:00
Место
Ульяновская область

Детекция кожи в Wolfram Language (Mathematica)

Время на прочтение5 мин
Количество просмотров11K

Перевод поста Matthias Odisio "Seeing Skin with Mathematica".
Скачать файл, содержащий текст статьи, интерактивные модели и весь код, приведенный в статье, можно здесь.
Выражаю огромную благодарность Кириллу Гузенко за помощь в переводе.

Детекция кожи может быть довольно полезной — это один из основных шагов к более совершенным системам, нацеленным на обнаружение людей, распознавание жестов, лиц, фильтрации на основе содержания и прочего. Несмотря на всё вышеперечисленное, моя мотивация при создании приложения заключалась в другом. Отдел разработки и исследований в Wolfram Research, в котором я работаю, подвергся небольшой реорганизации. С моими коллегами, которые занимаются вероятностями и статистикой, которые стали находиться ко мне значительно ближе, я решил разработать небольшое приложение, которое использовало бы как функционал по обработке изображений в Mathematica, так и статистические функции. Детекция кожи — первое, что пришло мне в голову.

Оттенки кожи и внешность могут варьироваться, что усложняет задачу детекции. Детектор, который я хотел разработать, основывается на вероятностных моделях для цветов пикселей. Для каждого пикселя изображения, поданного на вход, детектор кожи выдаёт вероятность того, что этот пиксель принадлежит области кожи.

Skin detection model
Читать дальше →
Всего голосов 22: ↑18 и ↓4+14
Комментарии6

Лекция Дмитрия Ветрова о математике больших данных: тензоры, нейросети, байесовский вывод 

Время на прочтение2 мин
Количество просмотров49K
Сегодня лекция одного из самых известных в России специалистов по машинному обучению Дмитрия Ветрова, который руководит департаментом больших данных и информационного поиска на факультете компьютерных наук, работающим во ВШЭ при поддержке Яндекса.

Как можно хранить и обрабатывать многомерные массивы в линейных по памяти структурах? Что дает обучение нейронных сетей из триллионов триллионов нейронов и как можно осуществить его без переобучения? Можно ли обрабатывать информацию «на лету», не сохраняя поступающие последовательно данные? Как оптимизировать функцию за время меньшее чем уходит на ее вычисление в одной точке? Что дает обучение по слаборазмеченным данным? И почему для решения всех перечисленных выше задач надо хорошо знать математику? И другое дальше.



Люди и их устройства стали генерировать такое количество данных, что за их ростом не успевают даже вычислительные мощности крупных компаний. И хотя без таких ресурсов работа с данными невозможна, полезными их делают люди. Сейчас мы находимся на этапе, когда информации так много, что традиционные математические методы и модели становятся неприменимы. Из лекции Дмитрия Петровича вы узнаете, почему вам надо хорошо знать математику для работы с машинным обучением и обработкой данных. И какая «новая математика» понадобится вам для этого. Слайды презентации — под катом.
Читать дальше →
Всего голосов 58: ↑57 и ↓1+56
Комментарии16

Google AI или Дата-центр во власти искусственного интеллекта

Время на прочтение9 мин
Количество просмотров15K
Искусственный интеллект (далее ИИ) всегда привлекал не только ученых-фантастов и писателей, но и обычных обывателей. Роботы, наделенные разумом, дразнят наше любопытство и настораживают наши первобытные страхи, становятся персонажами книг и кинолент. Однако ИИ может быть и неосязаемый, не наделенный оболочкой из металла или пластика. Совокупность программ и алгоритмов, способная самостоятельно принимать решения и изменять те или иные переменные для получения заданной цели — это тоже ИИ. В наше время, когда будущее по мнению многих фантастов уже настало, многие компании с огромным интересом и энтузиазмом смотрят в сторону использования искусственного интеллекта с целью модернизации процесса производства и предоставления товаров и услуг. Кто же, как не дата центры, должны стоять у истоков этого, возможно, революционного прорыва.


Читать дальше →
Всего голосов 15: ↑12 и ↓3+9
Комментарии6

Майский Python Meetup: машинное обучение и куда класть исходники

Время на прочтение1 мин
Количество просмотров13K
Всем привет! Мы хотим поделиться с вами записями выступлений с предыдущего Python Meetup. В этот раз мы обсуждали полезность сохранения исходного кода с Григорием Петровым и особенности применения машинного обучения с Андрем Гриненко.



Читать дальше →
Всего голосов 15: ↑13 и ↓2+11
Комментарии13

Хакатон по глубинному обучению (deep learning)

Время на прочтение3 мин
Количество просмотров11K
Глубокое обучение (deep learning) бурно развивается, и стабильно растёт список новых прорывов и областей его применения (обработка изображений, распознавание речи, обучение с подкреплением, нейромашинный перевод, вычислительная фармацевтика 1 и 2 и далее). Как следствие, крупнейшие мировые IT-компании (Google, Facebook, Baidu и многие другие) продолжают активно внедрять технологии глубокого обучения, создавая новые рабочие места.

Тем временем, возникает настойчиво поддерживаемая журналистами иллюзия, что вот-вот технологии глубокого обучения решат проблему создания искусственного интеллекта [1, 2, 3, 4]. Но реальность такова, что круга нерешённых задач хватит ещё на много диссертаций (см. презентация Я. Лекуна (Yann LeCun) на CVPR15, заметка Ю. Шмидтхубера (Jürgen Schmidhuber), пост Б. Гёртцеля (Ben Goertzel), уже упомянутые в статье на Хабре работы Дж. Хинтона (Geoffrey Hinton)). Осознавая этот факт, специалисты в машинном обучении стремятся повысить свою квалификацию; как показатель, на 100 мест в летней школе по глубокому обучению Ёшуа Бенжио (Yoshua Bengio) в этом году было более 600 заявок.

Наверно, не многие из читателей Хабра имели возможность попасть на школу Ё. Бенжио, однако, получить опыт и знания по глубокому обучению можно будет в процессе интенсивного недельного соревнования (хакатона), которое пройдет в Москве в июле. У участников хакатона будет возможность прослушать лекции от ведущих мировых специалистов, применить полученные навыки на практике и выиграть призы.


О том как это будет
Всего голосов 14: ↑11 и ↓3+8
Комментарии9

Коллоквиумы на факультете Яндекса в Вышке: молекулярная биология

Время на прочтение1 мин
Количество просмотров20K
20 июня начался прием документов на факультет компьютерных наук, который в прошлом году при участии Яндекса был открыт в Высшей школе экономики. Желающих учиться на нём оказалось так много, что количество бюджетных мест тогда увеличили в два раза. В итоге на первый курс поступило 320 человек.

На факультете помимо занятий для студентов есть специальные семинары, на которые могут приходить все желающие. Они проходят в рамках Коллоквиума факультета компьютерных наук ВШЭ. Семинары проводят учёные не только из Вышки, но из других вузов и научных центров — МГУ, МФТИ, Математического института и института системного анализа РАН, MIT, Microsoft Research, Школы анализа данных Яндекса. Прийти их послушать может не только студент или сотрудник ФКН, но и любой желающий. С сегодняшнего дня мы начинам публиковать записи избранных выступлений.



Первый семинар, который мы выбрали, проводил известный российский биоинформатик Михаил Гельфанд. Из него вы узнаете об основных информационные процессах, протекающих в клетке при реализации геномной программы. Как говорил сам Михаил Сергеевич, доклад задумывался как «crash course по молекулярной биологии для тех коллег, которые хотят понимать, чем занимаются биологи и про что разговаривают биоинформатики».
Читать дальше →
Всего голосов 46: ↑44 и ↓2+42
Комментарии11

Анализ отзывов посетителей ресторанов с Meanotek NeuText API

Время на прочтение4 мин
Количество просмотров4.7K
Анализ отзывов пользователей ресторанов был частью задачи тестирования SentiRuEval-2015, прошедшего в рамках конференции Диалог-2015. В этой статье поговорим о том, что собственно делают такие анализаторы, зачем это нужно на практике, и как создать такое средство своими руками с помощью Meanotek NeuText API

Анализ отзывов по аспектам часто разделяют на несколько этапов. Рассмотрим например предложение «японские блюда были вкусными, но официант работал медленно». На первом этапе мы выделяем из него важные для нас слова или словосочетания. В данном случае это «японские блюда», «вкусными», «официант», «медленно». Это позволяет понять, о чем идет речь в предложении. Далее мы можем захотеть сгруппировать термины — например отнести «блюда» и «вкусными» к еде, а «официант» к обслуживанию. Такая группировка позволит выдавать агрегированную статистику. Наконец, мы можем захотеть оценить тональность терминов, говорится о них что-то положительное или отрицательное
Читать дальше →
Всего голосов 3: ↑3 и ↓0+3
Комментарии0

Вклад авторов

Работа

Data Scientist
78 вакансий