Как стать автором

Машинное обучение *

Основа искусственного интеллекта

Статьи Посты Новости Авторы Компании

Zalina 2 авг 2015 в 19:20

Вероятностное программирование

19 мин

42K

Блог компании ЯндексПоисковые технологии*Программирование*Математика*Машинное обучение*

Вероятностное моделирование является одним из мощнейших инструментов для специалиста по анализу данных. К сожалению, для его использования необходимо не только уверенно владеть аппаратом теории вероятностей и математической статистики, но и знать детали работы алгоритмов приближенного байесовского вывода, что делает порог вхождения очень высоким. Из этой лекции вы узнаете о сравнительно молодой парадигме в машинном обучении — вероятностном программировании. Его задача — сделать всю мощь вероятностного моделирования доступной любому человеку, имеющему опыт программирования и минимальный опыт анализа данных.

Лекция была прочитана Борисом hr0nix Янгелем на факультете компьютерных наук, открытом в Высшей школе экономики при поддержке Яндекса. Сам Борис окончил ВМиК МГУ и Школу анализа данных Яндекса. Работал в Microsoft Research Cambridge в группе Кристофера Бишопа над фреймворком Infer.NET. Сейчас Борис — ведущий разработчик поиска Яндекса.

Под катом — расшифровка рассказа.

Читать дальше →

+38

URURU 30 июл 2015 в 10:04

Создаем комнатный детектор движения на Arduino и MATLAB

7 мин

27K

Алгоритмы*Машинное обучение*Matlab*

Перевод

В этом примере будет создан простой детектор движения, на базе фоторезистора и Arduino. Управляется при помощи Arduino Support Package для MATLAB.

Читать дальше →

+9

vpuhoff 29 июл 2015 в 16:39

Формирование музыкальных предпочтений у нейронной сети — эксперимент по созданию умного плеера

7 мин

37K

Занимательные задачкиC#*Машинное обучение*

Из песочницы

Данная статья посвящена работе по исследованию возможности обучить простейшую (относительно) нейронную сеть «слушать» музыку и отличать «хорошую» по мнению слушателя от «плохой».

Цель

Научить нейронную сеть отличать «плохую» музыку от «хорошей» или показать, что нейронная сеть на это неспособна (данная конкретная ее реализация).

Читать дальше →

+46

kfedorenko 28 июл 2015 в 17:12

Типы личности по MBTI: влияние на восприятие рекламы

5 мин

42K

Блог компании DCA (Data-Centric Alliance)Big Data*Машинное обучение*

Привет Хабр! Анализируя пользовательские данные для нужд маркетинга и рекламы, мы решили исследовать влияние типа личности пользователя на то, как он реагирует на рекламное объявление. За основу решили взять, пожалуй, самую популярную типологию линостей MBTI (Myers-Briggs Type Indicator), известную еще с середины 20-го века. Многие крупные западные компании используют тесты MBTI при найме или при формировании команды для работы над проектами.

Но нас интересует, конечно, не готовность пользователя к командной работе, а влияние его типа личности на желание кликнуть по баннеру. Поэтому вопрос, который мы исследовали звучит так: «Могут ли типы личности влиять на CTR в рекламных кампаниях?»

В этой статье я расскажу о том как мы это делали.

Читать дальше →

+16

Jaylla 23 июл 2015 в 15:49

Первый опыт участия в kaggle-конкурсе и работа над ошибками

5 мин

15K

Python*Data Mining*Машинное обучение*

Из песочницы

Хочу поделиться опытом своего первого участия в kaggle конкурсе (учебный Bag of Words). И хотя мне не удалось достичь поражающих воображение результатов, я расскажу о том, как искала и находила способы улучшить примеры “учебника” (для этого сами примеры тоже кратко опишу), а также остановлю внимание на разборе своих просчетов. Должна предупредить, что статья будет интересна прежде всего новичкам в области text mining. Тем не менее, большинство методов я описываю кратко и упрощенно, давая при этом ссылки на более точные определения, поскольку цель моя — обзор практики, а не теории. К сожалению, конкурс уже завершился, но прочитать материалы к нему все равно может быть полезно. Ссылка на код к статье тут.

Читать дальше →

+21

peremen 23 июл 2015 в 11:02

Алгоритмы разума

5 мин

21K

Блог компании .ioАлгоритмы*Машинное обучение*

Перевод

Наука всегда сопровождает технологию, изобретения дают нам новую пищу для размышлений и создают новые явления, которые еще предстоит объяснить.

Так говорит Арам Харроу (Aram Harrow), профессор физики Массачуссетского технологического в своей статье «Почему сейчас самое подходящее время для изучения квантовых вычислений».

Он считает, что с научной точки зрения энтропия не могла быть полностью изученной, пока технология парового двигателя не дала толчок к развитию термодинамики. Квантовые вычисления появились из-за потребности имитировать квантовую механику на компьютере. Так и алгоритмы человеческого разума могут быть изучены с появлением нейронных сетей. Энтропия используется во многих областях: например, при смарт кропе, в кодировании видео и изображений; в статистике.

Читать дальше →

+15

arreqe 21 июл 2015 в 12:37

Автоматическое определение тональности текста (Sentiment Analysis)

7 мин

56K

Python*Машинное обучение*

Из песочницы

За недолгое время моего процесса обучения я понял одну вещь – знаниями нужно делиться. Осознал я это давно, но лень перебороть и найти время не всегда получается.

Речь в этой статье пойдет про использование различных методов машинного обучения для решения проблем, связанных с обработкой естественного языка (NLP). Одной из таких проблем является автоматическое определение эмоциональной окраски (позитивный, негативный, нейтральный) текстовых данных, то есть анализа тональности (sentiment analysis). Цель этой задачи состоит в определении, является ли данный текст (допустим обзор фильма или комментарии) положительным, отрицательным или нейтральным по своему влиянию на репутацию конкретного объекта. Трудность анализа тональности заключается в присутствии эмоционально обогащенного языка — сленг, многозначность, неопределенность, сарказм, все эти факторы вводят в заблуждение не только людей, но и компьютеров.

На хабре уже не раз появлялись статьи связанные с определением тональности 1, 2, 3. Да и вообще, эта тема является одной из самых обсуждаемых во всем мире в последнее время [1, 2, 3, 4].

Сразу обговорю, что в этой статье особо никаких новшеств вы не найдете, данный материал скорее всего может послужит туториалом для новичков в сфере машинного обучения и NLP, коим я и являюсь. Основной же материал, который я использовал вы можете найти по этой ссылке. Весь исходный код вы можете найти по этой ссылке.

Итак, в чем же состоит проблема и как ее решить?

Читать дальше →

+12

OsipovRoman 15 июл 2015 в 19:24

Материалы Третьей конференции «Технологии Wolfram» (СПбГЭУ, 2015)

6 мин

5.4K

Блог компании Wolfram ResearchПрограммирование*Обработка изображений*Математика*Машинное обучение*

9 июня 2015 года в Санкт-Петербургском государственном экономическом университете (СПбГЭУ) прошла Третья конференция «Технологии Wolfram», которую посетило более 250 человек. Мы рады представить вам ее материалы: это большое количество записей выступлений докладчиков, а также их презентации, которые вы можете скачать и подробно изучить, а также использовать все коды, приведенные в докладах, в своей работе или хобби.

На конференции было рассмотрено огромное количество областей знаний: облачные вычисления, корпоративные решения, система моделирования и симуляции, вычислительные финансы, образовательные технологии, машинное обучение, вычислительная геометрия, наука о данных, визуализация, изображения, звук и обработка сигналов, высокопроизводительные вычисления, издательское дело и образование.

Читать дальше →

+4

XaocCPS 15 июл 2015 в 10:15

Cortana как публичный сервис аналитики и другие анонсы Microsoft World Partner Conference

4 мин

6K

Блог компании MicrosoftBig Data*Microsoft Azure*Машинное обучение*

На Международной партнерской конференции, которая проходит в Орландо (Флорида, США), Microsoft продемонстрировала новые решения, которые позволят строить «умное облако» совместно с партнерами и создавать персонализированные технологии для каждого бизнеса. Участники конференции также обсудили инвестиции Microsoft в международные партнерские программы, направленные на трансформацию ИТ-индустрии.

Рекорд скорости с Azure и Cortana Analytics Suite

Набор аналитических инструментов Cortana Analytics Suite

На конференции был анонсирован набор аналитических инструментов Cortana, которые помогут компаниям использовать данные, чтобы принимать важные бизнес-решения. Ранее они использовались как облачные сервисы в виртуальном помощнике Microsoft. Теперь же в набор были добавлены инструменты для работы с большими данными, аналитические функции и технологии машинного обучения.

Читать дальше →

+9

Zalina 13 июл 2015 в 12:05

Моделирование и анализ вычислительных процессов

1 мин

8.7K

Блог компании ЯндексВеб-разработка*Алгоритмы*Математика*Машинное обучение*

Машины Тьюринга, Поста, Минского, алгоритмы Маркова, рекурсивные функции Клини были придуманы в первой половине двадцатого века в результате попыток формализовать понятие алгоритма. Эти математические модели до сих пор успешно применяются для решения задач разрешимости и алгоритмической сложности, но бесполезны для моделирования поведения сетевых протоколов или компонентов операционной системы. В докладе представлены некоторые современные подходы к моделированию вычислений, которые используются в индустрии при разработке сложных информационных систем.

Лекцию в марте прошлого года прочитал на факультете компьютерных наук Ростислав Яворский, доцент департамента анализа данных и искусственного интеллекта. На факультете Ростислав Эдуардович ведет курсы «Введение в программирование», «Компьютерная алгебра», «Неклассические логики и представление знаний».

Читать дальше →

+30

Durham 10 июл 2015 в 14:28

Простой метод для извлечения соотношений и фактов из текста

4 мин

16K

Блог компании MeanoTekВеб-разработка*Семантика*Машинное обучение*

Ранее мы писали об анализе отзывов о ресторанах, с целью извлечения упоминаний разных аспектов (еды, обстановки, и подобного). Недавно в комментариях возник вопрос о извлечении из текста фактической информации, т.е. можно ли, например, из отзывов об автомобилях извлечь факты, например «быстро ломается коробка передач» => ломается(коробка передач, быстро), чтобы с этими фактами можно было потом работать. В этой статье мы опишем один из подходов к решению такой проблемы.

Метод, о котором мы расскажем, опирается на ряд упрощений, он не самый точный, но зато легок в реализации и позволяет быстро создать прототип приложения, в котором он должен использоваться. В ряде случаев его будет и вполне достаточно, а для других можно ввести усовершенствования, не отступая от основного принципа.

Читать дальше →

+11

ser0t0nin 2 июл 2015 в 18:09

Иерархическая классификация сайтов на Python

8 мин

27K

Блог компании DCA (Data-Centric Alliance)Python*Big Data*Машинное обучение*

Привет, Хабр! Как упоминалось в прошлой статье, немаловажной частью нашей работы является сегментация пользователей. Как же мы это делаем? Наша система видит пользователей как уникальные идентификаторы cookies, которые им присваиваем мы или наши поставщики данных. Выглядит этот id, например, так:

42bcfae8-2ecc-438f-9e0b-841575de7479

Эти номера выступают ключами в различных таблицах, но первоначальным value является, в первую очередь, URL страниц, на которых данная кука была загружена, поисковые запросы, а также иногда некоторая дополнительная информация, которую даёт поставщик – IP-адрес, timestamp, информация о клиенте и прочее. Эти данные довольно неоднородные, поэтому наибольшую ценность для сегментации представляет именно URL. Создавая новый сегмент, аналитик указывает некоторый список адресов, и если какая-то кука засветится на одной из этих страничек, то она попадает в соответствующий сегмент. Получается, что чуть ли не 90% рабочего времени таких аналитиков уходит на то, чтобы подобрать подходящий набор урлов – в результате кропотливой работы с поисковиками, Yandex.Wordstat и другими инструментами.

Получив таким образом более тысячи сегментов, мы поняли, что этот процесс нужно максимально автоматизировать и упростить, при этом иметь возможность мониторинга качества алгоритмов и предоставить аналитикам удобный интерфейс для работы с новым инструментом. Под катом я расскажу, как мы решаем эти задачи.

Читать дальше →

+36

1cloud 30 июн 2015 в 14:04

Большие данные и большие вопросы

3 мин

11K

Блог компании 1cloud.ruАнализ и проектирование систем*Big Data*Разработка под e-commerce*Машинное обучение*

С каждым годом популярность Big Data продолжает увеличиваться. Аналитические отчеты показывают рост процентного соотношения компаний, которые активно применяют «большие данные» в тех или иных бизнес-процессах.

Сегодня мы поговорим о том, как этот новомодный термин зачастую вводит в заблуждение и не позволяет в полной мере оценить положительные стороны того, что под ним подразумевается в действительности.

Читать дальше →

+5

OsipovRoman 29 июн 2015 в 18:29

Детекция кожи в Wolfram Language (Mathematica)

5 мин

11K

Блог компании Wolfram ResearchПрограммирование*Алгоритмы*Обработка изображений*Машинное обучение*

Перевод

Перевод поста Matthias Odisio "Seeing Skin with Mathematica".
Скачать файл, содержащий текст статьи, интерактивные модели и весь код, приведенный в статье, можно здесь.
Выражаю огромную благодарность Кириллу Гузенко за помощь в переводе.

Детекция кожи может быть довольно полезной — это один из основных шагов к более совершенным системам, нацеленным на обнаружение людей, распознавание жестов, лиц, фильтрации на основе содержания и прочего. Несмотря на всё вышеперечисленное, моя мотивация при создании приложения заключалась в другом. Отдел разработки и исследований в Wolfram Research, в котором я работаю, подвергся небольшой реорганизации. С моими коллегами, которые занимаются вероятностями и статистикой, которые стали находиться ко мне значительно ближе, я решил разработать небольшое приложение, которое использовало бы как функционал по обработке изображений в Mathematica, так и статистические функции. Детекция кожи — первое, что пришло мне в голову.

Оттенки кожи и внешность могут варьироваться, что усложняет задачу детекции. Детектор, который я хотел разработать, основывается на вероятностных моделях для цветов пикселей. Для каждого пикселя изображения, поданного на вход, детектор кожи выдаёт вероятность того, что этот пиксель принадлежит области кожи.

Skin detection model

Skin detection model

Читать дальше →

+14

Zalina 28 июн 2015 в 16:45

Лекция Дмитрия Ветрова о математике больших данных: тензоры, нейросети, байесовский вывод

2 мин

49K

Блог компании ЯндексАлгоритмы*Big Data*Математика*Машинное обучение*

Сегодня лекция одного из самых известных в России специалистов по машинному обучению Дмитрия Ветрова, который руководит департаментом больших данных и информационного поиска на факультете компьютерных наук, работающим во ВШЭ при поддержке Яндекса.

Как можно хранить и обрабатывать многомерные массивы в линейных по памяти структурах? Что дает обучение нейронных сетей из триллионов триллионов нейронов и как можно осуществить его без переобучения? Можно ли обрабатывать информацию «на лету», не сохраняя поступающие последовательно данные? Как оптимизировать функцию за время меньшее чем уходит на ее вычисление в одной точке? Что дает обучение по слаборазмеченным данным? И почему для решения всех перечисленных выше задач надо хорошо знать математику? И другое дальше.

Люди и их устройства стали генерировать такое количество данных, что за их ростом не успевают даже вычислительные мощности крупных компаний. И хотя без таких ресурсов работа с данными невозможна, полезными их делают люди. Сейчас мы находимся на этапе, когда информации так много, что традиционные математические методы и модели становятся неприменимы. Из лекции Дмитрия Петровича вы узнаете, почему вам надо хорошо знать математику для работы с машинным обучением и обработкой данных. И какая «новая математика» понадобится вам для этого. Слайды презентации — под катом.

Читать дальше →

+56

Dmytro_Kikot 24 июн 2015 в 16:05

Google AI или Дата-центр во власти искусственного интеллекта

9 мин

15K

Блог компании ua-hosting.companyАнализ и проектирование систем*Машинное обучение*

Искусственный интеллект (далее ИИ) всегда привлекал не только ученых-фантастов и писателей, но и обычных обывателей. Роботы, наделенные разумом, дразнят наше любопытство и настораживают наши первобытные страхи, становятся персонажами книг и кинолент. Однако ИИ может быть и неосязаемый, не наделенный оболочкой из металла или пластика. Совокупность программ и алгоритмов, способная самостоятельно принимать решения и изменять те или иные переменные для получения заданной цели — это тоже ИИ. В наше время, когда будущее по мнению многих фантастов уже настало, многие компании с огромным интересом и энтузиазмом смотрят в сторону использования искусственного интеллекта с целью модернизации процесса производства и предоставления товаров и услуг. Кто же, как не дата центры, должны стоять у истоков этого, возможно, революционного прорыва.

Читать дальше →

+9

Wargaming 24 июн 2015 в 13:23

Майский Python Meetup: машинное обучение и куда класть исходники

1 мин

13K

Блог компании ex-WargamingPython*Машинное обучение*

Туториал

Всем привет! Мы хотим поделиться с вами записями выступлений с предыдущего Python Meetup. В этот раз мы обсуждали полезность сохранения исходного кода с Григорием Петровым и особенности применения машинного обучения с Андрем Гриненко.

Читать дальше →

+11

e777 22 июн 2015 в 21:22

Хакатон по глубинному обучению (deep learning)

3 мин

11K

Программирование*Data Mining*Машинное обучение*

Глубокое обучение (deep learning) бурно развивается, и стабильно растёт список новых прорывов и областей его применения (обработка изображений, распознавание речи, обучение с подкреплением, нейромашинный перевод, вычислительная фармацевтика 1 и 2 и далее). Как следствие, крупнейшие мировые IT-компании (Google, Facebook, Baidu и многие другие) продолжают активно внедрять технологии глубокого обучения, создавая новые рабочие места.

Тем временем, возникает настойчиво поддерживаемая журналистами иллюзия, что вот-вот технологии глубокого обучения решат проблему создания искусственного интеллекта [1, 2, 3, 4]. Но реальность такова, что круга нерешённых задач хватит ещё на много диссертаций (см. презентация Я. Лекуна (Yann LeCun) на CVPR15, заметка Ю. Шмидтхубера (Jürgen Schmidhuber), пост Б. Гёртцеля (Ben Goertzel), уже упомянутые в статье на Хабре работы Дж. Хинтона (Geoffrey Hinton)). Осознавая этот факт, специалисты в машинном обучении стремятся повысить свою квалификацию; как показатель, на 100 мест в летней школе по глубокому обучению Ёшуа Бенжио (Yoshua Bengio) в этом году было более 600 заявок.

Наверно, не многие из читателей Хабра имели возможность попасть на школу Ё. Бенжио, однако, получить опыт и знания по глубокому обучению можно будет в процессе интенсивного недельного соревнования (хакатона), которое пройдет в Москве в июле. У участников хакатона будет возможность прослушать лекции от ведущих мировых специалистов, применить полученные навыки на практике и выиграть призы.

О том как это будет

+8

Zalina 21 июн 2015 в 15:49

Коллоквиумы на факультете Яндекса в Вышке: молекулярная биология

1 мин

20K

Блог компании ЯндексМатематика*Профессиональная литература*Машинное обучение*

20 июня начался прием документов на факультет компьютерных наук, который в прошлом году при участии Яндекса был открыт в Высшей школе экономики. Желающих учиться на нём оказалось так много, что количество бюджетных мест тогда увеличили в два раза. В итоге на первый курс поступило 320 человек.

На факультете помимо занятий для студентов есть специальные семинары, на которые могут приходить все желающие. Они проходят в рамках Коллоквиума факультета компьютерных наук ВШЭ. Семинары проводят учёные не только из Вышки, но из других вузов и научных центров — МГУ, МФТИ, Математического института и института системного анализа РАН, MIT, Microsoft Research, Школы анализа данных Яндекса. Прийти их послушать может не только студент или сотрудник ФКН, но и любой желающий. С сегодняшнего дня мы начинам публиковать записи избранных выступлений.

Первый семинар, который мы выбрали, проводил известный российский биоинформатик Михаил Гельфанд. Из него вы узнаете об основных информационные процессах, протекающих в клетке при реализации геномной программы. Как говорил сам Михаил Сергеевич, доклад задумывался как «crash course по молекулярной биологии для тех коллег, которые хотят понимать, чем занимаются биологи и про что разговаривают биоинформатики».

Читать дальше →

+42

Durham 17 июн 2015 в 12:53

Анализ отзывов посетителей ресторанов с Meanotek NeuText API

4 мин

4.7K

Блог компании MeanoTekСемантика*.NET*API*Машинное обучение*

Анализ отзывов пользователей ресторанов был частью задачи тестирования SentiRuEval-2015, прошедшего в рамках конференции Диалог-2015. В этой статье поговорим о том, что собственно делают такие анализаторы, зачем это нужно на практике, и как создать такое средство своими руками с помощью Meanotek NeuText API

Анализ отзывов по аспектам часто разделяют на несколько этапов. Рассмотрим например предложение «японские блюда были вкусными, но официант работал медленно». На первом этапе мы выделяем из него важные для нас слова или словосочетания. В данном случае это «японские блюда», «вкусными», «официант», «медленно». Это позволяет понять, о чем идет речь в предложении. Далее мы можем захотеть сгруппировать термины — например отнести «блюда» и «вкусными» к еде, а «официант» к обслуживанию. Такая группировка позволит выдавать агрегированную статистику. Наконец, мы можем захотеть оценить тональность терминов, говорится о них что-то положительное или отрицательное

Читать дальше →

+3

1 2 ...

327

328 329 330 331