Как стать автором
Поиск
Написать публикацию
Обновить
777.29

Машинное обучение *

Основа искусственного интеллекта

Сначала показывать
Порог рейтинга
Уровень сложности

Google AI или Дата-центр во власти искусственного интеллекта

Время на прочтение9 мин
Количество просмотров15K
Искусственный интеллект (далее ИИ) всегда привлекал не только ученых-фантастов и писателей, но и обычных обывателей. Роботы, наделенные разумом, дразнят наше любопытство и настораживают наши первобытные страхи, становятся персонажами книг и кинолент. Однако ИИ может быть и неосязаемый, не наделенный оболочкой из металла или пластика. Совокупность программ и алгоритмов, способная самостоятельно принимать решения и изменять те или иные переменные для получения заданной цели — это тоже ИИ. В наше время, когда будущее по мнению многих фантастов уже настало, многие компании с огромным интересом и энтузиазмом смотрят в сторону использования искусственного интеллекта с целью модернизации процесса производства и предоставления товаров и услуг. Кто же, как не дата центры, должны стоять у истоков этого, возможно, революционного прорыва.


Читать дальше →

Майский Python Meetup: машинное обучение и куда класть исходники

Время на прочтение1 мин
Количество просмотров13K
Всем привет! Мы хотим поделиться с вами записями выступлений с предыдущего Python Meetup. В этот раз мы обсуждали полезность сохранения исходного кода с Григорием Петровым и особенности применения машинного обучения с Андрем Гриненко.



Читать дальше →

Хакатон по глубинному обучению (deep learning)

Время на прочтение3 мин
Количество просмотров11K
Глубокое обучение (deep learning) бурно развивается, и стабильно растёт список новых прорывов и областей его применения (обработка изображений, распознавание речи, обучение с подкреплением, нейромашинный перевод, вычислительная фармацевтика 1 и 2 и далее). Как следствие, крупнейшие мировые IT-компании (Google, Facebook, Baidu и многие другие) продолжают активно внедрять технологии глубокого обучения, создавая новые рабочие места.

Тем временем, возникает настойчиво поддерживаемая журналистами иллюзия, что вот-вот технологии глубокого обучения решат проблему создания искусственного интеллекта [1, 2, 3, 4]. Но реальность такова, что круга нерешённых задач хватит ещё на много диссертаций (см. презентация Я. Лекуна (Yann LeCun) на CVPR15, заметка Ю. Шмидтхубера (Jürgen Schmidhuber), пост Б. Гёртцеля (Ben Goertzel), уже упомянутые в статье на Хабре работы Дж. Хинтона (Geoffrey Hinton)). Осознавая этот факт, специалисты в машинном обучении стремятся повысить свою квалификацию; как показатель, на 100 мест в летней школе по глубокому обучению Ёшуа Бенжио (Yoshua Bengio) в этом году было более 600 заявок.

Наверно, не многие из читателей Хабра имели возможность попасть на школу Ё. Бенжио, однако, получить опыт и знания по глубокому обучению можно будет в процессе интенсивного недельного соревнования (хакатона), которое пройдет в Москве в июле. У участников хакатона будет возможность прослушать лекции от ведущих мировых специалистов, применить полученные навыки на практике и выиграть призы.


О том как это будет

Коллоквиумы на факультете Яндекса в Вышке: молекулярная биология

Время на прочтение1 мин
Количество просмотров20K
20 июня начался прием документов на факультет компьютерных наук, который в прошлом году при участии Яндекса был открыт в Высшей школе экономики. Желающих учиться на нём оказалось так много, что количество бюджетных мест тогда увеличили в два раза. В итоге на первый курс поступило 320 человек.

На факультете помимо занятий для студентов есть специальные семинары, на которые могут приходить все желающие. Они проходят в рамках Коллоквиума факультета компьютерных наук ВШЭ. Семинары проводят учёные не только из Вышки, но из других вузов и научных центров — МГУ, МФТИ, Математического института и института системного анализа РАН, MIT, Microsoft Research, Школы анализа данных Яндекса. Прийти их послушать может не только студент или сотрудник ФКН, но и любой желающий. С сегодняшнего дня мы начинам публиковать записи избранных выступлений.



Первый семинар, который мы выбрали, проводил известный российский биоинформатик Михаил Гельфанд. Из него вы узнаете об основных информационные процессах, протекающих в клетке при реализации геномной программы. Как говорил сам Михаил Сергеевич, доклад задумывался как «crash course по молекулярной биологии для тех коллег, которые хотят понимать, чем занимаются биологи и про что разговаривают биоинформатики».
Читать дальше →

Анализ отзывов посетителей ресторанов с Meanotek NeuText API

Время на прочтение4 мин
Количество просмотров4.9K
Анализ отзывов пользователей ресторанов был частью задачи тестирования SentiRuEval-2015, прошедшего в рамках конференции Диалог-2015. В этой статье поговорим о том, что собственно делают такие анализаторы, зачем это нужно на практике, и как создать такое средство своими руками с помощью Meanotek NeuText API

Анализ отзывов по аспектам часто разделяют на несколько этапов. Рассмотрим например предложение «японские блюда были вкусными, но официант работал медленно». На первом этапе мы выделяем из него важные для нас слова или словосочетания. В данном случае это «японские блюда», «вкусными», «официант», «медленно». Это позволяет понять, о чем идет речь в предложении. Далее мы можем захотеть сгруппировать термины — например отнести «блюда» и «вкусными» к еде, а «официант» к обслуживанию. Такая группировка позволит выдавать агрегированную статистику. Наконец, мы можем захотеть оценить тональность терминов, говорится о них что-то положительное или отрицательное
Читать дальше →

Обработка русских текстовых данных в Azure Machine Learning

Время на прочтение2 мин
Количество просмотров8.9K
Буквально только что закончился хакатон компании Microsoft по Azure ML. В процессе решения одной из задач потребовалась обработка русскоязычных текстовых данных, причём желательно внутри системы. В итоге, потратив ощутимое время на поиск решения, хочу им поделиться. Надеюсь, что это поможет кому-то сэкономить время и не биться головой в стенку зря.
Читать дальше →

Умный интернет вещей — кто он и с чем его едят?

Время на прочтение7 мин
Количество просмотров131K
Тренд интернета вещей сейчас набирает всё большую популярность. Чаще всего понятие интернета вещей неразрывно связано с чем-то умным: умные дома, умный транспорт, умные предприятия… Но когда смотришь на эту интеллектуальность внимательнее, то часто разочаровываешься: удаленное управление лампочкой в доме — это в лучшем случае автоматизация, но никак не умный дом. Кажется, что и интернет получается не таким уж и умным… А что же такое умный интернет вещей?
Читать дальше →

Предсказание курса акций с использованием больших данных и машинного обучения

Время на прочтение9 мин
Количество просмотров37K
Примечание переводчика: В нашем блоге мы уже рассказывали об инструментах для создания торговых роботов и даже анализировали зависимости между названием биржевого тикера компании и успешностью ее акций. Сегодня мы представляем вашему вниманию перевод интересной статьи, авторой которой разрабатывал систему, которая анализирует изменения цен на акций в прошлом и с помощью машинного обучения пытается предсказать будущий курс акций.



Краткий обзор

Этот пост основан на статье, носящей название «Моделирование динамики высокочастотного портфеля лимитных ордеров методом опорных векторов». Грубо говоря, я ступенька за ступенькой реализую идеи, представленные в этой статье, используя Spark и Spark MLLib. Авторы используют сокращенные примеры, я же буду использовать полный журнал ордеров из Нью-Йоркской фондовой биржи (NYSE) (выборочные данные доступны на NYSE FTP), поскольку, работая со Spark, я могу легко это сделать. Вместо того, чтобы использовать метод опорных векторов, я воспользуюсь алгоритмом дерева решений для классификации, поскольку Spark MLLib изначально поддерживает мультиклассовую классификацию.

Если вы хотите глубже понять проблему и предложенное решение, вам нужно прочитать ту статью. Я же проведу полный обзор проблемы в одном или двух разделах, но менее научным языком.

Предсказательное моделирование – это процесс выбора или создания модели, целью которой является наиболее точное предсказание возможного исхода.
Читать дальше →

Как я повышал конверсию машинным обучением

Время на прочтение8 мин
Количество просмотров21K
В этой статье я попробую ответить на такие вопросы:
  • может ли один доклад умного человека сделать другого человека одержимым?
  • как окунуться в машинное обучение (почти) с нуля?
  • почему не стоит недооценивать многоруких бандитов?
  • существует ли серебряная пуля для a/b тестов?

Ответ на первый вопрос будет самым лаконичным — «да». Услышав это выступление bobuk на YaC/M, я восхитился элегантностью подхода и задумался о том, как бы внедрить похожее решение. Я тогда работал продуктовым менеджером в компании Wargaming и как раз занимался т.н. user acquisition services – технологическими решениями для привлечения пользователей, в число которых входила и система для A/B тестирования лендингов. Так что зерна легли на благодатную почву.

К сожалению, по всяким причинам я не мог плотно заняться этим проектом в обычном рабочем режиме. Зато когда я слегка перегорел на работе и решил устроить себе длинный творческий отпуск, одержимость превратилась в желание сделать такой сервис умной ротации лендингов самостоятельно.
Читать дальше →

Анонс новых возможностей SharePoint Server 2016

Время на прочтение3 мин
Количество просмотров22K
На конференции Ignite, прошедшей в Чикаго в первой декаде мая, компания Microsoft обрисовала общее видение новой функциональности и планов разработки SharePoint Server 2016. На нескольких сессиях официальные представители компании официально заявили, что все их усилия направлены на завершение разработок и начало поставок в следующем году.

В соответствии с информацией, представленной на конференции, Microsoft анонсирует бета-версию SharePoint Server 2016 в 4 квартале этого года. Продукт будет полностью доступен заказчикам во втором квартале в 2016 года.


Читать дальше →

AI, BigData & HPC Digest #1 (7 мая — 3 июня)

Время на прочтение3 мин
Количество просмотров9.1K
Команда FlyElephant подготовила свежий выпуск дайджеста, который включает в себя подборку со ссылками на новости и материалы по направлениям: искусственный интеллект, большие данные и высокопроизводительные вычисления. Приятного чтения!


Читать дальше →

Автоматическая генерация осмысленных уникальных текстов

Время на прочтение6 мин
Количество просмотров96K
Каждый веб-оптимизатор знает, что для того чтобы сайт любили поисковики, он должен содержать уникальные тексты. Причем не абы какие наборы слов, а осмысленные предложения, желательно по теме сайта. Особо это проблема для агрегаторов, которые берут информацию с других сайтов, и интернет-магазинов, где параметры и данные о товарах в целом одинаковые. Поэтому стандартная практика в этой ситуации — заказывать уникальные тексты копирайтерам. Стоимость такого удовольствия от 50 до 300 руб. за 1000 знаков. Если на вашем сайте 10000 страниц, то уникальные тексты быстро становятся значительной статьей расхода.

В этой статье поговорим методах алгоритмической генерации текстов и расскажем о нашем опыте работы с ними.
Читать дальше →

Внезапный диван леопардовой расцветки

Время на прочтение8 мин
Количество просмотров83K
Если вы интересуетесь искусственным интеллектом и прочим распознаванием, то наверняка уже видели эту картинку:


А если не видели, то это результаты Хинтона и Крижевского по классификации ImageNet-2010 глубокой сверточной сетью

Давайте взглянем на ее правый угол, где алгоритм опознал леопарда с достаточной уверенностью, разместив с большим отрывом на втором и третьем месте ягуара и гепарда.

Это вообще довольно любопытный результат, если задуматься. Потому что… скажем, вы знаете, как отличить одного большого пятнистого котика от другого большого пятнистого котика? Я, например, нет. Наверняка есть какие-то зоологические, достаточно тонкие различия, типа общей стройности/массивности и пропорций тела, но мы же все-таки говорим о компьютерном алгоритме, которые до сих пор допускают какие-то вот такие достаточно глупые с человеческой точки зрения ошибки. Как он это делает, черт возьми? Может, тут что-то связанное с контекстом и фоном (леопарда вероятнее обнаружить на дереве или в кустах, а гепарда в саванне)? В общем, когда я впервые задумался над конкретно этим результатом, мне показалось, что это очень круто и мощно, разумные машины где-то за углом и поджидают нас, да здравствует deep learning и все такое.

Так вот, на самом деле все совершенно не так.
под катом пятна

Ближайшие события

Болты в чае, или вебинар по теории вероятностей на практике

Время на прочтение2 мин
Количество просмотров9K
В статье "Применение Теории вероятностей в IT" автор (преподаватель теории вероятностей в ВУЗе) пишет:
из года в год я сталкиваюсь с таким явлением, что студенты не понимают, зачем и почему им учить эту дисциплину.

Это действительно важная проблема. Владелец компании минималистичных видео-уроков Common Craft и заодно автор книги "Искусство объяснять" пишет, что человеку очень важно сначала ответить себе на вопрос «зачем?», и только тогда он заинтересуется ответом на вопрос «как?» (наверное, поэтому ему заказывали создание роликов в стиле Common Craft и Google, и Dropbox, и Twitter).

Поэтому я решил разобраться в теории вероятностей: накупил разных книжек типа "Удовольствие от икс", да потом ещё нанял двух репетиторов по Skype.

В итоге всё стало проясняться, и было решено поделиться своими инсайдами с широкой аудиторией.

Самый красивый пример, из тех, что я нашёл — это болты в чае. В советские времена был ГОСТ на максимальное содержание болтов\гаек в чае, которые попадали туда при уборке урожая: «массовая доля металломагнитной примеси» не должна была превышать 5-7 грамм на тонну. Для этого проверяли выборку и по ней делали заключение по всей партии чая.

И от этого примера можно переходить к более глобальному примеру применения статистического анализа — к японскому экономическому чуду.

В общем, всё это упоминается в тизере вебинара:


Давай посмотрим

Глубокое обучение на R, тренируем word2vec

Время на прочтение10 мин
Количество просмотров24K
Word2vec является практически единственным алгоритмом deep learning, который сравнительно легко можно запустить на обычном ПК (а не на видеокартах) и который строит распределенное представление слов за приемлемое время, по крайней мере так считают на Kaggle. Прочитав здесь про то, какие фокусы можно делать с тренированной моделью, я понял, что такую штуку просто обязан попробовать. Проблема только одна, я преимущественно работаю на языке R, а вот официальную реализацию word2vec под R мне найти не удалось, думаю её просто нет.
Читать дальше →

Критерии качества работы видеоаналитики. Часть 4

Время на прочтение7 мин
Количество просмотров7K
В чем ее измерить? И какую полезную конверсию мы хотим получить от видеоаналитики?

image
Читать дальше →

«Под капотом» Netflix: Анализ мирового кинематографа

Время на прочтение3 мин
Количество просмотров34K


/ фото Brian Cantoni CC

Ранее в нашем блоге мы уже рассказывали о том, как большие данные меняют облик компаний и обсуждали интересные способы использования облачных сервисов. Сегодня мы поговорим о том, как изменился кинематографический ландшафт с приходом на рынок сервисов вроде Netflix.
Читать дальше →

Московский хакатон по машинному обучению — 6-7 июня, в офисе Microsoft на Крылатском

Время на прочтение1 мин
Количество просмотров6K


Недавно мы провели отличный хакатон по Big Data – получили практически полный зал участников, которые за два дня сделали несколько интересных решений, использовавших в основном открытые источники данных. Время двигаться дальше – и мы делаем хакатон по машинному обучению. С использованием наших инструментов – Azure Machine Learning (для разработки экспериментов и моделей C#/Python/R), HDInsight (Hadoop в облаке), PowerBI (для визуализации).
Проводим в необычном месте – в нашем московском офисе.
Читать дальше →

Открыта регистрация на конференцию по компьютерной лингвистике «Диалог»

Время на прочтение3 мин
Количество просмотров4.3K
С 27 по 30 мая в Российском государственном гуманитарном университете (РГГУ) пройдет международная научная конференция по компьютерной лингвистике «Диалог». Подробно о том, что такое «Диалог» и почему ABBYY организует эту конференцию, мы писали здесь .

Основные темы конференции этого года:

Анализ текстов социальных медиа. С одной стороны, лингвистов интересует живой динамичный язык социальных сетей, а с другой, эти сети порождают огромное количество актуальной информации, в том числе – оценочной, которая интересует всех, от политиков до создателей фотокамер и кинофильмов.

Проблемы связывания различных лингвистических ресурсов, созданных для разных языков, в единое информационное целое (т.н. Linked Data).

Поскольку «Диалог» – международная конференция, традиционно в ней принимают участие специалисты по компьютерной лингвистике мирового масштаба
Читать дальше →

Создание своей модели для извлечения информации из текста с помощью web-API от Meanotek

Время на прочтение8 мин
Количество просмотров17K
Сейчас есть много сервисов, которые позволяют извлекать некоторую информацию из текстов, например именованные сущности, такие как имена людей, названия организаций, названия мест, даты, что позволяет решать некоторые интересные задачи. Но намного больше интересных задач остается за скобками.

Что если нужны названия товаров, причем не всех, а каких-то определенных? Или мы хотим интерпретировать команды для мобильного приложения? Разделить адрес на название улицы, дома, города? Как насчет выделить важные факты из обращения клиента в службу поддержки: «Я возмущен качеством обслуживания в вашей компании. Не так давно, я заказывал ноутбук, но менеджер разговаривал некорректно и сказал, что товар закончился». Сегодня я расскажу о новом сервисе позволяющим решать широкий круг задач извлечения информации из текста. Этот сервис мы только что открыли для публичного доступа.
Читать дальше →

Вклад авторов