Как стать автором

Машинное обучение *

Основа искусственного интеллекта

СтатьиПостыНовостиАвторыКомпании

1cloud 25 мая 2015 в 18:57

«Под капотом» Netflix: Анализ мирового кинематографа

3 мин

34K

Блог компании 1cloud.ruBig Data*Машинное обучение*Веб-разработка*

/ фото Brian Cantoni CC

Ранее в нашем блоге мы уже рассказывали о том, как большие данные меняют облик компаний и обсуждали интересные способы использования облачных сервисов. Сегодня мы поговорим о том, как изменился кинематографический ландшафт с приходом на рынок сервисов вроде Netflix.

Читать дальше →

+41

ahriman 25 мая 2015 в 05:41

Московский хакатон по машинному обучению — 6-7 июня, в офисе Microsoft на Крылатском

1 мин

6K

Блог компании MicrosoftМашинное обучение*Microsoft Azure*Hadoop*

Недавно мы провели отличный хакатон по Big Data – получили практически полный зал участников, которые за два дня сделали несколько интересных решений, использовавших в основном открытые источники данных. Время двигаться дальше – и мы делаем хакатон по машинному обучению. С использованием наших инструментов – Azure Machine Learning (для разработки экспериментов и моделей C#/Python/R), HDInsight (Hadoop в облаке), PowerBI (для визуализации).
Проводим в необычном месте – в нашем московском офисе.

Читать дальше →

+13

luciana 21 мая 2015 в 15:54

Открыта регистрация на конференцию по компьютерной лингвистике «Диалог»

3 мин

4.3K

Блог компании Content AIBig Data*Машинное обучение*Семантические сети*

С 27 по 30 мая в Российском государственном гуманитарном университете (РГГУ) пройдет международная научная конференция по компьютерной лингвистике «Диалог». Подробно о том, что такое «Диалог» и почему ABBYY организует эту конференцию, мы писали здесь .

Основные темы конференции этого года:

Анализ текстов социальных медиа. С одной стороны, лингвистов интересует живой динамичный язык социальных сетей, а с другой, эти сети порождают огромное количество актуальной информации, в том числе – оценочной, которая интересует всех, от политиков до создателей фотокамер и кинофильмов.

Проблемы связывания различных лингвистических ресурсов, созданных для разных языков, в единое информационное целое (т.н. Linked Data).

Поскольку «Диалог» – международная конференция, традиционно в ней принимают участие специалисты по компьютерной лингвистике мирового масштаба

Читать дальше →

+22

1cloud 18 мая 2015 в 14:09

AI, Big Data и дезинформация технологий

3 мин

29K

Блог компании 1cloud.ruBig Data*Разработка под e-commerce*Машинное обучение*Интернет вещей

/ фото KamiPhuc CC

Обычно в нашем блоге мы рассказываем об облачных сервисах, хостинге и соответствующих технологиях. Сегодня мы поговорим о сложностях развития технологий в целом, искусственном интеллекте, больших данных и Майкле Джордане (не баскетболисте).

Читать дальше →

+22

OsipovRoman 14 мая 2015 в 22:57

Искусственный интеллект в Wolfram Language: проект по идентификации изображений

13 мин

26K

Блог компании Wolfram ResearchПрограммирование*Обработка изображений*Машинное обучение*Математика*

Перевод

Перевод поста Стивена Вольфрама (Stephen Wolfram) "Wolfram Language Artificial Intelligence: The Image Identification Project".
Выражаю огромную благодарность Кириллу Гузенко за помощь в переводе.

«Что изображено на этой картинке?» Люди практически сразу могут ответить на этот вопрос, и раньше казалось, что это непосильная задача для компьютеров. Последние 40 лет я знал, что компьютеры научатся решать подобные задачи, но не знал, когда это произойдёт.

Я создавал системы, которые дают компьютерам разные составляющие интеллекта, и эти составляющие зачастую далеко за пределами человеческих возможностей. С давних про мы интегрируем разработки по искусственному интеллекту в Wolfram Language.

И сейчас я весьма рад сообщить о том, что мы перешли новый рубеж: вышла новая функция Wolfram Language — ImageIdentify, которую можно спросить — «что изображено на картинке?» и получить ответ.

Сегодня мы запускаем Wolfram Language Image Identification Project — проект по идентификации изображений, который работает через интернет. Можно отправить туда изображение с камеры телефона, с браузера, или перетащить его посредством drag&drop в соответствующую форму, или просто загрузить файл. После этого ImageIdentify выдаст свой результат:

Give the Wolfram Language Image Identify Project a picture, and it uses the language's ImageIdentify function to identify it

Содержание

Теперь в Wolfram Language
Личная предыстория
Машинное обучение
Все это связано с аттракторами
Автоматически созданные программы
Почему сейчас?
Вижу только шляпу
Мы потеряли муравьедов!
Назад к природе

Читать дальше →

+29

Olga_Volodko 7 мая 2015 в 13:42

Записки на полях Big Data Week Moscow

4 мин

9.6K

Блог компании New Professions LabBig Data*Data Mining*Машинное обучение*

В продолжение к нашему предыдущему посту с презентациями с Big Data Week Moscow, мы собрали несколько заявлений российских и международных спикеров, которые нам особенно запомнились и показались заслуживающими внимания.

Читать дальше →

+12

khmelkoff 7 мая 2015 в 10:16

Распознавание физической активности пользователей с примерами на R

8 мин

9.1K

R*Машинное обучение*

Туториал

Задача распознавания физической активности пользователей (Human activity Recognition или HAR) попадалась мне раньше только в качестве учебных заданий. Открыв для себя возможности Caret R Package, удобной обертки для более 100 алгоритмов машинного обучения, я решил попробовать его и для HAR. В UCI Machine Learning Repository есть несколько наборов данных для таких экспериментов. Так как тема с гантелями для меня не очень близка, я выбрал распознавание активности пользователей смартфонов.

Читать дальше →

+13

Durham 29 апр 2015 в 12:54

Chatbot на нейронных сетях

5 мин

60K

Блог компании MeanoTekМашинное обучение*Семантические сети*Веб-разработка*

Недавно набрел на такую статью. Как оказалось некая компания с говорящим названием «наносемантика» объявила конкурс русских чатботов помпезно назвав это «Тестом Тьюринга»». Лично я отношусь к подобным начинаниям отрицательно — чатбот — программа для имитации разговора — создание, как правило, не умное, основанное на заготовленных шаблонах, и соревнования их науку не двигают, зато шоу и внимание публики обеспечено. Создается почва для разных спекуляций про разумные компьютеры и великие прорывы в искусственном интеллекте, что крайне далеко от истины. Особенно в данном случае, когда принимаются только боты написанные на движке сопоставления шаблонов, причем самой компании «Наносемантика».

Впрочем, ругать других всегда легко, а вот сделать что-то работающее бывает не так просто. Мне стало любопытно, можно ли сделать чатбот не ручным заполнением шаблонов ответа, а с помощью обучения нейронной сети на образцах диалогов. Быстрый поиск в Интернете полезной информации не дал, поэтому я решил быстро сделать пару экспериментов и посмотреть что получится.

Читать дальше →

+20

0decca 27 апр 2015 в 18:33

Не очень большие данные и определение тональности текста

2 мин

7.7K

Машинное обучение*Программирование*Семантические сети*

Всякая идея имеет простое, понятное и неправильное решение.
Одно из таких решений я и опишу в этой статье.
Не пытайтесь повторить эти эксперименты дома.
А если попытаетесь — то претензии по сгоревшим процессорам не принимаются.

Читать дальше →

+10

WinPooh73 27 апр 2015 в 16:17

Определяем веса шахматных фигур регрессионным анализом

15 мин

86K

Алгоритмы*Машинное обучение*Программирование*

Здравствуй, Хабр!

В этой статье речь пойдёт о небольшом программистском этюде на тему машинного обучения. Замысел его возник у меня при прохождении известного здесь многим курса «Machine Learning», читаемого Andrew Ng на Курсере. После знакомства с методами, о которых рассказывалось на лекциях, захотелось применить их к какой-нибудь реальной задаче. Долго искать тему не пришлось — в качестве предметной области просто напрашивалась оптимизация собственного шахматного движка.

Вступление: о шахматных программах

Не будем детально углубляться в архитектуру шахматных программ — это могло бы стать темой отдельной публикации или даже их серии. Рассмотрим только самые базовые принципы. Основными компонентами практически любого небелкового шахматиста являются поиск и оценка позиции.

Поиск представляет собой перебор вариантов, то есть итеративное углубление по дереву игры. Оценочная функция отображает набор позиционных признаков на числовую шкалу и служит целевой функцией для поиска наилучшего хода. Она применяется к листьям дерева, и постепенно «возвращается» к исходной позиции (корню) с помощью альфа-бета процедуры или её вариаций.

Строго говоря, настоящая оценка может принимать только три значения: выигрыш, проигрыш или ничья — 1, 0 или ½. По теореме Цермело для любой заданной позиции она определяется однозначно. На практике же из-за комбинаторного взрыва ни один компьютер не в состоянии просчитать варианты до листьев полного дерева игры (исчерпывающий анализ в эндшпильных базах данных — это отдельный случай; 32-фигурных таблиц в обозримом будущем не появится… и в необозримом, скорее всего, тоже). Поэтому программы работают в так называемой модели Шеннона — пользуются усечённым деревом игры и приближённой оценкой, основанной на различных эвристиках.

Читать дальше →

+64

Durham 25 апр 2015 в 10:53

Классификация предложений с помощью нейронных сетей без предварительной обработки

6 мин

72K

Блог компании MeanoTekАлгоритмы*Машинное обучение*Программирование*Семантические сети*

Довольно часто встречается задача классификации текстов — например, определение тональности (выражает ли текст позитивное мнение или отрицательное о чем-либо), или разнесения текста по тематикам. На Хабре уже есть хорошие статьи с введением в данный вопрос.

Сегодня я хочу поговорить о проблеме классификации отдельных предложений. Решение этой задачи позволяет делать много интересного, например, выделять положительные и отрицательные моменты из длинных текстов, определять тональность твитов, является компонентом многих систем отвечающих на естественно-языковые вопросы (классификация типа вопроса), помогает сегментировать веб-страницы на смысловые блоки и многое другое. Однако, классификация отдельных предложений значительно сложнее классификации больших блоков текста — в одном предложении значительно меньше полезных признаков, и велико влияние порядка слов. Например: «как положено фильму ужасов, этот фильм был ну очень жутким» — содержит негативные слова («ужас», «жуткий»), но выражает положительное мнение о фильме, «все было ужасно красиво», или даже «отличный фильм, ничего не скажешь, только зря деньги потратили».

Читать дальше →

+22

Wargaming 23 апр 2015 в 09:05

Python Meetup 27.03.15: machine learning, python AST и статистика игроков World of Tanks

1 мин

13K

Блог компании ex-WargamingКачество кода*Машинное обучение*Python*Open source*

Туториал

Традиционно в последнюю пятницу месяца состоялся Python Meetup. В мартовском митапе с приглашенными спикерами мы разобрались в следующих темах:

Машинное обучение на Python
Как устроен Python AST и какие интересные факты есть у диалекта Ну
Как при помощи Requests, Asyncio и Aiohttp перестать использовать многопоточный код

Видео и ссылки на презентации смотрите под катом. Приятного просмотра!

Читать дальше →

+10

OsipovRoman 12 апр 2015 в 23:17

Стивен Вольфрам: Рубежи вычислительного мышления (отчёт с фестиваля SXSW)

28 мин

27K

Блог компании Wolfram ResearchПрограммирование*Машинное обучение*Математика*Алгоритмы*

Перевод

Перевод поста Стивена Вольфрама (Stephen Wolfram) "Frontiers of Computational Thinking: A SXSW Report".
Выражаю огромную благодарность Кириллу Гузенко за помощь в переводе.

На прошлой неделе я выступал на SXSW Interactive 2015 в Остине, штат Техас. Вот несколько отредактированная стенограмма моего выступления:

Содержание

Наиболее продуктивный год
Язык Wolfram Language
Язык для реального мира
Философия Wolfram Language
Программы размером в один твит
Вычислительное мышление для детей
Ввод запросов на естественном языке
Масштабная идея: Символьное программирование
Язык для развёртывания
Автоматизация программирования
Масштабные программы
Интернет вещей
Машинное обучение
Исследования Вычисляемой Вселенной
Вычислять, подобно тому, как это делает мозг
Язык как символьное представление
Пост-лингвистические понятия
Древняя история
Чем будет заниматься искусственный интеллект?
Бессмертие и за его пределами
Коробка триллиона душ
Обратно в 2015 год

Читать дальше →

+20

Dmitry21 12 апр 2015 в 13:43

Лекции Техносферы. 1 семестр. Алгоритмы интеллектуальной обработки больших объемов данных

3 мин

49K

Блог компании VKМашинное обучение*Алгоритмы*Data Mining*Big Data*

Туториал

Продолжаем публиковать материалы наших образовательных проектов. В этот раз предлагаем ознакомиться с лекциями Техносферы по курсу «Алгоритмы интеллектуальной обработки больших объемов данных». Цель курса — изучение студентами как классических, так и современных подходов к решению задач Data Mining, основанных на алгоритмах машинного обучения. Преподаватели курса: Николай Анохин (@anokhinn), Владимир Гулин (@vgulin) и Павел Нестеров (@mephistopheies).

Объемы данных, ежедневно генерируемые сервисами крупной интернет-компании, поистине огромны. Цель динамично развивающейся в последние годы дисциплины Data Mining состоит в разработке подходов, позволяющих эффективно обрабатывать такие данные для извлечения полезной для бизнеса информации. Эта информация может быть использована при создании рекомендательных и поисковых систем, оптимизации рекламных сервисов или при принятии ключевых бизнес-решений.

Читать дальше →

+45

KustikovaV 7 апр 2015 в 17:45

Сравнение библиотек глубокого обучения на примере задачи классификации рукописных цифр

21 мин

53K

Блог компании IntelData Mining*Алгоритмы*Машинное обучение*Обработка изображений*

Кручинин Дмитрий, Долотов Евгений, Кустикова Валентина, Дружков Павел, Корняков Кирилл

Введение

В настоящее время машинное обучение является активно развивающейся областью научных исследований. Это связано как с возможностью быстрее, ~~выше, сильнее~~, проще и дешевле собирать и обрабатывать данные, так и с развитием методов выявления из этих данных законов, по которым протекают физические, биологические, экономические и другие процессы. В некоторых задачах, когда такой закон определить достаточно сложно, используют глубокое обучение.

Глубокое обучение (deep learning) рассматривает методы моделирования высокоуровневых абстракций в данных с помощью множества последовательных нелинейных трансформаций, которые, как правило, представляются в виде искусственных нейронных сетей. На сегодняшний день нейросети успешно используются для решения таких задач, как прогнозирование, распознавание образов, сжатие данных и ряда других.

Читать дальше →

+29

khmelkoff 7 апр 2015 в 09:12

Мешок слов и сентимент-анализ на R

5 мин

23K

Data Mining*R*Машинное обучение*

Из песочницы

Эта статья подготовлена по мотивам (первой части) учебного задания Bag of Words Kaggle, но это не перевод. Оригинальное задание сделано на Python. Я же хотел оценить возможности языка R для обработки текстов на естественном языке и заодно попробовать реализацию Random Forest в обертке R-пакета caret.

Смысл задания – построить «машину», которая будет определенным образом обрабатывать обзоры фильмов на английском языке и определять тональность обзора, относя его к одному из двух классов: негативные/позитивные. В качестве обучающей выборки в задании используется набор данных с двадцатью пятью тысячами ревю из IMDB, размеченных неизвестными добровольцами.

Читать дальше →

+11

arsen_gl 7 апр 2015 в 04:36

Быстрая нейронная сеть для каждого

3 мин

226K

Java*Машинное обучение*

Из песочницы

Данная статья продемонстрирует возможность легко написать свою нейронную сеть на языке Javа. Дабы не изобретать велосипед, возьмем уже хорошо проработанную библиотеку Fast Artificial Neural Network. Использование нейронных сетей в своих Java-проектах — реально. Часто можно услышать упреки в адрес Java касательно скорости выполнения. Хотя разница не так велика — подробно об этом можно узнать в публикации «Производительность C++ vs. Java vs. PHP vs. Python. Тест «в лоб»». Мы будем использовать обертку вокруг библиотеки FANN.

Читать дальше →

+19

lamerman 2 апр 2015 в 21:07

Машинное обучение в навигационных устройствах: определяем маневры машины по акселерометру и гироскопу

10 мин

27K

Машинное обучение*Геоинформационные сервисы*Алгоритмы*Open source*Разработка мобильных приложений*

Программы, которые доступны нам сегодня для автомобильной навигации оказывают большую помощь водителям. Они помогают нам ориентироваться в незнакомой местности и объезжать пробки. Это большой труд людей со всего мира, который сделал нашу жизнь проще. Но нельзя останавливаться на достигнутом, технологии идут вперед и качество программ также должно расти.

Сегодня, на мой взгляд, одна из проблем навигационных устройств – это то, что они не ведут пользователя по полосам. Эта проблема увеличивает время в пути, пробки и аварийность. Недавно google maps начали отображать разметку дороги перед поворотом, что уже хороший результат, но и тут можно многое улучшить. Карты не знают на какой полосе сейчас находится машина, средствами gps узнать это проблематично, у gps слишком большая погрешность для этого. Если бы мы знали текущую полосу, то знали бы скорость движения по полосами и могли бы задолго подсказывать пользователю в явном виде, на какую полосу и когда ему лучше перестроиться. Например, навигатор говорил бы “Продолжайте держаться этой полосы до перекрестка” или “Перестройтесь на крайнюю левую полосу”.

В этой статье мы попробуем рассказать, как мы пытаемся определять перестроения, текущую полосу движения автомобиля, повороты, обгоны, а также другие маневры с помощью машинного обучения по данным акселерометра и гироскопа.

Читать далее

+59

ahriman 2 апр 2015 в 09:15

Azure Machine Learning для Data Scientist

8 мин

22K

Блог компании MicrosoftMicrosoft Azure*Алгоритмы*Машинное обучение*

Эта статья создана нашим другом из коммьюнити, Дмитрием Петуховым, Microsoft Certified Professional, разработчиком компании Quantum Art.
Статья — часть цикла про Fraud Detection, остальные статьи можно найти в профиле у Дмитрия.

Azure Machine Learning – облачный сервис для выполнения задач прогнозной аналитики (predictive analytics). Сервис представлен двумя компонентами: Azure ML Studio – средой разработки, доступной через web-интерфейс, и web-сервисами Azure ML.
Типичная последовательность действий data scientist'a при поиске закономерностей в наборе данных с использованием алгоритмов обучения с учителем изображена и подробно описана под хабракатом.

Читать дальше →

+20

polybook 25 мар 2015 в 07:59

Машинное обучение — 3. Пуассоновский случайный процесс: просмотры и клики

4 мин

23K

Блог компании Нерепетитор.руМашинное обучение*Математика*Занимательные задачки

Туториал

В предыдущих статьях, посвященных вероятностному описанию конверсии сайта, мы рассматривали число событий (просмотров и кликов), как выборку случайной величины, без зависимости от времени. Теперь пришло время сделать следующий шаг и ввести ее в рассмотрение.

Читать дальше →

+13

1 2 ...

242