Обновить
641.08

Машинное обучение *

Основа искусственного интеллекта

Сначала показывать
Порог рейтинга
Уровень сложности

Обзор наиболее интересных материалов по анализу данных и машинному обучению №36 (16 — 22 февраля 2015)

Время на прочтение3 мин
Охват и читатели10K

Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
Читать дальше →

Машинное обучение — 1. Корреляция и регрессия. Пример: конверсия посетителей сайта

Время на прочтение3 мин
Охват и читатели40K
Как и обещал, начинаю цикл статей по «машинному обучению». Эта будет посвящена таким понятиям из статистики, как корреляция случайных величин и линейная регрессия. Рассмотрим, как реальные данные, так и модельные (симуляцию Монте-Карло).

Часть 1. Реальные данные


Чтобы было интереснее, рассказ построен на примерах, причем в качестве данных (и в этой, и в следующих, статьях) я буду стараться брать статистику прямо отсюда, с Хабра. А именно, неделю назад я написал свою первую статью на Хабре (про Mathcad Express, в котором и будем все считать). И вот теперь статистику по ее просмотрам за 10 дней и предлагаю в качестве исходных данных. На графике это ряд Views, синяя линия. Второй ряд данных (Regs, с коэффициентом 100) показывает число читателей, выполнивших после прочтения определенное действие (регистрацию и скачивание дистрибутива Mathcad Prime).


Читать дальше →

Обзор некоторых MOOC Coursera по компьютерным наукам

Время на прочтение3 мин
Охват и читатели37K
Скорее всего, если вы зашли на Хабр и читаете эту статью, то хоть раз в жизни да слышали про MOOC-курсы.

Но если все же не слышали, то MOOC (по-русски принято произносить «мук») означает «Massive Open Online Course» — массовый открытый онлайн-курс. Это настоящий феномен в образовании XXI века. Газета «New York Times» назвала даже 2012 год «годом MOOC» в связи с появлением на рынке дистанционного образования 3-х «китов» — Coursera, Udacity и EdX. MOOC-ам посвящено множество статей, кто-то видит в них будущее образования, кто-то, наоборот, угрозу. Пытаются также предсказать «традиционную» и «дистанционную» составляющии обучения будущего.




Однако в этой статье я не буду обсуждать перспективы развития дистанционного образования, а расскажу про свой опыт знакомства с курсами на платформе Coursera. Эти курсы будут полезны студентам, изучающим прикладную математику и информатику, в особенности анализ данных. Многое из того, что мне дали эти курсы, как я потом понял — это знания, которыми должен обладать любой уважающий себя исследователь данных (так я предпочитаю переводить профессию Data Scientist).
Читать дальше →

Нефтяные ряды в R

Время на прочтение6 мин
Охват и читатели43K
«Графики цен великолепны, чтобы предсказывать прошлое»
Питер Линч



С временными рядами мне как-то не доводилось иметь дело на практике. Я, конечно, читал о них и имел некоторое представление в рамках учебного курса о том, как в общих чертах проводится анализ, но хорошо известно, что то, о чем рассказывают в учебниках по статистике и машинному обучению, не всегда отражает реальное положение дел.
Читать дальше →

Марковские случайные поля

Время на прочтение4 мин
Охват и читатели49K
Статья посвящена описанию метода CRF (Conditional Random Fields), являющимся разновидностью метода Марковских случайных полей (Markov random field). Данный метод нашел широкое применение в различных областях ИИ, в частности, его успешно используют в задачах распознавания речи и образов, обработки текстовой информации, а также и в других предметных областях: биоинформатики, компьютерной графики и пр.
Читать дальше →

Несколько слов о «линейной» регрессии

Время на прочтение5 мин
Охват и читатели55K
Иногда так бывает: задачу можно решить чуть ли не арифметически, а на ум прежде всего приходят всякие интегралы Лебега и функции Бесселя. Вот начинаешь обучать нейронную сеть, потом добавляешь еще парочку скрытых слоев, экспериментируешь с количеством нейронов, функциями активации, потом вспоминаешь о SVM и Random Forest и начинаешь все сначала. И все же, несмотря на прямо таки изобилие занимательных статистических методов обучения, линейная регрессия остается одним из популярных инструментов. И для этого есть свои предпосылки, не последнее месте среди которых занимает интуитивность в интерпретации модели.
Читать дальше →

Заочное обучение в ШАД Яндекса: 570 замечательных часов моей жизни

Время на прочтение6 мин
Охват и читатели61K
Два года назад на меня сильное впечатление произвела хабрастатья «Стивен Вольфрам проанализировал свою жизнь». К тому времени я уже года два записывал в Google-календаре, что и когда я делал, но к тому моменту я не задумывался, о том, что можно сделать с этой информацией. После прочтения той статьи, я понял: эту информацию можно анализировать! Сейчас я могу посчитать сколько раз мы с друзьями собирались играть в баскетбол за эти годы, сколько часов я провёл в больнице и т. п.

На этой неделе я сделал последнюю домашнюю работу в ШАД и решил посчитать сколько времени у меня ушло на обучение, сколько я в среднем тратил в неделю, сколько строчек кода я написал и т. д. Построил несколько графиков и гистограмм, показал их друзьям и понял, что, возможно, такая информация будет интересна кому-либо ещё. Так что если вы хотите узнать сколько страниц отчётов было написано, насколько верна оценка нагрузки в ШАД в 15–20 часов в неделю, а также моё субъективное мнение о курсах в ШАД, то добро пожаловать под хабракат.
Читать дальше →

Let's fix NAs

Время на прочтение5 мин
Охват и читатели7.4K
Довольно часто встречаются неполные наборы данных, в которых некоторые переменные не определены. В языке R содержимое таких переменных задается как «Not Available» — или сокращенно NA. Соответственно, возникает вопрос, как поступать с неопределенными значениям: стоит ли их игнорировать или откорректировать каким-либо образом?
Читать дальше →

Google и Microsoft теперь автоматически переводят с гаитянского креольского языка

Время на прочтение2 мин
Охват и читатели1.5K
imageУважаемое Хабрасообщество, сегодня через как всегда молниеносную Википедию (спасибо анониму!) я обнаружил, что Google Translate и Bing Translator начали осуществлять статистический машинный перевод с (и «на» тоже) гаитянского креольского языка (что такое креольский язык?). Гаитянский — один из официальных языков Республики Гаити, на котором говорят 14 миллионов человек; образовался на основе французского образца 18 века, упростился и понабрал в себя всё что только можно.

Одним из любимых моих развлечений остаётся просмотр Википедии на свежедоступном для перевода языке. Несколько месяцев назад после того как стала доступна альфа-версия перевода с персидского (фарси) Google, кажется, переводил «Владимир Путин» с персидского на русский как «сапоги». Потом перевод стал лучше.

Сейчас вы имеете вдвое больше возможностей найти что-нибудь интересное и посмеяться (исключительно над переводом!) вдвое дольше, не забыв подсказать Google как надо переводить. Кстати, удивительно, но в гаитянской Википедии номинально аж 50 тысяч статей (почти столько же сколько в греческой и Википедии на хинди) при том что из Гаити гаитянскую Википедию особо не посещают и наверное не редактируют (а теперь уж не скоро начнут). Но тем не менее! Вот татар 6-8 миллионов, что всего лишь в 2 раза меньше, а статей в татарской Википедии только 5 тысяч, что в 10 раз меньше и это нерадостный факт. Вы уверены, что в Татарстане не было землетрясений? =))

P.S.:
Поместил в ленту новостей, т.к. ни к чему другому пост не подходит.

Под катом ссылка на официальный блог Microsoft и другие блоги, потому что СМИ ещё об этом не знают.

Читать дальше →

Шоппинг с распознаванием образов

Время на прочтение1 мин
Охват и читатели3.3K
Новый интернет-магазин Modista собирает образцы товаров от сотен ритейлеров и забивает в единую базу данных (163 000 товаров по четырём категориям: обувь, часы, сумочки и очки). Далее на этой базе запускают движок распознавания образов с элементами самообучения.

Поиск покупки осуществляется исключительно через визуальный интерфейс. Щёлкаете по наиболее понравившемуся товару — и таблица перестраивается под новый шаблон. По горизонтали — подобие по форме, по вертикали — подобие по цвету.

Можно предположить, что похожие интерфейсы в будущем станут стандартным элементом любого интернет-магазина.


Читать дальше →
12 ...
483

Вклад авторов