Мотивированный статьей пользователя BubaVV про предсказание веса модели Playboy по ее формам и росту, автор решил углубиться if you know what I mean в эту будоражащую кровь тему исследования и в тех же данных найти выбросы, то есть особо сисястые модели, выделяющиеся на фоне других своими формами, ростом или весом. А на фоне этой разминки чувства юмора заодно немного рассказать начинающим исследователям данных про обнаружение выбросов (outlier detection) и аномалий (anomaly detection) в данных с помощью реализации одноклассовой машины опорных векторов (One-class Support Vector Machine) в библиотеке Scikit-learn, написанной на языке Python.
Ева Ванская @Jaylla
Data Scientist
Модель Random Forest для классификации, реализация на c#
18 min
51K Доброго времени суток, читатель. Random Forest сегодня является одним из популярнейших и крайне эффективных методов решения задач машинного обучения, таких как классификация и регрессия. По эффективности он конкурирует с машинами опорных векторов, нейронными сетями и бустингом, хотя конечно не лишен своих недостатков. С виду алгоритм обучения крайне прост (в сравнении скажем с алгоритмом обучения машины опорных векторов, кому мало острых ощущений в жизни, крайне советую заняться этим на досуге). Мы же попробуем в доступной форме разобраться в основных идеях, заложенных в Random Forest (бинарное дерево решений, бутстреп аггрегирование или бэггинг, метод случайных подпространств и декорреляция) и понять почему все это вместе работает. Модель относительно своих конкурентов довольно таки молодая: началось все со статьи 1997 года в которой авторы предлагали способ построения одного дерева решений, используя метод случайных подпространств признаков при создании новых узлов дерева; затем был ряд статей, который завершился публикацией каноничной версии алгоритма в 2001 году, в котором строится ансамбль решающих деревьев на основе бутстреп агрегирования, или бэггинга. В конце будет приведен простой, совсем не шустрый, но крайне наглядный способ реализации этой модели на c#, а так же проведен ряд тестов. Кстати на фотке справа вы можете наблюдать настоящий случайный лес который произрастает у нас тут в Калининградской области на Куршской косе.
+39
Об одной задаче Data Science
7 min
23KПривет, хабр!
Как и обещал, продолжаю публикацию статей, в которой описываю свой опыт после прохождения обучения по Data Science от ребят из MLClass.ru (кстати, кто еще не успел — рекомендую зарегистрироваться). В этот раз мы на примере задачи Digit Recognizer изучим влияние размера обучающей выборки на качество алгоритма машинного обучения. Это один из самых первых и основных вопросов, которые возникают при построении предиктивной модели
Как и обещал, продолжаю публикацию статей, в которой описываю свой опыт после прохождения обучения по Data Science от ребят из MLClass.ru (кстати, кто еще не успел — рекомендую зарегистрироваться). В этот раз мы на примере задачи Digit Recognizer изучим влияние размера обучающей выборки на качество алгоритма машинного обучения. Это один из самых первых и основных вопросов, которые возникают при построении предиктивной модели
+14
Технологии в ролевых играх. Часть 3. Технология в антураже и мастеринге
6 min
30KТехнологии в ролевых играх. Часть 1. Технология и магия
Технологии в ролевых играх. Часть 2. Технология и техноген
Показанные в предыдущих частях технические устройства антуражны сами по себе, и их применение значительно повышает реалистичность игрового процесса. Возможно так же применение технологий, не участвующих непосредственно в игровом процессе, но тем не менее значительно улучшающих антуражность локаций и игроков. Перечислим основные виды устройств, которые можно применить в целях повышения качества антуража:
Так же элементы антуража можно разделить по масштабу применения на элементы уровня локации и элементы уровня игрока.
Приведём примеры. Так самые обычные светодиодные гирлянды смогли преобразить локацию «Фангорн» на ПРИ «Вторая эпоха. Время легенд»:
Фангорн, ПРИ «Вторая эпоха. Время легенд»
Технологии в ролевых играх. Часть 2. Технология и техноген
Технологии и антураж
Показанные в предыдущих частях технические устройства антуражны сами по себе, и их применение значительно повышает реалистичность игрового процесса. Возможно так же применение технологий, не участвующих непосредственно в игровом процессе, но тем не менее значительно улучшающих антуражность локаций и игроков. Перечислим основные виды устройств, которые можно применить в целях повышения качества антуража:
- Световые (светодиоды, лазеры, световоды, люминесцентный шнур, уф-подсветка)
- Звуковые (подзвучка локаций, имитация шумов работы механизмов, прочих шумов)
- Механические (мехатронные элементы, движущиеся части механизмов)
- Комбинированные
Так же элементы антуража можно разделить по масштабу применения на элементы уровня локации и элементы уровня игрока.
Приведём примеры. Так самые обычные светодиодные гирлянды смогли преобразить локацию «Фангорн» на ПРИ «Вторая эпоха. Время легенд»:
Фангорн, ПРИ «Вторая эпоха. Время легенд»
+40
Технологии в ролевых играх. Часть 2. Технология и техноген
6 min
23KТехнологии в ролевых играх. Часть 1. Технология и магия
Технологии в ролевых играх. Часть 3. Технология в антураже и мастеринге
В первой части мы рассмотрели возможности современной электроники для моделирования магических взаимодействий на ролевых играх. Однако, взаимодействия на РИ магическими не исчерпываются. Сейчас проходит достаточно много техногенных игр, в которых сама техника как таковая играет очень важную роль.
Перечислим ситуации, в которых современные технологии могут стать частью игрового процесса:
Рассмотрим их более подробно. Нередко в sci-fi сценариях в качестве завязки выступает ситуация, когда героям необходимо восстановить повреждённые информационные системы, энергетические агрегаты или системы связи чтобы разобраться с чертовщиной, творящейся на локации, послать о себе сообщение в центр, или попросту выжить. Эта же ситуация может быть прекрасным стартом для игры, или его частью.
Технологии в ролевых играх. Часть 3. Технология в антураже и мастеринге
В первой части мы рассмотрели возможности современной электроники для моделирования магических взаимодействий на ролевых играх. Однако, взаимодействия на РИ магическими не исчерпываются. Сейчас проходит достаточно много техногенных игр, в которых сама техника как таковая играет очень важную роль.
Перечислим ситуации, в которых современные технологии могут стать частью игрового процесса:
- Игротехническое конструирование
- Игротехническое моделирование процессов
- Игротехническая коммуникация
- Технические и техногенные объекты и артефакты
Рассмотрим их более подробно. Нередко в sci-fi сценариях в качестве завязки выступает ситуация, когда героям необходимо восстановить повреждённые информационные системы, энергетические агрегаты или системы связи чтобы разобраться с чертовщиной, творящейся на локации, послать о себе сообщение в центр, или попросту выжить. Эта же ситуация может быть прекрасным стартом для игры, или его частью.
+31
Технологии в ролевых играх. Часть 1. Технология и магия
8 min
45KТехнологии в ролевых играх. Часть 2. Технология и техноген
Технологии в ролевых играх. Часть 3. Технология в антураже и мастеринге
Людям свойственно играть. С компьютерными ролевыми играми знакомы все читающие эти строки. Ролевые методики и вставки используются повсеместно — от бизнес-тренингов до всевозможных мероприятий. О ролевых играх живого действия многие как минимум слышали.
Ролевые игры живого действия имеют достаточно богатую историю, набор сложившихся приёмов и моделей. Но, поскольку отыгрываемые миры имеют подчас отличающуюся физику, а персонажи — невероятные возможности, то игровой процесс неразрывно связан с допущениями и условностями.
К примеру, очень проблемной точкой являются магические взаимодействия. Физика нашего мира не позволяет полноценно смоделировать все эффекты магии, в связи с чем приходится прибегать к разным упрощениям и моделям отыгрыша.
В последнее время всё чаще можно наблюдать на ролевых играх разной степени масштабности применение современных технологий для компенсации этих ограничений, ведь как сказал 40 лет назад английский писатель Артур Кларк: «Любая достаточно развитая технология неотличима от магии».
В каких-то регионах нашей страны этот процесс идёт уже не первый год, в каких-то только начинается. В этом цикле статей рассмотрены возможности современных технологий для повышения качества ролевого процесса и адекватности используемых моделей отыгрыша, а так же показаны и систематизированы известные наработки, применявшиеся как на фэнтези-играх, так и на играх техногенных.
Почему Хабр? Во-первых, на Хабре довольно много представителей той социальной группы что называет себя «ролевиками». Для кого-то описанные вещи будут известны, кто-то узнает для себя что-то новое и интересное. Кто-то, быть может, откроет для себя мир ролевых игр живого действия. Во-вторых, Хабр — ресурс в первую очередь технический. А технологии — магия нашего мира.
Технологии в ролевых играх. Часть 3. Технология в антураже и мастеринге
Предисловие
Людям свойственно играть. С компьютерными ролевыми играми знакомы все читающие эти строки. Ролевые методики и вставки используются повсеместно — от бизнес-тренингов до всевозможных мероприятий. О ролевых играх живого действия многие как минимум слышали.
Ролевые игры живого действия имеют достаточно богатую историю, набор сложившихся приёмов и моделей. Но, поскольку отыгрываемые миры имеют подчас отличающуюся физику, а персонажи — невероятные возможности, то игровой процесс неразрывно связан с допущениями и условностями.
К примеру, очень проблемной точкой являются магические взаимодействия. Физика нашего мира не позволяет полноценно смоделировать все эффекты магии, в связи с чем приходится прибегать к разным упрощениям и моделям отыгрыша.
В последнее время всё чаще можно наблюдать на ролевых играх разной степени масштабности применение современных технологий для компенсации этих ограничений, ведь как сказал 40 лет назад английский писатель Артур Кларк: «Любая достаточно развитая технология неотличима от магии».
В каких-то регионах нашей страны этот процесс идёт уже не первый год, в каких-то только начинается. В этом цикле статей рассмотрены возможности современных технологий для повышения качества ролевого процесса и адекватности используемых моделей отыгрыша, а так же показаны и систематизированы известные наработки, применявшиеся как на фэнтези-играх, так и на играх техногенных.
Почему Хабр? Во-первых, на Хабре довольно много представителей той социальной группы что называет себя «ролевиками». Для кого-то описанные вещи будут известны, кто-то узнает для себя что-то новое и интересное. Кто-то, быть может, откроет для себя мир ролевых игр живого действия. Во-вторых, Хабр — ресурс в первую очередь технический. А технологии — магия нашего мира.
+36
R и Python — достойные соперники?
7 min
76KTranslation
Всем доброй пятницы, дорогие читатели!
В истории компьютерной редакции издательства «Питер» найдется немного столь успешных книг, как "Программируем на Python" Майкла Доусона и не больше таких противоречивых тем, как изумительный язык R, прочно закрепившийся в числе бестселлерных тем «Амазона». В настоящее время мы договариваемся с правообладателями о новой замечательной книге по Python, но в то же время хотели проверить общественное мнение о R — целесообразно ли издавать новые книги об этом элитарном языке для гуру большой статистики, либо Python легко его одолеет, не то что Аполлона?
Добро пожаловать под кат!
+12
Лекции Техносферы. 1 семестр. Алгоритмы интеллектуальной обработки больших объемов данных
3 min
48KTutorial
Продолжаем публиковать материалы наших образовательных проектов. В этот раз предлагаем ознакомиться с лекциями Техносферы по курсу «Алгоритмы интеллектуальной обработки больших объемов данных». Цель курса — изучение студентами как классических, так и современных подходов к решению задач Data Mining, основанных на алгоритмах машинного обучения. Преподаватели курса: Николай Анохин (@anokhinn), Владимир Гулин (@vgulin) и Павел Нестеров (@mephistopheies).
Объемы данных, ежедневно генерируемые сервисами крупной интернет-компании, поистине огромны. Цель динамично развивающейся в последние годы дисциплины Data Mining состоит в разработке подходов, позволяющих эффективно обрабатывать такие данные для извлечения полезной для бизнеса информации. Эта информация может быть использована при создании рекомендательных и поисковых систем, оптимизации рекламных сервисов или при принятии ключевых бизнес-решений.
Объемы данных, ежедневно генерируемые сервисами крупной интернет-компании, поистине огромны. Цель динамично развивающейся в последние годы дисциплины Data Mining состоит в разработке подходов, позволяющих эффективно обрабатывать такие данные для извлечения полезной для бизнеса информации. Эта информация может быть использована при создании рекомендательных и поисковых систем, оптимизации рекламных сервисов или при принятии ключевых бизнес-решений.
+45
Machine Learning. Курс от Яндекса для тех, кто хочет провести новогодние каникулы с пользой
8 min
265KTutorial
Новогодние каникулы – хорошее время не только для отдыха, но и для самообразования. Можно отвлечься от повседневных задач и посвятить несколько дней тому, чтобы научиться чему-нибудь новому, что будет помогать вам весь год (а может и не один). Поэтому мы решили в эти выходные опубликовать серию постов с лекциями курсов первого семестра Школы анализа данных.
Сегодня — о самом важном. Современный анализ данных без него представить невозможно. В рамках курса рассматриваются основные задачи обучения по прецедентам: классификация, кластеризация, регрессия, понижение размерности. Изучаются методы их решения, как классические, так и новые, созданные за последние 10–15 лет. Упор делается на глубокое понимание математических основ, взаимосвязей, достоинств и ограничений рассматриваемых методов. Отдельные теоремы приводятся с доказательствами.
Читает курс лекций Константин Вячеславович Воронцов, старший научный сотрудник Вычислительного центра РАН. Заместитель директора по науке ЗАО «Форексис». Заместитель заведующего кафедрой «Интеллектуальные системы» ФУПМ МФТИ. Доцент кафедры «Математические методы прогнозирования» ВМиК МГУ. Эксперт компании «Яндекс». Доктор физико-математических наук.
Сегодня — о самом важном. Современный анализ данных без него представить невозможно. В рамках курса рассматриваются основные задачи обучения по прецедентам: классификация, кластеризация, регрессия, понижение размерности. Изучаются методы их решения, как классические, так и новые, созданные за последние 10–15 лет. Упор делается на глубокое понимание математических основ, взаимосвязей, достоинств и ограничений рассматриваемых методов. Отдельные теоремы приводятся с доказательствами.
Читает курс лекций Константин Вячеславович Воронцов, старший научный сотрудник Вычислительного центра РАН. Заместитель директора по науке ЗАО «Форексис». Заместитель заведующего кафедрой «Интеллектуальные системы» ФУПМ МФТИ. Доцент кафедры «Математические методы прогнозирования» ВМиК МГУ. Эксперт компании «Яндекс». Доктор физико-математических наук.
+160
Поиск по геному с помощью Wolfram Language (Mathematica) и HadoopLink
5 min
7.4KTranslation
Перевод поста Пола-Жана Летурно (Paul-Jean Letourneau) "Searching Genomes with Mathematica and HadoopLink".
Код, приведенный в статье, можно скачать здесь.
Примечание: этот пост написан как продолжение поста Большие массивы данных в Mathematica с HadoopLink.
Примечание переводчика: автор данной статьи под термином геном понимает всю совокупность генов некоторого структурного элемента живой материи. Это несколько отличается от стандартных определений, близких по смыслу, в которых подразумевается либо вся совокупность генов конкретного вида (Ridley, M. (2006). Genome. New York, NY: Harper Perennial), либо полный набор генетических инструкций, которые можно найти в клетке (http://www.genome.gov/Glossary/index.cfm?id=90). В данном посте будем пользоваться представлением автора.
В моём предыдущем посте я описал, как писать алгоритмы MapReduce (вики) в Mathematica с помощью пакета HadoopLink. Теперь давайте копнём немного глубже и напишем более серьёзный алгоритм MapReduce.
Я уже писал раньше о некоторых занятных возможностях в сфере геномики в Wolfram|Alpha. Если вам это интересно, вы даже можете осуществлять поиск по человеческому геному определённых последовательностей ДНК. Биологам часто требуется найти расположение фрагмента ДНК, которые они нашли в лаборатории, для определения того, какому животному принадлежит этого фрагмент, или из какой он хромосомы. Давайте используем HadoopLink для создания геномной поисковой системы!
+18
Обзор наиболее интересных материалов по анализу данных и машинному обучению №22 (10 — 16 ноября 2014)
5 min
11KПредставляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
+12
npm для простых смертных
5 min
634KTutorial
Translation
Эта статья предназначена для тех, кто не очень дружит с Node.js, но хочет использовать приложения вроде Grunt, Gulp и тому подобные. Процесс работы с этими приложениями подразумевает редактирование файла package.json и использование команд npm, так что понимание принципов работы npm поможет вам справиться с трудностями.
+12
Information
- Rating
- Does not participate
- Location
- Москва, Москва и Московская обл., Россия
- Registered
- Activity