Pull to refresh
22
0
Ева Ванская @Jaylla

Data Scientist

Send message

Необычные модели Playboy, или про обнаружение выбросов в данных c помощью Scikit-learn

Reading time7 min
Views128K
Мотивированный статьей пользователя BubaVV про предсказание веса модели Playboy по ее формам и росту, автор решил углубиться if you know what I mean в эту будоражащую кровь тему исследования и в тех же данных найти выбросы, то есть особо сисястые модели, выделяющиеся на фоне других своими формами, ростом или весом. А на фоне этой разминки чувства юмора заодно немного рассказать начинающим исследователям данных про обнаружение выбросов (outlier detection) и аномалий (anomaly detection) в данных с помощью реализации одноклассовой машины опорных векторов (One-class Support Vector Machine) в библиотеке Scikit-learn, написанной на языке Python.
Читать дальше →
Total votes 84: ↑77 and ↓7+70
Comments36

Модель Random Forest для классификации, реализация на c#

Reading time18 min
Views51K
Доброго времени суток, читатель. Random Forest сегодня является одним из популярнейших и крайне эффективных методов решения задач машинного обучения, таких как классификация и регрессия. По эффективности он конкурирует с машинами опорных векторов, нейронными сетями и бустингом, хотя конечно не лишен своих недостатков. С виду алгоритм обучения крайне прост (в сравнении скажем с алгоритмом обучения машины опорных векторов, кому мало острых ощущений в жизни, крайне советую заняться этим на досуге). Мы же попробуем в доступной форме разобраться в основных идеях, заложенных в Random Forest (бинарное дерево решений, бутстреп аггрегирование или бэггинг, метод случайных подпространств и декорреляция) и понять почему все это вместе работает. Модель относительно своих конкурентов довольно таки молодая: началось все со статьи 1997 года в которой авторы предлагали способ построения одного дерева решений, используя метод случайных подпространств признаков при создании новых узлов дерева; затем был ряд статей, который завершился публикацией каноничной версии алгоритма в 2001 году, в котором строится ансамбль решающих деревьев на основе бутстреп агрегирования, или бэггинга. В конце будет приведен простой, совсем не шустрый, но крайне наглядный способ реализации этой модели на c#, а так же проведен ряд тестов. Кстати на фотке справа вы можете наблюдать настоящий случайный лес который произрастает у нас тут в Калининградской области на Куршской косе.

Читать дальше →
Total votes 41: ↑40 and ↓1+39
Comments15

Об одной задаче Data Science

Reading time7 min
Views23K
Привет, хабр!



Как и обещал, продолжаю публикацию статей, в которой описываю свой опыт после прохождения обучения по Data Science от ребят из MLClass.ru (кстати, кто еще не успел — рекомендую зарегистрироваться). В этот раз мы на примере задачи Digit Recognizer изучим влияние размера обучающей выборки на качество алгоритма машинного обучения. Это один из самых первых и основных вопросов, которые возникают при построении предиктивной модели
Читать дальше →
Total votes 20: ↑17 and ↓3+14
Comments7

Технологии в ролевых играх. Часть 3. Технология в антураже и мастеринге

Reading time6 min
Views30K
Технологии в ролевых играх. Часть 1. Технология и магия
Технологии в ролевых играх. Часть 2. Технология и техноген

Технологии и антураж



Показанные в предыдущих частях технические устройства антуражны сами по себе, и их применение значительно повышает реалистичность игрового процесса. Возможно так же применение технологий, не участвующих непосредственно в игровом процессе, но тем не менее значительно улучшающих антуражность локаций и игроков. Перечислим основные виды устройств, которые можно применить в целях повышения качества антуража:
  • Световые (светодиоды, лазеры, световоды, люминесцентный шнур, уф-подсветка)
  • Звуковые (подзвучка локаций, имитация шумов работы механизмов, прочих шумов)
  • Механические (мехатронные элементы, движущиеся части механизмов)
  • Комбинированные

Так же элементы антуража можно разделить по масштабу применения на элементы уровня локации и элементы уровня игрока.

Приведём примеры. Так самые обычные светодиодные гирлянды смогли преобразить локацию «Фангорн» на ПРИ «Вторая эпоха. Время легенд»:


Фангорн, ПРИ «Вторая эпоха. Время легенд»
Читать дальше →
Total votes 58: ↑49 and ↓9+40
Comments32

Технологии в ролевых играх. Часть 2. Технология и техноген

Reading time6 min
Views23K
Технологии в ролевых играх. Часть 1. Технология и магия
Технологии в ролевых играх. Часть 3. Технология в антураже и мастеринге

В первой части мы рассмотрели возможности современной электроники для моделирования магических взаимодействий на ролевых играх. Однако, взаимодействия на РИ магическими не исчерпываются. Сейчас проходит достаточно много техногенных игр, в которых сама техника как таковая играет очень важную роль.

Перечислим ситуации, в которых современные технологии могут стать частью игрового процесса:
  • Игротехническое конструирование
  • Игротехническое моделирование процессов
  • Игротехническая коммуникация
  • Технические и техногенные объекты и артефакты

Рассмотрим их более подробно. Нередко в sci-fi сценариях в качестве завязки выступает ситуация, когда героям необходимо восстановить повреждённые информационные системы, энергетические агрегаты или системы связи чтобы разобраться с чертовщиной, творящейся на локации, послать о себе сообщение в центр, или попросту выжить. Эта же ситуация может быть прекрасным стартом для игры, или его частью.
Читать дальше →
Total votes 45: ↑38 and ↓7+31
Comments19

Технологии в ролевых играх. Часть 1. Технология и магия

Reading time8 min
Views45K
Технологии в ролевых играх. Часть 2. Технология и техноген
Технологии в ролевых играх. Часть 3. Технология в антураже и мастеринге

Предисловие


Людям свойственно играть. С компьютерными ролевыми играми знакомы все читающие эти строки. Ролевые методики и вставки используются повсеместно — от бизнес-тренингов до всевозможных мероприятий. О ролевых играх живого действия многие как минимум слышали.

Ролевые игры живого действия имеют достаточно богатую историю, набор сложившихся приёмов и моделей. Но, поскольку отыгрываемые миры имеют подчас отличающуюся физику, а персонажи — невероятные возможности, то игровой процесс неразрывно связан с допущениями и условностями.

К примеру, очень проблемной точкой являются магические взаимодействия. Физика нашего мира не позволяет полноценно смоделировать все эффекты магии, в связи с чем приходится прибегать к разным упрощениям и моделям отыгрыша.

В последнее время всё чаще можно наблюдать на ролевых играх разной степени масштабности применение современных технологий для компенсации этих ограничений, ведь как сказал 40 лет назад английский писатель Артур Кларк: «Любая достаточно развитая технология неотличима от магии».

В каких-то регионах нашей страны этот процесс идёт уже не первый год, в каких-то только начинается. В этом цикле статей рассмотрены возможности современных технологий для повышения качества ролевого процесса и адекватности используемых моделей отыгрыша, а так же показаны и систематизированы известные наработки, применявшиеся как на фэнтези-играх, так и на играх техногенных.

Почему Хабр? Во-первых, на Хабре довольно много представителей той социальной группы что называет себя «ролевиками». Для кого-то описанные вещи будут известны, кто-то узнает для себя что-то новое и интересное. Кто-то, быть может, откроет для себя мир ролевых игр живого действия. Во-вторых, Хабр — ресурс в первую очередь технический. А технологии — магия нашего мира.

Погрузиться в волшебный мир технологий
Total votes 52: ↑44 and ↓8+36
Comments12

R и Python — достойные соперники?

Reading time7 min
Views76K


Всем доброй пятницы, дорогие читатели!

В истории компьютерной редакции издательства «Питер» найдется немного столь успешных книг, как "Программируем на Python" Майкла Доусона и не больше таких противоречивых тем, как изумительный язык R, прочно закрепившийся в числе бестселлерных тем «Амазона». В настоящее время мы договариваемся с правообладателями о новой замечательной книге по Python, но в то же время хотели проверить общественное мнение о R — целесообразно ли издавать новые книги об этом элитарном языке для гуру большой статистики, либо Python легко его одолеет, не то что Аполлона?

Добро пожаловать под кат!
Читать дальше →
Total votes 14: ↑13 and ↓1+12
Comments15

Лекции Техносферы. 1 семестр. Алгоритмы интеллектуальной обработки больших объемов данных

Reading time3 min
Views48K
Продолжаем публиковать материалы наших образовательных проектов. В этот раз предлагаем ознакомиться с лекциями Техносферы по курсу «Алгоритмы интеллектуальной обработки больших объемов данных». Цель курса — изучение студентами как классических, так и современных подходов к решению задач Data Mining, основанных на алгоритмах машинного обучения. Преподаватели курса: Николай Анохин (@anokhinn), Владимир Гулин (@vgulin) и Павел Нестеров (@mephistopheies).



Объемы данных, ежедневно генерируемые сервисами крупной интернет-компании, поистине огромны. Цель динамично развивающейся в последние годы дисциплины Data Mining состоит в разработке подходов, позволяющих эффективно обрабатывать такие данные для извлечения полезной для бизнеса информации. Эта информация может быть использована при создании рекомендательных и поисковых систем, оптимизации рекламных сервисов или при принятии ключевых бизнес-решений.
Читать дальше →
Total votes 47: ↑46 and ↓1+45
Comments15

Machine Learning. Курс от Яндекса для тех, кто хочет провести новогодние каникулы с пользой

Reading time8 min
Views265K
Новогодние каникулы – хорошее время не только для отдыха, но и для самообразования. Можно отвлечься от повседневных задач и посвятить несколько дней тому, чтобы научиться чему-нибудь новому, что будет помогать вам весь год (а может и не один). Поэтому мы решили в эти выходные опубликовать серию постов с лекциями курсов первого семестра Школы анализа данных.

Сегодня — о самом важном. Современный анализ данных без него представить невозможно. В рамках курса рассматриваются основные задачи обучения по прецедентам: классификация, кластеризация, регрессия, понижение размерности. Изучаются методы их решения, как классические, так и новые, созданные за последние 10–15 лет. Упор делается на глубокое понимание математических основ, взаимосвязей, достоинств и ограничений рассматриваемых методов. Отдельные теоремы приводятся с доказательствами.



Читает курс лекций Константин Вячеславович Воронцов, старший научный сотрудник Вычислительного центра РАН. Заместитель директора по науке ЗАО «Форексис». Заместитель заведующего кафедрой «Интеллектуальные системы» ФУПМ МФТИ. Доцент кафедры «Математические методы прогнозирования» ВМиК МГУ. Эксперт компании «Яндекс». Доктор физико-математических наук.
Содержание и видео всех лекций курса
Total votes 172: ↑166 and ↓6+160
Comments47

Поиск по геному с помощью Wolfram Language (Mathematica) и HadoopLink

Reading time5 min
Views7.4K

Перевод поста Пола-Жана Летурно (Paul-Jean Letourneau) "Searching Genomes with Mathematica and HadoopLink".
Код, приведенный в статье, можно скачать здесь.
Примечание: этот пост написан как продолжение поста Большие массивы данных в Mathematica с HadoopLink.
Примечание переводчика: автор данной статьи под термином геном понимает всю совокупность генов некоторого структурного элемента живой материи. Это несколько отличается от стандартных определений, близких по смыслу, в которых подразумевается либо вся совокупность генов конкретного вида (Ridley, M. (2006). Genome. New York, NY: Harper Perennial), либо полный набор генетических инструкций, которые можно найти в клетке (http://www.genome.gov/Glossary/index.cfm?id=90). В данном посте будем пользоваться представлением автора.
В моём предыдущем посте я описал, как писать алгоритмы MapReduce (вики) в Mathematica с помощью пакета HadoopLink. Теперь давайте копнём немного глубже и напишем более серьёзный алгоритм MapReduce.

Я уже писал раньше о некоторых занятных возможностях в сфере геномики в Wolfram|Alpha. Если вам это интересно, вы даже можете осуществлять поиск по человеческому геному определённых последовательностей ДНК. Биологам часто требуется найти расположение фрагмента ДНК, которые они нашли в лаборатории, для определения того, какому животному принадлежит этого фрагмент, или из какой он хромосомы. Давайте используем HadoopLink для создания геномной поисковой системы!
Читать дальше →
Total votes 24: ↑21 and ↓3+18
Comments3

Обзор наиболее интересных материалов по анализу данных и машинному обучению №22 (10 — 16 ноября 2014)

Reading time5 min
Views11K

Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
Читать дальше →
Total votes 30: ↑21 and ↓9+12
Comments1

npm для простых смертных

Reading time5 min
Views634K


Эта статья предназначена для тех, кто не очень дружит с Node.js, но хочет использовать приложения вроде Grunt, Gulp и тому подобные. Процесс работы с этими приложениями подразумевает редактирование файла package.json и использование команд npm, так что понимание принципов работы npm поможет вам справиться с трудностями.
Читать дальше →
Total votes 62: ↑37 and ↓25+12
Comments13
2

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Registered
Activity