Как стать автором
Обновить
7
0
Алексей Лебедев @swanrnd

Издатель HTML5 игр

Отправить сообщение

Открытый курс машинного обучения. Тема 3. Классификация, деревья решений и метод ближайших соседей

Время на прочтение33 мин
Количество просмотров494K

Привет всем, кто проходит курс машинного обучения на Хабре!


В первых двух частях (1, 2) мы попрактиковались в первичном анализе данных с Pandas и в построении картинок, позволяющих делать выводы по данным. Сегодня наконец перейдем к машинному обучению. Поговорим о задачах машинного обучения и рассмотрим 2 простых подхода – деревья решений и метод ближайших соседей. Также обсудим, как с помощью кросс-валидации выбирать модель для конкретных данных.


UPD 01.2022: С февраля 2022 г. ML-курс ODS на русском возрождается под руководством Петра Ермакова couatl. Для русскоязычной аудитории это предпочтительный вариант (c этими статьями на Хабре – в подкрепление), англоговорящим рекомендуется mlcourse.ai в режиме самостоятельного прохождения.

Читать дальше →
Всего голосов 63: ↑62 и ↓1+61
Комментарии50

Как улучшить точность ML-модели используя разведочный анализ

Время на прочтение8 мин
Количество просмотров3.8K

Привет, Хабр! Меня зовут Кирилл Тобола, я Data Scientist и сегодня я расскажу об опыте применения EDA (Exploratory Data Analysis) для улучшения точности ML‑модели.

Добро пожаловать в год 2912, где ваши DS навыки понадобятся для решения космической загадки. Мы получили сообщение с корабля на расстоянии 4 световых лет, и ситуация выглядит плохо.

Крейсер Титаник — межгалактический пассажирский лайнер отправился в путь около месяца назад. Почти 13 000 пассажиров находились на борту. Судно отправилось в свой маршрут, перевозя эмигрантов из нашей солнечной системы к трем новым недавно освоенным экзопланетам.

Следуя через Альфа Центавру на пути к первому пункту назначения жаркой 55 Кансри Е, крейсер Титаник столкнулся с пространственно‑временной аномалией, скрывшейся за облаком космической пыли. К сожалению, крейсер постигла та же участь, что и одноименный корабль ровно 1000 лет назад. В то время как корабль не пострадал, почти половина пассажиров переместились в альтернативное пространство.

Чтобы спасти команду и вернуть потерянных пассажиров, вам необходимо спрогнозировать кто из пассажиров переместился в альтернативную реальность используя данные из поврежденного журнала корабля. Задача помочь им спастись и не дать истории повториться вновь… Хотя может и не нужно и появится новый достаточно неплохой фильм.

Узнать, как решить задачу!
Всего голосов 3: ↑3 и ↓0+3
Комментарии6

Топ полезных SQL-запросов для PostgreSQL

Время на прочтение7 мин
Количество просмотров81K

Статей о работе с PostgreSQL и её преимуществах достаточно много, но не всегда из них понятно, как следить за состоянием базы и метриками, влияющими на её оптимальную работу. В статье подробно рассмотрим SQL-запросы, которые помогут вам отслеживать эти показатели и просто могут быть полезны как пользователю.

Читать далее
Всего голосов 83: ↑81 и ↓2+79
Комментарии15

Как я людей на типы делил

Время на прочтение5 мин
Количество просмотров15K

В статье про рациональность, я оговорился, что рациональность начинается с критики своих убеждений. Расскажу о том, как я обнаружил, что необоснованно верю в неточные убеждения. И как это поставило меня в крайне неловкую ситуацию.

Проявить любопытство
Всего голосов 35: ↑28 и ↓7+21
Комментарии60

Toyota показала бытового робота, свисающего с потолка кухни

Время на прочтение3 мин
Количество просмотров7.8K

В исследовательском институте Toyota Research Institute (TRI) разработали робота, предназначенного для решения бытовых проблем владельцев. Эта система превосходит по возможностям бытовых роботов, созданных другими компаниями. Передвигается робот от TRI по потолку на специальных «рельсах».
Всего голосов 21: ↑19 и ↓2+17
Комментарии6

Мой идеальный ежедневник в Notion

Время на прочтение6 мин
Количество просмотров61K

Для студентов notion предоставляет платную лучную подписку абсолютно бесплатно. Чтобы ее получить нужно зарегистрировать аккаунт не на личную почту, а на почту, которую вам выдали в университете, затем вам придет письмо подтверждения на почту и все, можно использовать personal plan, который для обычных людей стоит 5$, абсолютно бесплатно. Я не уверен, что это работает во всех университетах, но в моем работает!

P.S. Замечу, что в своем обзоре я буду использовать веб версию приложения notion, но оно так же прекрасно работает на всех платформах и устройствах.

P.P.S. Для тех, кто уже давно освоил notion и сможет разобраться самостоятельно, финальная фотография моего сетапа ежедневника notion есть в конце статьи.

Читать далее
Всего голосов 18: ↑16 и ↓2+14
Комментарии26

COUNT(*)

Время на прочтение7 мин
Количество просмотров120K


У меня есть подборка простеньких вопросов, которые я люблю задавать при собеседовании. Например, как посчитать общее число записей к таблице? Вроде бы ничего сложного, но если копнуть глубже, то можно много интересных нюансов рассказать собеседнику.

Давайте начнем с простого… Эти запросы отличаются чем-то друг от друга с точки зрения конечного результата?

SELECT COUNT(*) FROM Sales.SalesOrderDetail
SELECT COUNT_BIG(*) FROM Sales.SalesOrderDetail
Подробнее
Всего голосов 84: ↑57 и ↓27+30
Комментарии74

Защита от накруток в онлайн играх

Время на прочтение11 мин
Количество просмотров30K
Это статья о том, как мы делали систему защиты браузерной HTML5 игры от взлома и подделки результатов, с какими трудностями мы при этом столкнулись, как их решали и что получили в итоге. Основной и всем знакомой проблемой таких игр является возможность написания бота, который эту игру автоматически пройдет. Разработку подобного бота облегчает тот факт, что код игры находится в публичном доступе. Ситуация осложнялась тем, что были объявлены реальные призы, среди которых iPad, билеты на концерт, USB флеш накопители и т.п.



Статья будет полезна в основном тем, кто делает HTML5 / Flash игры и заботится об их безопасности; тем, кто платит за разработку этих игр; и немного тем, кто призван бороться с ботами. Ну и, конечно, тем, кто написал эту статью. Потому что мы надеемся, что она станет началом продуктивной дискуссии о том, как разработчики браузерных игр могут противостоять кибер-мошенникам.
Читать дальше →
Всего голосов 45: ↑43 и ↓2+41
Комментарии71

Чек-лист из 68 пунктов для продвижения сайта в ТОП10 Яндекса

Время на прочтение5 мин
Количество просмотров129K
Чтобы Яндекс показал Ваш сайт в числе первых, нужно чтобы он максимально полно отвечал на запрос пользователя. И это будет уже половина успеха. Оставшаяся половина это удобство, техническая составляющая сайта и его простота. Ниже я привел чек-лист из 68 пунктов, который был разработан специально для системы управления задачами PTYSH, совместно с компанией DFAKTOR. А теперь я делюсь им с Вами. Кропотливое выполнение каждого пункта из данного чек-листа позволит вывести практически любой сайт на самый верх поисковой выдачи. Но придется как следует поработать. Начнем с самого малого.


Читать дальше →
Всего голосов 26: ↑25 и ↓1+24
Комментарии32

Анализ статистики во free-to-play играх: инструменты аналитика

Время на прочтение7 мин
Количество просмотров36K
Ключ к успеху при разработке free-to-play игр — анализ поведения игроков и постоянный тюнинг игрового функционала на основе статистики. Собрать статистику — это пол дела. Но как превратить гору сырых данных в информацию?

В моей прошлой статье я перечислила основные показатели, по которым можно отслеживать успешность игры. Во второй части цикла я сделаю обзор основных инструментов, которые помогут превратить данные в руководство к действию.
Читать дальше →
Всего голосов 35: ↑29 и ↓6+23
Комментарии35

Руководство для дизайнера по DPI

Время на прочтение27 мин
Количество просмотров318K


Это руководство — начальный материал о кросс-DPI и кроссплатформенном дизайне для начинающих и средних дизайнеров, желающих узнать о нем с самого начала или получить больше знаний. Без сложных математических и непонятных диаграмм, только непосредственные объяснения, упорядоченные в небольших разделах, для понимания и применения их непосредственно к вашей дизайнерской работе.

Автор — Sebastien Gabriel.

Я не знаю всего, так что, если по вашему мнению я где то ошибаюсь или вам нужно уточнить что-то, либо у вас есть предложения или вопросы для улучшения данного руководства, отправьте письмо (на англ) на sgabriel.contact@gmail.com. Вы также можете найти на меня Twitter, G+ или Facebook.
Читать дальше →
Всего голосов 92: ↑88 и ↓4+84
Комментарии19

Оптическая компенсация

Время на прочтение3 мин
Количество просмотров76K


В начале моего дизайнерского пути я полагался исключительно на Photoshop и CSS в вопросах правды и лжи. Если Photoshop утверждал, что две фигуры выровнены, то значит, они выровнены. Если две разные фигуры были разного размера, то так и было. Если два цвета имели одинаковые hex коды, то они выглядели одинаково.

Такой подход казался мне логичным, но он оказался неверным.

Вычисления, осуществляемые программой, разумны, но программа не может учесть человеческое восприятие фигуры, цвета и размера. Кроме этого, программа не может понять взаимоотношения объектов, их место в общем визуальном контексте или то, как человек воспримет этот объект.

Иррациональный разум человека решает, выглядит ли предмет оптически верно или нет, потому что мы можем видеть и понимать контекст в отличие от компьютера. Понимание этих едва различимых отличий и умение их компенсировать и делает хорошего дизайнера еще лучше, ведь лишь немногие заметят исправления, но многие увидят ошибку.

Давайте взглянем на небольшое количество показательных примеров.
Читать дальше →
Всего голосов 66: ↑63 и ↓3+60
Комментарии29

Ай-трекер ET-1000 от The EyeTribe

Время на прочтение5 мин
Количество просмотров20K
Терминология: кальки с английского айтрекер / гейз-трекер звучат не очень, но перевод «устройство для отслеживания движений глаз» и «устройство для отслеживания взгляда» очень громоздок. Не уверен, что есть какая-то более удобная устоявшаяся терминология в русском языке – дайте знать если ошибаюсь

image

В последние годы Kinect (конечности, тело в целом), Siri (голос), и LeapMotion (пальцы) показали, что бесконтактное управление и ввод данных/текста может оказаться весьма удобным и интуитивным для определённых задач. Но до недавнего времени о возможности использования взгляда для таких же задач знали немногие. И основных причин было две: а) все устройства были достаточно дорогими (тысячи и десятки тысяч евро/долларов), б) а точность определения направления взгляда откровенно хромала. И если точность в топ–продуктах уже довольно-таки высока (около половины градуса – всё ещё требует доработки, хотя и никогда не выйдет на один уровень с точность позиционирования курсора мыши из-за биологической особенности глаза), то цена в нестарый автомобиль делало эти устройства весьма нишевыми: рынок был поделён на маркетинговский (юзабилити-исследования, здесь на Хабре были статьи на эту тему), академический (разносторонние исследования в университетах), медицинский (исследования пациентов), и «accessibility» (использование ай-трекеров людьми с ограниченными способностями как средство управления).
Читать дальше →
Всего голосов 21: ↑21 и ↓0+21
Комментарии9

Практическая польза небольшого словарного запаса

Время на прочтение4 мин
Количество просмотров49K
image

Представьте, через неделю вам уезжать в Веллингтон, где основным языком является английский, а вы его знаете на уровне «Ландн из э кэпитал». Идея выучить новый язык кажется абсурдной, куда уж тут за 7 дней освоить все эти знания. Но вспомните закон Парето, который обещает 80% результатов за 20% усилий. Лексика любого естественного языка очень хорошо вписывается в данный принцип. Вопрос — сколько слов нужно знать, чтобы общаться на повседневные темы?

«Максимум сотню, – говорит Фабио Капелло, бывший тренер сборной Англии по футболу. – Когда говоришь о тактике, не требуется большой словарный запас». Капелло, конечно, преувеличивает, и тем не менее он проработал в Англии три с половиной года, зная язык на поверхностном уровне. И это, по его мнению, не помешало ему тренировать команду.

Так может быть стоит ограничиться сотней слов?
Читать дальше →
Всего голосов 47: ↑33 и ↓14+19
Комментарии56

Material Design: на Луну и обратно

Время на прочтение11 мин
Количество просмотров387K
“Это унылое диалоговое окно действительно нужно?”



В этой статье я изложил главные принципы Material Design и дал советы по их воплощению. Текст написан по следам мастер-класса для разработчиков, который мы, Роботы, устраивали совместно с российским офисом Google (Think Mobile).


Когда-то все продукты Google выглядели по-разному плохо. Даже один продукт на разных платформах выглядел неконсистентно.

Все стало меняться в 2011 году, когда в Google начали усиленно работать над унификацией визуальной части экосистемы своих продуктов и назвали все это Project Kennedy.

При чем тут Кеннеди?
Легенда такова: президент Кеннеди инициировал программу полёта человека на Луну (если верить, что этот полёт когда-либо был). А большой начальник в Google Ларри Пейдж исповедует принцип, что продукты нет смысла улучшать на 10% — они должны быть в 10 раз лучше, чем у конкурентов. Если уж запускать продукт, то сразу на Луну. Вот и здесь было решено круто всё переделать.

Читать дальше →
Всего голосов 146: ↑135 и ↓11+124
Комментарии120

Лекции Технопарка. 1 семестр. Web-технологии

Время на прочтение4 мин
Количество просмотров172K
Сегодня этим постом мы открываем цикл еженедельных публикаций учебных материалов Технопарка. Если кто-то ещё не знает, Технопарк — это совместный образовательный проект Mail.Ru Group и МГТУ им. Н. Э. Баумана. На данный момент здесь проходит обучение по 20 IT-дисциплинам 91 наиболее талантливый студент. Технопарк существует с 18 ноября 2011 года, а первые счастливчики приступили к занятиям в декабре 2011 года.

Обучение в Технопарке совершенно бесплатное, оно проходит после занятий в университете. Стать участниками проекта могут студенты 3-5 курсов. Хотя для 2 и 6 курсов можем сделать исключение. Обучение длится 2 года, оно разбито на 4 семестра, в каждом из которых проходят по 3-4 предмета. Первый блок первого семестра посвящён всему, что связано с web-технологиями, от истории возникновения до программирования и безопасности web-приложений.

Лекция 1. Введение


На вводном занятии вы познакомитесь с краткой историей развития интернета, основными трендами в развитии web-приложений, облачных сервисов и мобильных приложений. Также на лекции разобрано устройство и работа несложного web-приложения, обсуждены такие фундаментальные понятия, как система адресации в интернете, домены, HTML-страницы и протокол HTTP. Напоследок кратко рассказано о CGI-скриптах, их назначении и особенностях работы.


Читать дальше →
Всего голосов 55: ↑51 и ↓4+47
Комментарии11

audio.js — слушаем музыку в любом браузере

Время на прочтение1 мин
Количество просмотров69K
audio.js — это javascript библиотека, позволяющая использовать HTML5 тэг повсюду. Что скрывается за словом «повсюду». Если есть возможность использовать тэг , то будет использоваться он, иначе будет подключен плеер на flash. В библиотеку так же входит и UI отображение для этого плеера, которое может быть видоизменено с помощью css.
Читать дальше →
Всего голосов 77: ↑74 и ↓3+71
Комментарии37

Как показать самые опасные уязвимости

Время на прочтение4 мин
Количество просмотров27K
По долгу службы мне часто приходится проводить инструментальный аудит безопасности различных предприятий. Процедура составления итогового отчета содержит одну неприятную особенность, от которой мне давно хотелось избавиться. Помимо наиболее опасных уязвимостей системы клиенту всегда надо показывать ссылки на общедоступные эксплойты для этих ошибок. И эти ссылки приходилось искать вручную.

В большинстве случаев заказчик принимает какие-либо серьезные меры по защите — только если знает о хакерских инструментах, которые автоматизируют атаки через найденные у него уязвимости. Обнаруженные дыры сами по себе не пугают, а такие программы — очень даже: благодаря им натянуть черные шляпы может целая армия школьников, кулхацкеров, недовольных экс-сотрудников и диверсантов из конкурирующих организаций. Создатель Grsecurity Брэд Шпенглер говорил, что только публичные эксплойты производят изменения в общественном понимании уровня существующей безопасности, и мой опыт полностью подтверждает эту мысль.

image

В какой-то момент я понял, что поиск ссылок на эксплойты — работа хотя и важная, но настолько рутинная и механическая, что просто грех ее не автоматизировать. Вначале был написан простенький консольный скрипт, который постепенно обзавелся GUI и научился понимать различные форматы отчетов систем поиска уязвимостей. Все доработки и улучшения PT Exploit Explorer в дальнейшем проводились исходя из пожеланий пользователей, и этот процесс продолжается до сих пор.
Читать дальше →
Всего голосов 35: ↑29 и ↓6+23
Комментарии1

Оцифрована первая часть из 1 500 000 страниц древних манускриптов

Время на прочтение2 мин
Количество просмотров37K


Библиотека Ватикана и Оксфордский университет выложили в онлайн первую часть из полутора миллиона страниц древних манускриптов, которые планируется оцифровать в течение трёх лет. Коллекция состоит из трех частей: манускрипты Древней Греции, Израиля и печатные книги 15 века. Эти группы были выбраны исходя из их академического значения и количества документов в библиотеке.
Читать дальше →
Всего голосов 35: ↑33 и ↓2+31
Комментарии14

Десять советов как написать (чуть) менее ужасное резюме

Время на прочтение19 мин
Количество просмотров20K

«Цель: получить работу в IBM»
— пишет какой-то идиот-соискатель в Amazon.com.




ВНИМАНИЕ: это мое собственное, *персональное*, мнение, не Google, не Amazon или кого-либо еще. Я думаю вы обнаружите, что большинство рекрутеров, оценивающих анкеты в технических компаниях — особенно в технических компаниях, которые производят собственное программное обеспечение сами, такие как Yahoo!, Ebay, Amazon.com, Microsoft или Google — в целом, согласятся со многим из перечисленного. Но опытные рекрутеры расходятся во мнениях касательно многих мелких деталей, и, в конце-концов, это всего лишь мое собственное мнение. Эти советы не гарантируют получения Вами сколь-нибудь лучших результатов. Возможно, у вас будет другой опыт. Не используйте эти советы в ванной или стоя в луже. Не стучите по стеклу, это раздражает советы. Советы не кормить! И т.д.

Читать дальше →
Всего голосов 104: ↑82.5 и ↓21.5+61
Комментарии101
1
23 ...

Информация

В рейтинге
Не участвует
Откуда
Ростов-на-Дону, Ростовская обл., Россия
Зарегистрирован
Активность

Специализация

Product Analyst
Lead