Articles / Bookmarks / Profile of tessob / Habr

Теперь просто читатель

ProfileArticlesPostsNewsComments166

@yorko Mar 20 2017 at 16:38

Открытый курс машинного обучения. Тема 4. Линейные модели классификации и регрессии

30 min

610K

Open Data Science corporate blogPython * Algorithms * Mathematics * Machine learning *

Всем привет!

Сегодня мы детально обсудим очень важный класс моделей машинного обучения – линейных. Ключевое отличие нашей подачи материала от аналогичной в курсах эконометрики и статистики – это акцент на практическом применении линейных моделей в реальных задачах (хотя и математики тоже будет немало).

Пример такой задачи – это соревнование Kaggle Inclass по идентификации пользователя в Интернете по его последовательности переходов по сайтам.

UPD 01.2022: С февраля 2022 г. ML-курс ODS на русском возрождается под руководством Петра Ермакова couatl. Для русскоязычной аудитории это предпочтительный вариант (c этими статьями на Хабре – в подкрепление), англоговорящим рекомендуется mlcourse.ai в режиме самостоятельного прохождения.

Все материалы доступны на GitHub.
А вот видеозапись лекции по мотивам этой статьи в рамках второго запуска открытого курса (сентябрь-ноябрь 2017). В ней, в частности, рассмотрены два бенчмарка соревнования, полученные с помощью логистической регрессии.

Читать дальше →

+47

@miptgirl Mar 6 2017 at 12:58

Открытый курс машинного обучения. Тема 2: Визуализация данных c Python

15 min

466K

Open Data Science corporate blogMachine learning * Data visualization * Python * Data Mining *

Второе занятие посвящено визуализации данных в Python. Сначала мы посмотрим на основные методы библиотек Seaborn и Plotly, затем поанализируем знакомый нам по первой статье набор данных по оттоку клиентов телеком-оператора и подглядим в n-мерное пространство с помощью алгоритма t-SNE. Есть и видеозапись лекции по мотивам этой статьи в рамках второго запуска открытого курса (сентябрь-ноябрь 2017).

UPD 01.2022: С февраля 2022 г. ML-курс ODS на русском возрождается под руководством Петра Ермакова couatl. Для русскоязычной аудитории это предпочтительный вариант (c этими статьями на Хабре – в подкрепление), англоговорящим рекомендуется mlcourse.ai в режиме самостоятельного прохождения.

Сейчас статья уже будет существенно длиннее. Готовы? Поехали!

Читать дальше →

+49

@cotique Feb 28 2017 at 09:45

Открытый курс машинного обучения. Тема 1. Первичный анализ данных с Pandas

Easy

15 min

1.2M

Open Data Science corporate blogData Mining * Python * Data visualization * Machine learning *

Tutorial

Открытый курс машинного обучения mlcourse.ai сообщества OpenDataScience – это сбалансированный по теории и практике курс, дающий как знания, так и навыки (необходимые, но не достаточные) машинного обучения уровня Junior Data Scientist. Нечасто встретите и подробное описание математики, стоящей за используемыми алгоритмами, и соревнования Kaggle Inclass, и примеры бизнес-применения машинного обучения в одном курсе. С 2017 по 2019 годы Юрий Кашницкий yorko и большая команда ODS проводили живые запуски курса дважды в год – с домашними заданиями, соревнованиями и общим рейтингом учаcтников (имена героев запечатлены тут). Сейчас курс в режиме самостоятельного прохождения.

Читать дальше →

+39

@vradchenko Mar 27 2017 at 11:28

Открытый курс машинного обучения. Тема 5. Композиции: бэггинг, случайный лес

28 min

308K

Open Data Science corporate blogMachine learning * Mathematics * Algorithms * Python *

Пятую статью курса мы посвятим простым методам композиции: бэггингу и случайному лесу. Вы узнаете, как можно получить распределение среднего по генеральной совокупности, если у нас есть информация только о небольшой ее части; посмотрим, как с помощью композиции алгоритмов уменьшить дисперсию и таким образом улучшить точность модели; разберём, что такое случайный лес, какие его параметры нужно «подкручивать» и как найти самый важный признак. Сконцентрируемся на практике, добавив «щепотку» математики.

UPD 01.2022: С февраля 2022 г. ML-курс ODS на русском возрождается под руководством Петра Ермакова couatl. Для русскоязычной аудитории это предпочтительный вариант (c этими статьями на Хабре – в подкрепление), англоговорящим рекомендуется mlcourse.ai в режиме самостоятельного прохождения.

Видеозапись лекции по мотивам этой статьи в рамках второго запуска открытого курса (сентябрь-ноябрь 2017).

Список статей серии

Читать дальше →

+51

@m1rko Mar 27 2017 at 13:49

Глубинное обучение по особенностям заголовка и содержимого статьи для преодоления кликбейта

6 min

9.2K

Data Mining * Open source * Machine learning *

Translation

Облако слов для кликбейта

TL;DR: Я добился точности распознавания кликбейта 99,2% на тестовых данных по особенностям заголовка и контента. Код доступен в репозитории GitHub.

Когда-то в прошлом я написал статью о выявлении кликбейта. Та статья получила хорошие отклики, а также много критики. Некоторые сказали, что нужно учитывать содержимое сайта, другие просили больше примеров из разных источников, а некоторые предложили попробовать методы глубинного обучения.

В этой статье я постараюсь решить эти вопросы и вывести выявление кликбейта на новый уровень.

Читать дальше →

+12

@Bond_algotrade Mar 20 2017 at 19:50

Как я сделал тестер-оптимизатор для нахождения прибыльных стратегий на Бирже — 2

6 min

23K

Mathematics * Algorithms * Data Mining *

Multidimensional Space Trading Strategies

Рис. 1. Оптимизация многомерного пространства алгоритмов торговых стратегий.

Оптимизация торговых стратегий

В процессе алгоритмической торговли постоянно возникает необходимость настройки параметров алгоритмов торговых стратегий. Сочетания всех возможных параметров превращается в большое многомерное пространство вариантов стратегий. Чтобы получить самые прибыльные и стабильные стратегии нужно исследовать это пространство и подобрать оптимальные параметры для торговли.

Читать дальше →

+11

@Infected Jun 16 2016 at 15:20

Руководство по работе с Redux

80 min

288K

VK corporate blogReactJS * Node.JS * JavaScript * Website development *

Tutorial

Translation

Сегодня Redux — это одно из наиболее интересных явлений мира JavaScript. Он выделяется из сотни библиотек и фреймворков тем, что грамотно решает множество разных вопросов путем введения простой и предсказуемой модели состояний, уклоне на функциональное программирование и неизменяемые данные, предоставления компактного API. Что ещё нужно для счастья? Redux — библиотека очень маленькая, и выучить её API не сложно. Но у многих людей происходит своеобразный разрыв шаблона — небольшое количество компонентов и добровольные ограничения чистых функций и неизменяемых данных могут показаться неоправданным принуждением. Каким именно образом работать в таких условиях?

В этом руководстве мы рассмотрим создание с нуля full-stack приложения с использованием Redux и Immutable-js. Применив подход TDD, пройдём все этапы конструирования Node+Redux бэкенда и React+Redux фронтенда приложения. Помимо этого мы будем использовать такие инструменты, как ES6, Babel, Socket.io, Webpack и Mocha. Набор весьма любопытный, и вы мигом его освоите!

Читать дальше →

+51

@zedroid Mar 15 2017 at 19:55

Еще один алгоритм для восстановления смазанных изображений

5 min

19K

Matlab * Mathematics * Image processing *

Доброго времени суток. Уже столько сказано о методах деконволюции изображений, кажется добавить больше нечего. Однако всегда найдется алгоритм лучше и новее предыдущих. Не так давно был описан итерационный алгоритм, имеющий линейную скорость сходимости при малых затратах памяти, стабильный и хорошо распараллеливаемый. А через некоторое время он был улучшен еще и до квадратичной сходимости. Встречайте: (Fast) Iterative Shrinkage-Thresholding Algorithm.

Читать дальше →

+35

@IBAH_II Mar 16 2017 at 15:30

Практическое применение преобразования Фурье для обработки сигналов

13 min

56K

Mathematics * Programming * Programming microcontrollers *

Введение

Книги и публикации по цифровой обработке сигналов пишут авторы зачастую не догадывающиеся и не понимающие задач, стоящих перед разработчиками. Особенно это касается систем, работающих в реальном времени. Эти авторы отводят себе скромную роль бога, существующего вне времени и пространства, что вызывает некоторое недоумение у читателей подобной литературы. Данная публикация имеет целью развеять недоумения, возникающие у большинства разработчиков, и помочь им преодолеть «порог вхождения», для этих целей в тексте сознательно используется аналогии и терминология сферы программирования.

Данный опус не претендует на полноту и связность изложения.

Читать дальше →

+11

@olegas5 Mar 13 2017 at 10:14

Робот-собеседник на основе ИНС: рекуррентные сети

4 min

4.5K

Machine learning *

Ранее в статье «Робот-собеседник на основе нейронной сети» я рассматривал вопрос применения нейронных сетей прямого распространения для создания робота-собеседника. В результате экспериментов стало понятно, что применять такие сети для генерации текстов ― идея плохая. Спасибо Roman_Kh, daiver19, vladshow, что показали, как необходимо изменить сеть и в каком направлении двигаться.

Следующий этап тестирования ― рекуррентные LSTM-сети.

Читать дальше →

+5

@yorko Mar 13 2017 at 11:03

Открытый курс машинного обучения. Тема 3. Классификация, деревья решений и метод ближайших соседей

33 min

588K

Open Data Science corporate blogData Mining * Python * Algorithms * Machine learning *

Привет всем, кто проходит курс машинного обучения на Хабре!

В первых двух частях (1, 2) мы попрактиковались в первичном анализе данных с Pandas и в построении картинок, позволяющих делать выводы по данным. Сегодня наконец перейдем к машинному обучению. Поговорим о задачах машинного обучения и рассмотрим 2 простых подхода – деревья решений и метод ближайших соседей. Также обсудим, как с помощью кросс-валидации выбирать модель для конкретных данных.

UPD 01.2022: С февраля 2022 г. ML-курс ODS на русском возрождается под руководством Петра Ермакова couatl. Для русскоязычной аудитории это предпочтительный вариант (c этими статьями на Хабре – в подкрепление), англоговорящим рекомендуется mlcourse.ai в режиме самостоятельного прохождения.

Читать дальше →

+58

@anastasiagrishina Mar 13 2017 at 11:30

Обзор буткэмпов в области data science за рубежом

3 min

5.2K

New Professions Lab corporate blogBig Data * Data Mining * Machine learning *

Хабр, привет. Последнее время в мире образования стали пользоваться популярностью, так называемые, bootcamps. Например, по этой ссылке неплохо описано, что такое bootcamp в области программирования и чем это отличается от привычных образовательных программ в университетах.

Буткэмп — это техническая образовательная программа, которая направлена на то, чтобы научить участников наиболее релевантным рынку навыкам. Это позволяет участникам с небольшим опытом в программировании сфокусироваться на тех аспектах программирования, которые можно применить здесь и сейчас для решения реальных проблем.

Мы решили сосредоточиться и подготовить обзор нескольких буткэмпов за рубежом в области data science, являющихся наиболее известными и находящихся на рынке уже несколько лет.

Читать дальше →

-2

@gazpar Mar 12 2017 at 08:20

Моделирование электрической цепи

3 min

29K

Python * Programming *

Tutorial

В данной публикации представлена инструкция по моделированию электрической цепи методом переменных состояния.

Читать дальше →

+36

@Scorobey Mar 9 2017 at 09:00

Полный латентно семантический анализ средствами Python

14 min

19K

Recovery Mode

Известные реализация латентно-семантического анализа (LSA) средствами языка программирования Python [1,2] обладают рядом существенных методических недостатков. Не приведены корреляционные матрицы слов и документов. Эти матрицы позволяют выявить скрытые связи. Отсутствует кластерный анализ для распределения слов и документов. Нет гибкой графической реализации для анализа семантического пространства, что крайне осложняет анализ результатов. Пользователь не имеет возможности оценить влияние исключения слов, которые встречаются один раз, метода определения семантического расстояния между словами и документами. Более того, могут возникать ситуации, когда после исключения слов, встречающихся только один раз, нарушается размерность частотной матрицы и её сингулярное разложение становиться невозможным. Пользователь получает сообщение об ошибке, не понимая их причин сетуя на недостатки программных средств Python.

Сразу хочу отметить, что статья рассчитана на аудиторию не только знакомую с методом LSA, но и имеющая минимальный опыт его практического применения. Поэтому используя для тестирования программы стандартный набор англоязычных коротких сообщений, приведу распечатку исходных данных и результаты их обработки и график семантического пространства.

Читать дальше →

-2

@dmagin Jul 31 2015 at 14:44

Корреляция, ковариация и девиация (часть 3)

5 min

46K

В первой части показано, как на основе матрицы расстояний между элементами получить матрицу Грина. Ее спектр образует собственную систему координат множества, центром которой является центроид набора. Во второй рассмотрены спектры простых геометрических наборов.

В данной статье покажем, что матрица Грина и матрица корреляции — суть одно и то же.

Читать дальше →

+18

@dmagin Jul 16 2015 at 09:42

Спектры расстояний простых наборов и их объединений (часть 2)

7 min

7.5K

В первой части мы взяли в руки молоток (спектр матрицы Грина) и опробовали его на паре гвоздей (наборе из трех точек). Пока я возился с этими спектрами, возникло предложение к производителям строительных рулеток. Надо с обратной стороны измерительной ленты добавить параболическую шкалу (сантиметры в квадрате). Поскольку квадраты расстояний здесь просто кишат, а обычные (линейные) расстояния выглядят жалким частным случаем. При строительстве дачи такой рулеткой можно будет проверять прямоугольность углов, ну и прочие инварианты для расстояний между точками в пространстве и на плоскости.

Читать дальше →

+8

@dmagin Jul 14 2015 at 14:54

Построение системы координат по набору расстояний

5 min

18K

Введение

Прикладная математика это набор инструментов, позволяющих решать те или иные проблемы, возникающие на практике. В данной статье рассмотрим один из таких инструментов — преобразование девиации применительно к матрицы евклидовых расстояний. Спектр полученной в результате матрицы Грина позволяет судить о размерности исходных данных и рассчитать координаты исходных точек относительно собственного центра координат.

Допустим, у нас имеется (n > 2) точек и известны все расстояния между ними. Потенциальная мерность пространства равна (n-1). Надо определить, пространству какой мерности принадлежат заданные точки, а также координаты точек в данном пространстве.

Читать дальше →

+14

@it_man Feb 21 2017 at 09:45

SAP подготовила крупное обновление для своего продукта S/4Hana Cloud

2 min

4.1K

MWS corporate blogERP-systems * E-commerce management * Project management * Development Management *

Немецкая фирма SAP SE представила обновление для своего продукта S/4HANA Cloud, который объединяет в облачной среде разработки компании в области управления бизнесом SAP и базу данных Hana.

Читать дальше →

+11

@Habr_Studio Feb 22 2017 at 14:23

Нейронные сети: практическое применение

15 min

283K

Algorithms * Machine learning * Image processing *

Наталия Ефремова погружает публику в специфику практического использования нейросетей. Это — расшифровка доклада Highload++.

Добрый день, меня зовут Наталия Ефремова, и я research scientist в компании NtechLab. Сегодня я буду рассказывать про виды нейронных сетей и их применение.

Сначала скажу пару слов о нашей компании. Компания новая, может быть многие из вас еще не знают, чем мы занимаемся. В прошлом году мы выиграли состязание MegaFace. Это международное состязание по распознаванию лиц. В этом же году была открыта наша компания, то есть мы на рынке уже около года, даже чуть больше. Соответственно, мы одна из лидирующих компаний в распознавании лиц и обработке биометрических изображений.

Первая часть моего доклада будет направлена тем, кто незнаком с нейронными сетями. Я занимаюсь непосредственно deep learning. В этой области я работаю более 10 лет. Хотя она появилась чуть меньше, чем десятилетие назад, раньше были некие зачатки нейронных сетей, которые были похожи на систему deep learning.

+51

@kdenisk Feb 22 2017 at 17:29

Нейронные сети в картинках: от одного нейрона до глубоких архитектур

7 min

99K

Machine learning *

Многие материалы по нейронным сетям сразу начинаются с демонстрации довольно сложных архитектур. При этом самые базовые вещи, касающиеся функций активаций, инициализации весов, выбора количества слоёв в сети и т.д. если и рассматриваются, то вскользь. Получается начинающему практику нейронных сетей приходится брать типовые конфигурации и работать с ними фактически вслепую.

В статье мы пойдём по другому пути. Начнём с самой простой конфигурации — одного нейрона с одним входом и одним выходом, без активации. Далее будем маленькими итерациями усложнять конфигурацию сети и попробуем выжать из каждой из них разумный максимум. Это позволит подёргать сети за ниточки и наработать практическую интуицию в построении архитектур нейросетей, которая на практике оказывается очень ценным активом.

Читать дальше →

+54

1 2 ...

16