Статьи / Закладки / Профиль darkcorp / Хабр

Альберт @darkcorp

Пользователь

Профиль Публикации Комментарии 10Закладки 74

io_io 18 авг 2015 в 15:08

Как легко понять логистическую регрессию

5 мин

213K

Блог компании .ioBig Data*Анализ и проектирование систем*Машинное обучение*

Туториал

Перевод

Логистическая регрессия является одним из статистических методов классификации с использованием линейного дискриминанта Фишера. Также она входит в топ часто используемых алгоритмов в науке о данных. В этой статье суть логистической регрессии описана так, что она станет понятна даже людям не очень близким к статистике.

Читать дальше →

+13

Anatoliy_Karpov 29 сен 2016 в 19:38

О степенях свободы в статистике

8 мин

228K

Блог компании Stepik.orgData Mining*R*Машинное обучение*

В одном из предыдущих постов мы обсудили, пожалуй, центральное понятие в анализе данных и проверке гипотез — p-уровень значимости. Если мы не применяем байесовский подход, то именно значение p-value мы используем для принятия решения о том, достаточно ли у нас оснований отклонить нулевую гипотезу нашего исследования, т.е. гордо заявить миру, что у нас были получены статистически значимые различия.

Однако в большинстве статистических тестов, используемых для проверки гипотез, (например, t-тест, регрессионный анализ, дисперсионный анализ) рядом с p-value всегда соседствует такой показатель как число степеней свободы, он же degrees of freedom или просто сокращенно df, о нем мы сегодня и поговорим.

Читать дальше →

+30

Anatoliy_Karpov 13 фев 2015 в 14:01

Основы статистики: просто о сложных формулах

6 мин

308K

Блог компании Stepik.orgData Mining*R*

Из песочницы

Статистика вокруг нас

Статистика и анализ данных пронизывают практически любую современную область знаний. Все сложнее становится провести границу между современной биологией, математикой и информатикой. Экономические исследования и регрессионный анализ уже практически неотделимы друг от друга. Один из известных методов проверки распределения на нормальность — критерий Колмогорова-Смирнова. А вы знали, что именно Колмогоров внес огромный вклад в развитие математической лингвистики?

Еще будучи студентом психологического факультета СПбГУ, я заинтересовался когнитивной психологией. Кстати, Иммануил Кант не считал психологию наукой, так как не видел возможности применять в ней математические методы. Мои текущие исследования посвящены моделированию психических процессов, и я надеюсь, что такие направления в современной когнитивной психологии, как вычислительные и коннективисткие модели, смягчили бы его отношение!

Читать дальше →

+45

FFelix 22 янв 2021 в 00:51

Изучение data science c нуля: этапы и вехи

9 мин

75K

Big Data*Машинное обучение*Карьера в IT-индустрии

В соответствии с концепцией спирального подхода к обучению, о которой писал ранее, привожу поэтапный план освоения data science. План составлен так, чтобы каждый этап делал учащегося в той или иной степени лучше подготовленным к выполнению реальных задач. Такой подход вдохновлен идеологией Agile в том смысле, что сколько бы времени вы не уделили обучению и в какой бы момент не остановились - у вас будет наиболее востребованный набор знаний, из возможных к освоению за такое время.

+11

deNULL 26 ноя 2021 в 17:49

Воссоздаем Minecraft-подобную генерацию мира на Python

11 мин

27K

Разработка игр*Алгоритмы*

Перевод

Minecraft, самая продаваемая игра в мире, наиболее известная своими пикселизированными блоками и бесконечными мирами, содержит потрясающий процедурный генератор ландшафта — с пещерами, водоёмами, и даже различными биомами.

Процедурная генерация является важной частью компьютерной графики — она используется в основном в играх и в фильмах. Она помогает создавать случайные структуры, не вызывающие ощущения «машинного» стиля.

Также процедурная генерация играет важную роль в машинном обучении. Она позволяет генерировать такие данные, которые сложно собрать. Обучение моделей машинного обучения требует огромных датасетов, которые может быть затруднительно собирать и подготавливать. Генерацию данных процедурным образом можно легко адаптировать к требуемому типу данных.

В детстве мне нравилось играть в Minecraft, и мне всегда было интересно, как эта игра генерирует бесконечные миры. В данной я статье я попытаюсь воссоздать это на Python.

Прим. переводчика. Осторожно, в статье много иллюстраций (в том числе анимированных)

+57

NewTechAudit 14 мая 2021 в 10:49

NLP: разбираем на пальцах практические кейсы без заморочек с ML

3 мин

6.1K

Python*Программирование*Машинное обучение*

Сравнение текстов

Допустим у нас есть три текста: два из них про собачек и один про кошечек. Как их сравнить между собой?

Whispered 2 сен 2020 в 14:29

Анализ корреляций биржевых фондов за первую половину 2020

7 мин

36K

Машинное обучение*Финансы в IT

Из песочницы

UPDATE Анализ устарел минимум на полгода. Более свежий анализ на февраль 2021 здесь.

На Московской Бирже торгуется сейчас 44 ETF и БПИФа. Это биржевые фонды, которые держат в себе готовые специализированные портфельчики и запакованные в stand-alone акцию (будто микросервис в докер-контейнере). Эту акцию можно купить, получив долю в общем портфеле.

Для выявления связей между фондами применялись математические методы анализа временных рядов: корреляция по изменениям цен с последующей кластеризацией по расстояниям. Как известно, математика может быть нелогична и находить то, чего не существует на деле. Математика слепа к новостям, коронавирусу и красным шортам Теслы.

Корреляционная матрица
Есть интерактивная версия матрицы (осторожно, трафик)

Начнем сразу с результатов анализа биржевых фондов. В матрице выше — корреляции всех ETF и БПИФ, которые появились до января 2020. До 20-го года БПИФов было слишком мало, анализировать там нечего.

Читать дальше →

+29

Zmey56 3 мая 2020 в 21:37

Использование метода Монте-Карло для создания портфеля

4 мин

13K

Python*Машинное обучение*Финансы в IT

Начинающие (да и не только) инвесторы часто задаются вопросом о том, как отобрать для себя идеальное соотношение активов входящих в портфель. Часто (или не очень, но знаю про двух точно) у некоторых брокеров эту функцию выполняет торговый робот. Но заложенные в них алгоритмы не раскрываются.

В этом посте будет рассмотрено то, как оптимизировать портфель при помощи Python и симуляции Монте Карло. Под оптимизацией портфеля понимается такое соотношение весов, которое будет удовлетворять одному из условий:

Читать дальше →

I_v_g 15 окт 2018 в 19:13

Облачные сервисы Amazon и анализ инвестиционного портфеля

18 мин

9.1K

Финансы в ITПрограммирование*Облачные сервисы*Анализ и проектирование систем*Python*

В последнее время на фондовых рынках наблюдается высокая волатильность, когда, например, стабильная бумага известной компании может враз потерять сразу несколько процентов на новостях о санкциях против ее руководства или наоборот взлететь до небес на позитивном отчете и ожиданиях инвесторов о сверхприбыльных дивидендах.

Как же определить, принесло ли владение данной ценной бумагой доход или одни лишь убытки и разочарование?

(Источник)

В этой статье я расскажу Вам как определять и визуализировать скорректированный финансовый результат по ценным бумагам.

На примере клиентской отчетности Открытие Брокер мы рассмотрим парсинг и консолидацию брокерских отчетов для фондового рынка, построение архитектуры облачной отчетной системы с последующим простым и удобным анализом в AWS Quicksight.

Читать дальше →

+11

Zmey56 9 июн 2021 в 16:16

Оптимизации портфеля с помощью Python и PyPortfolioOpt

6 мин

21K

Python*Венчурные инвестицииФинансы в IT

Портфельная теория Марковица(далее ПТМ) (Modern portfolio theory) — разработанная Гарри Марковицем методика формирования инвестиционного портфеля, направленная на оптимальный выбор активов, исходя из требуемого соотношения доходность/риск. Сформулированные им в 1950-х годах идеи составляют основу современной портфельной теории.

Основные положения портфельной теории были сформулированы Гарри Марковицем при подготовке им докторской диссертации в 1950—1951 годах.

Рождением же портфельной теории Марковица считается опубликованная в «Финансовом журнале» в 1952 году статья «Выбор портфеля». В ней он впервые предложил математическую модель формирования оптимального портфеля и привёл методы построения портфелей при определённых условиях. Основная заслуга Марковица состояла в предложении вероятностной формализации понятий «доходность» и «риск», что позволило перевести задачу выбора оптимального портфеля на формальный математический язык. Надо отметить, что в годы создания теории Марковиц работал в RAND Corp., вместе с одним из основателей линейной и нелинейной оптимизации — Джорджем Данцигом и сам участвовал в решении указанных задач. Поэтому собственная теория, после необходимой формализации, хорошо ложилась в указанное русло.

VladFX 23 июл 2020 в 12:08

Аномалии голосования по поправкам к Конституции России. Часть 1

5 мин

67K

Big Data*Data Mining*Визуализация данных*Открытые данные*

Из песочницы

Общероссийское голосование по вопросу одобрения изменений, вносимых в Конституцию Российской Федерации, проводилось с 25 июня по 1 июля 2020 года (wikipedia).

Основная цель данной заметки — это продемонстрировать как можно быстро начать работать с данными голосования и показать наличие определенного вида аномалий в них.

Все вычисления, визуализации и парсинг данных приведены в Google Colab, который доступен по этой ссылке Google Colab.

Читать дальше →

+146

387

Fell-x27 16 фев 2020 в 15:25

Мечтают ли нейросети об электроденьгах?

18 мин

31K

Исследования и прогнозы в IT*КриптовалютыМашинное обучение*

Из песочницы

TL;DR: Нет

На просторах Сети полным полно материалов, мануалов, готовых решений, сборок и прочего добра, посвященного прогнозированию цен на криптовалютные и традиционные биржевые активы, пахнущего быстрыми и легкими доходами с минимумом усилий. И хоть пишут их разные люди, с разными подходами, на разных платформах и с разными парадигмами, у них всех есть один неизменный общий атрибут — они не работают.

Почему? Давайте разбираться.

Читать дальше →

+82

127

1 2 3