Pull to refresh
1
0
Send message

Хеш-таблицы

Reading time9 min
Views265K

Предисловие


Я много раз заглядывал на просторы интернета, нашел много интересных статей о хеш-таблицах, но вразумительного и полного описания того, как они реализованы, так и не нашел. В связи с этим мне просто нетерпелось написать пост на данную, столь интересную, тему.


Возможно, она не столь полезна для опытных программистов, но будет интересна для студентов технических ВУЗов и начинающих программистов-самоучек.


image

Читать дальше →
Total votes 13: ↑8 and ↓5+9
Comments31

Карманный справочник: сравнение синтаксиса MS SQL Server и PostgreSQL

Reading time17 min
Views92K

Приветствую, уважаемые хаброжители!

Так как занимаюсь переводом кода с MS SQL в Postgre SQL с начала 2019 года, то решил продолжить сравнение этих двух СУБД.

В прошлой публикации мы рассматривали отличия в быстродействии MS SQL и PostgreSQL для 1C.

Сегодня давайте сравним основные конструкции синтаксиса MS SQL и PostgreSQL для правильного чтения кода, а также для того, чтобы быстро изменить код из MS SQL для PostgreSQL или наоборот.

Начнем рассмотрение с сопоставления типов.

Читать далее
Total votes 78: ↑78 and ↓0+78
Comments78

Критерий Манна-Уитни — самый главный враг A/B-тестов

Reading time17 min
Views43K

Всем привет! Меня зовут Дима Лунин, я аналитик в компании Авито. В этой статье я расскажу про критерий Манна-Уитни и проблемы при его использовании.

Если вы анализировали A/B-тест, где вас интересовал прирост или падение какой-то метрики, то наверняка использовали критерий Манна-Уитни. Я хочу рассказать про подводные камни этого критерия, и почему мы в компании его не используем. А в конце вы поймёте, откуда такой холиварный заголовок) 

Читать далее
Total votes 21: ↑20 and ↓1+24
Comments18

Необычные модели Playboy, или про обнаружение выбросов в данных c помощью Scikit-learn

Reading time7 min
Views128K
Мотивированный статьей пользователя BubaVV про предсказание веса модели Playboy по ее формам и росту, автор решил углубиться if you know what I mean в эту будоражащую кровь тему исследования и в тех же данных найти выбросы, то есть особо сисястые модели, выделяющиеся на фоне других своими формами, ростом или весом. А на фоне этой разминки чувства юмора заодно немного рассказать начинающим исследователям данных про обнаружение выбросов (outlier detection) и аномалий (anomaly detection) в данных с помощью реализации одноклассовой машины опорных векторов (One-class Support Vector Machine) в библиотеке Scikit-learn, написанной на языке Python.
Читать дальше →
Total votes 84: ↑77 and ↓7+70
Comments36

Реализуем алгоритм поиска в глубину

Reading time5 min
Views98K

В этом туториале описан алгоритм поиска в глубину (depth first search, DFS) с псевдокодом и примерами. Кроме того, расписаны способы реализации поиска в глубину в C, Java, Python и C++.

“Поиск в глубину” или “обход в глубину” — это рекурсивный алгоритм по поиску всех вершин графа или дерева. Обход подразумевает под собой посещение всех вершин графа.

Читать далее
Total votes 15: ↑8 and ↓7+1
Comments3

Z-test

Level of difficultyEasy
Reading time5 min
Views11K

Привет, Хабр!

Z-тест, известный также как z-критерий Фишера, представляет собой набор статистических методов для проверки гипотез, которые базируются на предположении о нормальном распределении данных. Эти методы используются для анализа, являются ли средние значения двух наборов данных одинаковыми, при условии, что дисперсия генеральной совокупности известна. Еще они применяются для анализа стандартизированных выборочных средних. Расчёт Z-статистики производится путём деления разности между анализируемой случайной величиной и её математическим ожиданием на стандартную ошибку этой величины.

В этой статье рассмотрим, что такое Z-тест, чем он полезен и сравним его с t-тестом.

Читать далее
Total votes 11: ↑10 and ↓1+13
Comments1

DVC — прекрасный инструмент для DataScience

Level of difficultyMedium
Reading time9 min
Views12K

Привет Хабр, меня зовут Дмитрий Несмеянов, я являюсь руководителем направления разработки ML-инфраструктуры "ЛОКО-банка".

Сегодня я хочу рассказать про DVC: инструмент, который многие, незаслуженно, обходят стороной. Была хорошая статья от Райффайзен Банк, в этой статье я постараюсь резюмировать мою и коллег экспертизу в работе с DVC.

DVC (Data Version Control) - это система версионирования датасетов и не только, которая является надстройкой над git. Если вы умеете работать с git, поздравляю, вы умеете работать с DVC. Кроме того, DVC позволяет логировать эксперименты, а также делать Auto-ML.

Читать далее
Total votes 7: ↑7 and ↓0+7
Comments4

A/B тесты, принцип дефицита и летящие цены: как график цен влияет на поведение пользователей

Reading time7 min
Views3.2K

График цен на маркетплейсе — напоминает биржевые сводки: если хочешь купить выгодно, мониторишь цену и ждешь подходящего момента. За этим сравнением стоит широко известное в психологии маркетинга когнитивное искажение.

В этом посте расскажем, как благодаря подсказкам пользователей мы изменили дизайн графика цен, при чем здесь психология и как редизайн повлиял на пользователей. А также попытаемся ответить на вопрос, действительно ли график цен так важен для маркетплейса.

Читать далее
Total votes 8: ↑7 and ↓1+8
Comments10

Встречи 1 on 1, они же синки: почему это важно для любой команды

Reading time10 min
Views11K

Хабр, привет! Меня зовут Никита Бакунин, я руководитель группы маркетинговых и продуктовых алгоритмов в СберМегаМаркет. В этом посте я расскажу, почему полюбил именно синки, как провожу их с командой и какой будет результат, если регулярно выделять для них время.

Читать далее
Total votes 10: ↑7 and ↓3+5
Comments14

Индуктивная статистика: доверительные интервалы, предельные ошибки, размер выборки и проверка гипотез

Level of difficultyMedium
Reading time15 min
Views12K

Одной из самых распространённых задач аналитики является формирование суждений о большой совокупности (например, о миллионах пользователей приложения), опираясь на данные лишь небольшой части этой совокупности - выборке. Можно ли сделать вывод о миллионной аудитории крупного мобильного приложения, собрав данные 100 пользователей? Или стоит собрать данные о 1000 пользователях? Какую вероятность ошибиться при анализе мы можем допустить: 5% или 1%? Относятся ли две выборки к одной совокупности, или между ними есть ощутимая значимая разница и они относятся к разным совокупностям? Точность прогноза и вероятность ошибки при ответе на эти и другие вопросы поддаются вполне конкретным расчётам и могут корректироваться в зависимости от потребностей продукта и бизнеса на этапе планирования и подготовки эксперимента. Рассмотрим подробнее, как параметры эксперимента и статистические критерии оказывают влияние на результаты анализа и выводы обо всей совокупности, а для этого смоделируем тысячу A/A, A/B и A/B/C/D тестов.

Читать далее
Total votes 22: ↑22 and ↓0+25
Comments13

50 оттенков линейной регрессии, или почему всё, что вы знаете об A/B тестах, помещается в одно уравнение

Reading time18 min
Views19K

Всем привет! A/B тестирование уже давно стало стандартом в проверке гипотез и улучшении продуктов в X5. Но, как ни странно, многие из «модных» техник, которые применяются в A/B тестировании, на самом деле, не что иное, как вариации старой доброй линейной регрессии. 

Основная идея здесь проста: правильное добавление новых переменных в модель помогает лучше контролировать внешние факторы и уменьшать шум в данных. Это позволяет точнее оценить эффект от воздействия и объединить разные статистические подходы, которые обычно рассматриваются отдельно. Но почему это работает? Почему всё сводится к тому, что добавление переменных помогает объединить, казалось бы, разрозненные техники? 

Чтобы разобраться в этом, для начала вспомним основы линейной регрессии, после чего перейдём к различным статистическим методам снижения дисперсии и покажем, как они сводятся к линейной регрессии. Затем объединим все техники вместе и на примере покажем, как они работают на практике.

Читать далее
Total votes 20: ↑20 and ↓0+27
Comments10

Математика опционов или модель Блэка-Шоулза

Reading time7 min
Views29K

Всеобщий интерес к модели Блэка-Шоулза (далее - БШ) вызван тем, что в свое время ее авторы произвели революцию сфере оценки справедливой стоимости опционов и иных производных финансовых инструментов. В дальнейшем они получили Нобелевскую премию за свои открытия, а выведенная ими аналитическая формула, стала пожалуй, самой фундаментальной и известной в мире финансов.

Не меньший интерес модель БШ вызывает с точки зрения низкоуровневого математического и теоретико-вероятностного анализа. В статье подробно рассмотрен процесс обоснования опорных и ключевых принципов модели БШ, а также выводится аналитическая формула, которая используется для оценки справедливой стоимости опционов.

Читать далее
Total votes 9: ↑7 and ↓2+11
Comments7

Лемма Ито

Reading time6 min
Views17K

Лемма Ито играет ключевую роль в теории случайных процессов и находит свое приложение в моделях оценки справедливой стоимости финансовых инструментов. Так как стоимость любой производной ценной бумаги является функцией, зависящей в том числе от стохастических факторов, исследование и описание свойств таких функций имеет важное значение.

Читать далее
Total votes 19: ↑19 and ↓0+19
Comments4

Программирование — это вообще не просто!⠀

Reading time19 min
Views48K


Привет, Хабр!


Идея статьи появилась, когда я начал повсюду замечать якобы подтверждения мифа, что «программирование — это просто»‬‬.


В новостях «восьмилетняя девочка, которая второй раз в жизни занимается программированием, наклепала чат-бота за 45 минут»‬ (ага, да!).


Курсы предлагают мне за 10 месяцев с нуля стать миддл+ (ага, да!).


Но я-то знаю, как оно на самом деле. Мы, программисты, обычно решаем проблемы и двигаемся дальше, но я решил запротоколировать всё как есть, и в течение пары месяцев скрупулёзно записывал всю ту хрень, что происходила со мной и моими коллегами, чтобы показать программирование без прикрас. Поехали!


Читать дальше →
Total votes 208: ↑198 and ↓10+225
Comments113

О степенях свободы в статистике

Reading time8 min
Views229K
В одном из предыдущих постов мы обсудили, пожалуй, центральное понятие в анализе данных и проверке гипотез — p-уровень значимости. Если мы не применяем байесовский подход, то именно значение p-value мы используем для принятия решения о том, достаточно ли у нас оснований отклонить нулевую гипотезу нашего исследования, т.е. гордо заявить миру, что у нас были получены статистически значимые различия.

Однако в большинстве статистических тестов, используемых для проверки гипотез, (например, t-тест, регрессионный анализ, дисперсионный анализ) рядом с p-value всегда соседствует такой показатель как число степеней свободы, он же degrees of freedom или просто сокращенно df, о нем мы сегодня и поговорим.


Читать дальше →
Total votes 32: ↑31 and ↓1+30
Comments24

Про что могут спросить аналитика данных о статистике на интервью: 3 темы

Level of difficultyEasy
Reading time5 min
Views5.4K

Привет, Хабр!

Когда проходит собес на позицию аналитика данных, одна из важных проверок - это знания по статистике. Компании хотят убедиться, что вы понимаете статистику и умеете применять ее на практике для принятия решений на основе данных.

В статье рассмотрим кратко три темы по статистике, которые часто задают на собеседованиях.

Читать далее
Total votes 9: ↑8 and ↓1+9
Comments6

Как VWE помогает снизить дисперсию и повысить точность данных

Level of difficultyMedium
Reading time5 min
Views1.1K

Привет, Хабр!

Сегодня мы хотим рассказать о методе Variance weighted estimator (VWE), который помогает снизить дисперсию

VWE учитывает неоднородность данных, обрабатывая выбросы и систематические ошибки. Рассмотрим этот метод в этой статье.

Читать далее
Total votes 4: ↑4 and ↓0+6
Comments0

Docker для Data Scientist'a

Reading time5 min
Views12K

Часто у начинающих Data Scientists возникает вопрос, как демонстрировать работу своих моделей другим людям. Банальный пример - прикрепить ссылку на гитхаб репозиторий в отклике на вакансию или показать свое “детище” знакомым со словами “смотрите, что умею”.

Читать далее
Total votes 8: ↑6 and ↓2+5
Comments6

Как я несколько лет боролся с прокрастинацией и победил: полное практическое руководство

Reading time8 min
Views306K

Постоянно откладываешь дела на потом и не видишь в этом проблемы? Мне это знакомо. Расскажу как не повторить моих ошибок и почему пора это прекращать. Не откладывай эту статью на потом!

Начать читать
Total votes 125: ↑100 and ↓25+95
Comments174

Information

Rating
Does not participate
Registered
Activity