Pull to refresh
21
0
Наиль Шарипов @nrsharip

Аналитик (Data, Web, Product, BI)

Send message

Анализ новостей с помощью сегментации и кластеризации временных рядов

Reading time10 min
Views6.2K

В Отусе я прошла курс ML Advanced и открыла для себя интересные темы, связанные с анализом временных рядов, а именно, их сегментацию и кластеризацию. Я решила позаимствовать полученные знания для своей дипломной университетской работы по ивент-анализу социальных явлений и событий и описать часть этого исследования в данной статье.

Шаг 1. Сбор данных

В качестве источника данных я взяла информационно-новостной ресурс Лента.ру, так как с него легко парсить данные, новости разнообразны и пополняются в большом объеме ежедневно. Для теста я спарсила новости за последний год (март 2023 – март 2024) с помощью питоновских BeautifulSoup и requests.

В коде происходит процедура сбора заголовка, даты и тематики новостей:

Читать далее
Total votes 18: ↑16 and ↓2+20
Comments9

Зачем компаниям ML? Разбираемся на примере Netflix

Level of difficultyEasy
Reading time10 min
Views7.4K

Привет, Хабр! Я Ефим, MLOps-инженер в отделе Data- и ML-продуктов Selectel. В последнее время, куда ни глянешь, только и разговоров, что про ML. Но всегда хочется увидеть результаты работы на практике. Если с IT-гигантами все понятно, то зачем ML, скажем, компаниям из индустрии развлечений? В статье попробуем разобраться с этим (насколько позволят открытые источники) на примере Netflix.
Читать дальше →
Total votes 39: ↑37 and ↓2+52
Comments2

Использование маппера UNROM при разработке игр для Dendy на языке Си

Level of difficultyMedium
Reading time11 min
Views4.4K

Приветствую всех любителей программирования всяческих ретро-железок. Могу предположить, что у большинства из читателей этой статьи была в детстве Dendy (а может и сейчас есть) или другой клон Famicom (клонов NES в СНГ я не встречал). Сегодня предлагаю обсудить особенности разработки игр для приставок Dendy, NES и Famicom с маппером (mapper) UNROM. Те из вас, кто хоть немного углублялся в особенности архитектуры игр для 8-битных приставок, наверняка слышал про мапперы. Это электронная схема, которая находится на плате картриджа и расширяет возможности консоли, подключаясь напрямую к шинам процессора.

Мапперов для Dendy существует сотни, так как очень часто компании, разрабатывающие игры, делали уникальные мапперы под свои нужды. Поэтому сегодня они есть на любой вкус и цвет. Самые простые мапперы позволяют переключать банки памяти (это было обычным делом для всех компьютеров 1980-х), а самые продвинутые (например, MMC5) уже позволяли использовать дополнительные аппаратные прерывания, улучшенный звук, прокрутку по двум осям и т. д.

Читать далее
Total votes 34: ↑34 and ↓0+53
Comments2

CADE — интересный способ поиска аномалий в многомерных данных

Level of difficultyEasy
Reading time8 min
Views1.8K

CADE () - метод для приближения плотности вероятности, который можно эффективно использовать для поиска аномалий в данных. В этой статье я расскажу про этот метод, а также предоставлю пример реализации CADE на Python.

Читать далее
Total votes 2: ↑2 and ↓0+2
Comments1

Компромисс смещения и дисперсии в машинном обучении

Level of difficultyMedium
Reading time10 min
Views5.6K

Привет Хабр! В этой статье мы рассмотрим такое понятие в машинном обучении, как компромисс смещения и дисперсии (bias-variance Tradeoff). Так как понимание того, что можно изменить в процессе обучения нашего алгоритма обучения, приведет нас к созданию более точных моделей.

Читать далее
Total votes 6: ↑5 and ↓1+5
Comments4

Что нужно знать, чтобы успешно пройти System Design Interview

Reading time16 min
Views39K

Для любого разработчика глубокое понимание основных принципов системного проектирования является необходимым условием для создания стабильных и масштабируемых программных систем, способных обеспечивать высокую производительность. Системное проектирование (System Design) включает разработку архитектуры и структуры программной системы, направленную на удовлетворение специфических требований и обеспечение требуемых показателей производительности.

С учетом стремительного прогресса в области технологий и возрастающей сложности программных приложений, овладение принципами системного проектирования становится критически важным для разработчиков, стремящихся создавать эффективные системы. Не имеет значения новичок вы или опытный специалист: освоение этих принципов позволит вам разрабатывать надежные и масштабируемые программные системы, отвечающие требованиям современных приложений.

Далее мы рассмотрим каждый из принципов более детально, чтобы понять их суть и способы применения в разработке приложений.

Читать далее
Total votes 49: ↑47 and ↓2+56
Comments26

Умная нормализация данных

Reading time8 min
Views102K

Эта статья появилась по нескольким причинам.


Во-первых, в подавляющем большинстве книг, интернет-ресурсов и уроков по Data Science нюансы, изъяны разных типов нормализации данных и их причины либо не рассматриваются вообще, либо упоминаются лишь мельком и без раскрытия сути.


Во-вторых, имеет место «слепое» использование, например, стандартизации для наборов с большим количеством признаков — “чтобы для всех одинаково”. Особенно у новичков (сам был таким же). На первый взгляд ничего страшного. Но при детальном рассмотрении может выясниться, что какие-то признаки были неосознанно поставлены в привилегированное положение и стали влиять на результат значительно сильнее, чем должны.


И, в-третьих, мне всегда хотелось получить универсальный метод учитывающий проблемные места.


Читать дальше →
Total votes 19: ↑19 and ↓0+19
Comments3

Продуктовый подход на минималках

Level of difficultyMedium
Reading time9 min
Views1.8K

Всем добрый день!

Меня зовут Иван Хахарев и я работаю ведущим системным аналитиком в команде WEB Campaign, это внутренняя разработка Спортмастера для формирования маркетинговых логических цепочек. Я в команде уже полгода, и на момент моего прихода ребята уже почти год двигались к веб-версии. В команде на текущий момент семь человек, трое из которых — разработчики. 

Прежде чем мы поговорим про новую команду, хочу рассказать небольшую предысторию. Ранее, я почти пять лет, я работал в другом продукте, в рамках которого мы прошли полный процесс трансформации этап перехода на  по методологии по Agile и DevOps. Ниже представлены все  список мероприятий, которые мы смогли внедрить за два с половиной года. (слайд 2.24) 

Читать далее
Total votes 7: ↑6 and ↓1+11
Comments2

Разработка программного средства по обработке данных фонокардиограммы

Level of difficultyHard
Reading time41 min
Views2.1K

Медицинские исследования играют важную роль в понимании различных заболеваний и разработке эффективных методов лечения. Одним из инструментов, используемых в кардиологии, является фонокардиограмма (ФКГ).

Фонокардиограмма - это метод диагностики сердечно-сосудистой системы, который основывается на записи звуков, производимых сердцем. Она может быть полезной в определении различных заболеваний сердца, таких как стеноз клапана, митральный стеноз, митральную недостаточность, перикардит и другие.

ФКГ может использоваться для оценки эффективности лечения сердечных заболеваний и для наблюдения за состоянием сердца в течение времени. Если у вас есть симптомы, такие как боль в груди, одышка, учащенный пульс, упадок сил, обратитесь к кардиологу, который посоветует, нужна ли вам ФКГ [1].

Объектом исследования выпускной квалификационной работы является список файлов формата .csv, содержащих разделенные знаком ";" смещенные целочисленные значения амплитуды шумов сердца, записанные в течение нескольких секунд, частота дискретизации – 1000 гц (числа в записи обозначают амплитуду сигнала, временной промежуток между соседними значениями - 1 миллисекунда).

Цель работы состоит в создании алгоритма автоматической интерпретации снятых данных, который пытается по форме кривых делать выводы, аналогичные тем, которые по этим же кривым умеет делать эксперт и создание собственного алгоритма. Необходимо определить и выделить точку максимальной амплитуды, начало и окончание тона 1 для каждого из сердечных циклов. Ответ необходимо вывести в виде списка списков [t1, t2, t3], где t1 – начало тона 1, t2 – точка максимальной амплитуды, t3 – окончание тона 1. Также, для проверки результата, необходимо визуализировать полученный результат на графике. Данную процедуру необходимо произвести для каждого файла.

Ссылка на github: medical_date/script.py at main · ReshetnikovDmitrii4918/medical_date (github.com)

Читать далее
Total votes 11: ↑11 and ↓0+13
Comments14

Автоматически выделяем кусочно-линейные тренды временного ряда

Level of difficultyMedium
Reading time7 min
Views5.4K

Меня зовут Антон Сорока, я математик и аналитик данных.

Я хотел бы рассказать об алгоритме, который выделяет кусочно-линейный тренд из временного ряда и сам определяет точки изменения тренда. Другими словами, это алгоритм для автоматического кусочно-линейного приближения любой функции. Это может понадобиться, если вам важно анализировать линейные тренды ряда, но единственная линия явно недостаточно точно описывает ряд, и самостоятельно искать точки, где тренд менялся, неудобно. Реализация этого алгоритма есть в open-source библиотеке для анализа изменений временных рядов, написанной на Python.

Читать далее
Total votes 8: ↑8 and ↓0+9
Comments9

Оценочные шкалы в UX-исследованиях

Reading time9 min
Views1.4K

UX-исследования играют ключевую роль в процессе разработки и улучшения продуктов, позволяя создателям понять потребности, предпочтения и проблемы их пользователей. Эти исследования помогают обеспечить высокое качество взаимодействия пользователей с продуктом, что, в свою очередь, способствует повышению удовлетворенности клиентов, лояльности и, как следствие, увеличению прибыли компании.

Один из наиболее эффективных инструментов для измерения и анализа UX являются оценочные шкалы. Эти шкалы позволяют исследователям количественно оценить отношения пользователей к различным аспектам продукта или услуги. Наиболее распространенными являются шкалы Лайкерта, семантический дифференциал и шкалы удовлетворенности, которые используются для оценки таких параметров, как удовлетворенность, восприятие удобства использования, эмоциональное восприятие и многие другие.

Использование оценочных шкал в UX-исследованиях обеспечивает ряд преимуществ. Они позволяют собирать стандартизированные данные, которые можно легко анализировать и сравнивать. Эти шкалы также облегчают участие в исследовании для пользователей, так как предоставляют им четко структурированный способ выражения своих мнений и впечатлений. Кроме того, применение оценочных шкал способствует получению более объективных и надежных результатов, что является ключом к успешному принятию решений в процессе разработки продукта.

Читать далее
Total votes 11: ↑10 and ↓1+9
Comments0

Анализ временных рядов

Level of difficultyEasy
Reading time8 min
Views47K

Привет! В последние годы аналитика данных переживает настоящий бум. Все большее количество компаний принимают решение сбора, хранения и анализа данных, чтобы повысить эффективность своих бизнес-процессов и принимать решения на основе фактов.

Одним из наиболее важных инструментов в аналитике данных является анализ временных рядов. Временной ряд - это последовательность наблюдений за определенным параметром в разные моменты времени. Таким образом, временной ряд содержит информацию о том, как изменяется параметр со временем.

Читать далее
Total votes 16: ↑11 and ↓5+8
Comments11

Территория Большого Взрыва. Как устроена Вселенная и что с ней не так?

Level of difficultyEasy
Reading time15 min
Views49K

Привет, Хабр!

Рад поделиться с уважаемым сообществом своей любовью к популярной науке, в первую очередь, к космологии. Эта статья открывает небольшую серию, основанную на моём курсе лекций, который я читаю школьникам в летней школе Химера.
И который до сих пор был кипой листов А4, исписанных от руки буквально в лесу под деревом.

В ней предлагаю в общих чертах обсудить устройство Вселенной, её размеры, форму и состав, и сформулировать давно известную проблему, которая мне кажется самой интригующей в космологии, да и в физике она не на последнем месте.

Читать далее
Total votes 119: ↑115 and ↓4+145
Comments149

Контрольный выстрел: о роли a/a тестов в a/b тестировании

Reading time8 min
Views8.2K


Сегодня внезапно будет совсем не про презентации. Дело в том, что в прошлом я немного занимался a/b тестированием и вчера, в очередной раз попав на статью, где написано, что перед началом экспериментов нужно провести a/a тест (то есть такой, где контрольная группа видит ту же версию сайта, что и экспериментальная), я решил, что могу и должен добавить в этот вопрос свои две копейки. Получается непрофильно для моего блога, но один раз можно, наверное. Иначе меня разорвёт, да.

Одни из самых дорогостоящих ошибок a/b тестирования в смысле потерянных человеческих жизней были допущены при поисках лекарства от цинги. Уже после того, как вроде бы выяснилось, что лимоны от неё помогают, эксперимент был перепроведён, и там, уже в клинических условиях, больных лечили концентратом лимонного сока. А как в восемнадцатом веке получали концентрат? Конечно, длительным кипячением. Ну, вы поняли: клиническая проверка ранее полученные результаты не подтвердила. А нужно-то было всего лишь лечиться, как на фотографии к посту. Можно надеяться, что от ошибок в вашей системе a/b тестирования человеческие жизни напрямую не зависят, но нельзя считать, что ошибок в ней нет. И вот какова связь некоторых из них с a/a тестами.
Читать дальше →
Total votes 8: ↑8 and ↓0+8
Comments0

Как оценить качество системы A/B-тестирования

Reading time11 min
Views27K


Вот уже более полугода в компании используется единая система для проведения A/B-экспериментов. Одной из самых важных частей этой системы является процедура проверки качества, которая помогает нам понять, насколько мы можем доверять результатам A/B-тестов. В этой статье мы подробно опишем принцип работы процедуры проверки качества в расчете на тех читателей, которые захотят проверить свою систему A/B-тестирования. Поэтому в статье много технических деталей.
Читать дальше →
Total votes 33: ↑32 and ↓1+31
Comments6

Критерий Манна-Уитни — самый главный враг A/B-тестов

Reading time17 min
Views37K

Всем привет! Меня зовут Дима Лунин, я аналитик в компании Авито. В этой статье я расскажу про критерий Манна-Уитни и проблемы при его использовании.

Если вы анализировали A/B-тест, где вас интересовал прирост или падение какой-то метрики, то наверняка использовали критерий Манна-Уитни. Я хочу рассказать про подводные камни этого критерия, и почему мы в компании его не используем. А в конце вы поймёте, откуда такой холиварный заголовок) 

Читать далее
Total votes 21: ↑20 and ↓1+24
Comments18

Не баг, а фича: видеоигровые баги, которые стали классикой

Reading time5 min
Views8.4K

Даже в AAA‑играх могут быть ошибки. Чаще всего сталкиваться с багами неприятно, однако иногда они могут войти в геймплей целого жанра или вовсе стать основой целой франшизы видеоигр. Разработчикам может будет полезным что‑то позаимствовать.

В комментариях пишите о других известных багах, которые повлияли на игровой процесс в играх, особенно сделанных студиями родом из России.

В качестве бонуса в конце — небольшая подборка багов, которые превратились в мемы.

Читать далее
Total votes 22: ↑18 and ↓4+19
Comments12

Альтернатива Jira и Microsoft Project? Обзор управления проектами в российской системе «Первая Форма»

Level of difficultyEasy
Reading time4 min
Views2K

Дисклеймер: моя цель — не лиды для отдела продаж. Меня зовут Алёна, уже пять лет я работаю в «Первой Форме» руководителем проектов. Хочу рассказать, как устроена та часть ПО, где я работаю ежедневно. Надеюсь, мой опыт поможет другим руководителям проектов облегчить себе жизнь в отсутствии Джиры и Проджекта. Итак, начинаем обзор. 

Читать далее
Total votes 8: ↑6 and ↓2+4
Comments11

За кем сейчас охотятся крупные работодатели в IT?

Level of difficultyEasy
Reading time3 min
Views70K

Привет, на связи Кирилл Антонов, коммерческий директор hitch. Мы занимаемся аутстафом IT‑специалистов — выводим разработчиков (и не только) на проекты отечественных корпораций. Непрерывно следим за тем, как меняются потребности крупнейших IT‑компаний и поведение соискателей.

Раз в несколько месяцев буду публиковать «срезы» — заметки о том, кто сейчас особенно востребован на отечественном рынке (а значит, кому больше всего платят).

Читать далее
Total votes 38: ↑29 and ↓9+31
Comments78

Где продать стартап?

Level of difficultyEasy
Reading time3 min
Views2.3K

Собрал подборку площадок с небольшим описанием и мои личным мнением по каждой площадке, где можно продать свой стартап, продукт, готовый бизнес, магазин, сайт, блог. Если у вас завалялся какой-то проект можете попытаться продать его и сделать отличный кейс для своей карьеры.

Читать далее
Total votes 7: ↑6 and ↓1+6
Comments5

Information

Rating
Does not participate
Registered
Activity

Specialization

Data Analyst, Product Analyst