Как стать автором
Обновить
20
0
Наиль Шарипов @nrsharip

Аналитик (Data, Web, Product, BI)

Отправить сообщение

Анализ новостей с помощью сегментации и кластеризации временных рядов

Время на прочтение10 мин
Количество просмотров5.7K

В Отусе я прошла курс ML Advanced и открыла для себя интересные темы, связанные с анализом временных рядов, а именно, их сегментацию и кластеризацию. Я решила позаимствовать полученные знания для своей дипломной университетской работы по ивент-анализу социальных явлений и событий и описать часть этого исследования в данной статье.

Шаг 1. Сбор данных

В качестве источника данных я взяла информационно-новостной ресурс Лента.ру, так как с него легко парсить данные, новости разнообразны и пополняются в большом объеме ежедневно. Для теста я спарсила новости за последний год (март 2023 – март 2024) с помощью питоновских BeautifulSoup и requests.

В коде происходит процедура сбора заголовка, даты и тематики новостей:

Читать далее
Всего голосов 18: ↑16 и ↓2+20
Комментарии9

Зачем компаниям ML? Разбираемся на примере Netflix

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров7.3K

Привет, Хабр! Я Ефим, MLOps-инженер в отделе Data- и ML-продуктов Selectel. В последнее время, куда ни глянешь, только и разговоров, что про ML. Но всегда хочется увидеть результаты работы на практике. Если с IT-гигантами все понятно, то зачем ML, скажем, компаниям из индустрии развлечений? В статье попробуем разобраться с этим (насколько позволят открытые источники) на примере Netflix.
Читать дальше →
Всего голосов 39: ↑37 и ↓2+52
Комментарии2

Использование маппера UNROM при разработке игр для Dendy на языке Си

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров4.2K

Приветствую всех любителей программирования всяческих ретро-железок. Могу предположить, что у большинства из читателей этой статьи была в детстве Dendy (а может и сейчас есть) или другой клон Famicom (клонов NES в СНГ я не встречал). Сегодня предлагаю обсудить особенности разработки игр для приставок Dendy, NES и Famicom с маппером (mapper) UNROM. Те из вас, кто хоть немного углублялся в особенности архитектуры игр для 8-битных приставок, наверняка слышал про мапперы. Это электронная схема, которая находится на плате картриджа и расширяет возможности консоли, подключаясь напрямую к шинам процессора.

Мапперов для Dendy существует сотни, так как очень часто компании, разрабатывающие игры, делали уникальные мапперы под свои нужды. Поэтому сегодня они есть на любой вкус и цвет. Самые простые мапперы позволяют переключать банки памяти (это было обычным делом для всех компьютеров 1980-х), а самые продвинутые (например, MMC5) уже позволяли использовать дополнительные аппаратные прерывания, улучшенный звук, прокрутку по двум осям и т. д.

Читать далее
Всего голосов 34: ↑34 и ↓0+53
Комментарии2

CADE — интересный способ поиска аномалий в многомерных данных

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров1.7K

CADE () - метод для приближения плотности вероятности, который можно эффективно использовать для поиска аномалий в данных. В этой статье я расскажу про этот метод, а также предоставлю пример реализации CADE на Python.

Читать далее
Всего голосов 2: ↑2 и ↓0+2
Комментарии1

Компромисс смещения и дисперсии в машинном обучении

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров4.9K

Привет Хабр! В этой статье мы рассмотрим такое понятие в машинном обучении, как компромисс смещения и дисперсии (bias-variance Tradeoff). Так как понимание того, что можно изменить в процессе обучения нашего алгоритма обучения, приведет нас к созданию более точных моделей.

Читать далее
Всего голосов 6: ↑5 и ↓1+5
Комментарии4

Что нужно знать, чтобы успешно пройти System Design Interview

Время на прочтение16 мин
Количество просмотров35K

Для любого разработчика глубокое понимание основных принципов системного проектирования является необходимым условием для создания стабильных и масштабируемых программных систем, способных обеспечивать высокую производительность. Системное проектирование (System Design) включает разработку архитектуры и структуры программной системы, направленную на удовлетворение специфических требований и обеспечение требуемых показателей производительности.

С учетом стремительного прогресса в области технологий и возрастающей сложности программных приложений, овладение принципами системного проектирования становится критически важным для разработчиков, стремящихся создавать эффективные системы. Не имеет значения новичок вы или опытный специалист: освоение этих принципов позволит вам разрабатывать надежные и масштабируемые программные системы, отвечающие требованиям современных приложений.

Далее мы рассмотрим каждый из принципов более детально, чтобы понять их суть и способы применения в разработке приложений.

Читать далее
Всего голосов 49: ↑47 и ↓2+56
Комментарии26

Умная нормализация данных

Время на прочтение8 мин
Количество просмотров99K

Эта статья появилась по нескольким причинам.


Во-первых, в подавляющем большинстве книг, интернет-ресурсов и уроков по Data Science нюансы, изъяны разных типов нормализации данных и их причины либо не рассматриваются вообще, либо упоминаются лишь мельком и без раскрытия сути.


Во-вторых, имеет место «слепое» использование, например, стандартизации для наборов с большим количеством признаков — “чтобы для всех одинаково”. Особенно у новичков (сам был таким же). На первый взгляд ничего страшного. Но при детальном рассмотрении может выясниться, что какие-то признаки были неосознанно поставлены в привилегированное положение и стали влиять на результат значительно сильнее, чем должны.


И, в-третьих, мне всегда хотелось получить универсальный метод учитывающий проблемные места.


Читать дальше →
Всего голосов 19: ↑19 и ↓0+19
Комментарии3

Продуктовый подход на минималках

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров1.6K

Всем добрый день!

Меня зовут Иван Хахарев и я работаю ведущим системным аналитиком в команде WEB Campaign, это внутренняя разработка Спортмастера для формирования маркетинговых логических цепочек. Я в команде уже полгода, и на момент моего прихода ребята уже почти год двигались к веб-версии. В команде на текущий момент семь человек, трое из которых — разработчики. 

Прежде чем мы поговорим про новую команду, хочу рассказать небольшую предысторию. Ранее, я почти пять лет, я работал в другом продукте, в рамках которого мы прошли полный процесс трансформации этап перехода на  по методологии по Agile и DevOps. Ниже представлены все  список мероприятий, которые мы смогли внедрить за два с половиной года. (слайд 2.24) 

Читать далее
Всего голосов 7: ↑6 и ↓1+11
Комментарии2

Разработка программного средства по обработке данных фонокардиограммы

Уровень сложностиСложный
Время на прочтение41 мин
Количество просмотров1.9K

Медицинские исследования играют важную роль в понимании различных заболеваний и разработке эффективных методов лечения. Одним из инструментов, используемых в кардиологии, является фонокардиограмма (ФКГ).

Фонокардиограмма - это метод диагностики сердечно-сосудистой системы, который основывается на записи звуков, производимых сердцем. Она может быть полезной в определении различных заболеваний сердца, таких как стеноз клапана, митральный стеноз, митральную недостаточность, перикардит и другие.

ФКГ может использоваться для оценки эффективности лечения сердечных заболеваний и для наблюдения за состоянием сердца в течение времени. Если у вас есть симптомы, такие как боль в груди, одышка, учащенный пульс, упадок сил, обратитесь к кардиологу, который посоветует, нужна ли вам ФКГ [1].

Объектом исследования выпускной квалификационной работы является список файлов формата .csv, содержащих разделенные знаком ";" смещенные целочисленные значения амплитуды шумов сердца, записанные в течение нескольких секунд, частота дискретизации – 1000 гц (числа в записи обозначают амплитуду сигнала, временной промежуток между соседними значениями - 1 миллисекунда).

Цель работы состоит в создании алгоритма автоматической интерпретации снятых данных, который пытается по форме кривых делать выводы, аналогичные тем, которые по этим же кривым умеет делать эксперт и создание собственного алгоритма. Необходимо определить и выделить точку максимальной амплитуды, начало и окончание тона 1 для каждого из сердечных циклов. Ответ необходимо вывести в виде списка списков [t1, t2, t3], где t1 – начало тона 1, t2 – точка максимальной амплитуды, t3 – окончание тона 1. Также, для проверки результата, необходимо визуализировать полученный результат на графике. Данную процедуру необходимо произвести для каждого файла.

Ссылка на github: medical_date/script.py at main · ReshetnikovDmitrii4918/medical_date (github.com)

Читать далее
Всего голосов 11: ↑11 и ↓0+13
Комментарии14

Автоматически выделяем кусочно-линейные тренды временного ряда

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров5K

Меня зовут Антон Сорока, я математик и аналитик данных.

Я хотел бы рассказать об алгоритме, который выделяет кусочно-линейный тренд из временного ряда и сам определяет точки изменения тренда. Другими словами, это алгоритм для автоматического кусочно-линейного приближения любой функции. Это может понадобиться, если вам важно анализировать линейные тренды ряда, но единственная линия явно недостаточно точно описывает ряд, и самостоятельно искать точки, где тренд менялся, неудобно. Реализация этого алгоритма есть в open-source библиотеке для анализа изменений временных рядов, написанной на Python.

Читать далее
Всего голосов 8: ↑8 и ↓0+9
Комментарии9

Оценочные шкалы в UX-исследованиях

Время на прочтение9 мин
Количество просмотров1.1K

UX-исследования играют ключевую роль в процессе разработки и улучшения продуктов, позволяя создателям понять потребности, предпочтения и проблемы их пользователей. Эти исследования помогают обеспечить высокое качество взаимодействия пользователей с продуктом, что, в свою очередь, способствует повышению удовлетворенности клиентов, лояльности и, как следствие, увеличению прибыли компании.

Один из наиболее эффективных инструментов для измерения и анализа UX являются оценочные шкалы. Эти шкалы позволяют исследователям количественно оценить отношения пользователей к различным аспектам продукта или услуги. Наиболее распространенными являются шкалы Лайкерта, семантический дифференциал и шкалы удовлетворенности, которые используются для оценки таких параметров, как удовлетворенность, восприятие удобства использования, эмоциональное восприятие и многие другие.

Использование оценочных шкал в UX-исследованиях обеспечивает ряд преимуществ. Они позволяют собирать стандартизированные данные, которые можно легко анализировать и сравнивать. Эти шкалы также облегчают участие в исследовании для пользователей, так как предоставляют им четко структурированный способ выражения своих мнений и впечатлений. Кроме того, применение оценочных шкал способствует получению более объективных и надежных результатов, что является ключом к успешному принятию решений в процессе разработки продукта.

Читать далее
Всего голосов 11: ↑10 и ↓1+9
Комментарии0

Анализ временных рядов

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров43K

Привет! В последние годы аналитика данных переживает настоящий бум. Все большее количество компаний принимают решение сбора, хранения и анализа данных, чтобы повысить эффективность своих бизнес-процессов и принимать решения на основе фактов.

Одним из наиболее важных инструментов в аналитике данных является анализ временных рядов. Временной ряд - это последовательность наблюдений за определенным параметром в разные моменты времени. Таким образом, временной ряд содержит информацию о том, как изменяется параметр со временем.

Читать далее
Всего голосов 16: ↑11 и ↓5+8
Комментарии11

Территория Большого Взрыва. Как устроена Вселенная и что с ней не так?

Уровень сложностиПростой
Время на прочтение15 мин
Количество просмотров48K

Привет, Хабр!

Рад поделиться с уважаемым сообществом своей любовью к популярной науке, в первую очередь, к космологии. Эта статья открывает небольшую серию, основанную на моём курсе лекций, который я читаю школьникам в летней школе Химера.
И который до сих пор был кипой листов А4, исписанных от руки буквально в лесу под деревом.

В ней предлагаю в общих чертах обсудить устройство Вселенной, её размеры, форму и состав, и сформулировать давно известную проблему, которая мне кажется самой интригующей в космологии, да и в физике она не на последнем месте.

Читать далее
Всего голосов 119: ↑115 и ↓4+145
Комментарии149

Контрольный выстрел: о роли a/a тестов в a/b тестировании

Время на прочтение8 мин
Количество просмотров8K


Сегодня внезапно будет совсем не про презентации. Дело в том, что в прошлом я немного занимался a/b тестированием и вчера, в очередной раз попав на статью, где написано, что перед началом экспериментов нужно провести a/a тест (то есть такой, где контрольная группа видит ту же версию сайта, что и экспериментальная), я решил, что могу и должен добавить в этот вопрос свои две копейки. Получается непрофильно для моего блога, но один раз можно, наверное. Иначе меня разорвёт, да.

Одни из самых дорогостоящих ошибок a/b тестирования в смысле потерянных человеческих жизней были допущены при поисках лекарства от цинги. Уже после того, как вроде бы выяснилось, что лимоны от неё помогают, эксперимент был перепроведён, и там, уже в клинических условиях, больных лечили концентратом лимонного сока. А как в восемнадцатом веке получали концентрат? Конечно, длительным кипячением. Ну, вы поняли: клиническая проверка ранее полученные результаты не подтвердила. А нужно-то было всего лишь лечиться, как на фотографии к посту. Можно надеяться, что от ошибок в вашей системе a/b тестирования человеческие жизни напрямую не зависят, но нельзя считать, что ошибок в ней нет. И вот какова связь некоторых из них с a/a тестами.
Читать дальше →
Всего голосов 8: ↑8 и ↓0+8
Комментарии0

Как оценить качество системы A/B-тестирования

Время на прочтение11 мин
Количество просмотров26K


Вот уже более полугода в компании используется единая система для проведения A/B-экспериментов. Одной из самых важных частей этой системы является процедура проверки качества, которая помогает нам понять, насколько мы можем доверять результатам A/B-тестов. В этой статье мы подробно опишем принцип работы процедуры проверки качества в расчете на тех читателей, которые захотят проверить свою систему A/B-тестирования. Поэтому в статье много технических деталей.
Читать дальше →
Всего голосов 33: ↑32 и ↓1+31
Комментарии6

Критерий Манна-Уитни — самый главный враг A/B-тестов

Время на прочтение17 мин
Количество просмотров35K

Всем привет! Меня зовут Дима Лунин, я аналитик в компании Авито. В этой статье я расскажу про критерий Манна-Уитни и проблемы при его использовании.

Если вы анализировали A/B-тест, где вас интересовал прирост или падение какой-то метрики, то наверняка использовали критерий Манна-Уитни. Я хочу рассказать про подводные камни этого критерия, и почему мы в компании его не используем. А в конце вы поймёте, откуда такой холиварный заголовок) 

Читать далее
Всего голосов 21: ↑20 и ↓1+24
Комментарии18

Не баг, а фича: видеоигровые баги, которые стали классикой

Время на прочтение5 мин
Количество просмотров8.2K

Даже в AAA‑играх могут быть ошибки. Чаще всего сталкиваться с багами неприятно, однако иногда они могут войти в геймплей целого жанра или вовсе стать основой целой франшизы видеоигр. Разработчикам может будет полезным что‑то позаимствовать.

В комментариях пишите о других известных багах, которые повлияли на игровой процесс в играх, особенно сделанных студиями родом из России.

В качестве бонуса в конце — небольшая подборка багов, которые превратились в мемы.

Читать далее
Всего голосов 22: ↑18 и ↓4+19
Комментарии12

Альтернатива Jira и Microsoft Project? Обзор управления проектами в российской системе «Первая Форма»

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров1.9K

Дисклеймер: моя цель — не лиды для отдела продаж. Меня зовут Алёна, уже пять лет я работаю в «Первой Форме» руководителем проектов. Хочу рассказать, как устроена та часть ПО, где я работаю ежедневно. Надеюсь, мой опыт поможет другим руководителям проектов облегчить себе жизнь в отсутствии Джиры и Проджекта. Итак, начинаем обзор. 

Читать далее
Всего голосов 8: ↑6 и ↓2+4
Комментарии11

За кем сейчас охотятся крупные работодатели в IT?

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров70K

Привет, на связи Кирилл Антонов, коммерческий директор hitch. Мы занимаемся аутстафом IT‑специалистов — выводим разработчиков (и не только) на проекты отечественных корпораций. Непрерывно следим за тем, как меняются потребности крупнейших IT‑компаний и поведение соискателей.

Раз в несколько месяцев буду публиковать «срезы» — заметки о том, кто сейчас особенно востребован на отечественном рынке (а значит, кому больше всего платят).

Читать далее
Всего голосов 38: ↑29 и ↓9+31
Комментарии78

Где продать стартап?

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров2.1K

Собрал подборку площадок с небольшим описанием и мои личным мнением по каждой площадке, где можно продать свой стартап, продукт, готовый бизнес, магазин, сайт, блог. Если у вас завалялся какой-то проект можете попытаться продать его и сделать отличный кейс для своей карьеры.

Читать далее
Всего голосов 7: ↑6 и ↓1+6
Комментарии5

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность

Специализация

Data Analyst, Product Analyst