Pull to refresh
8
0.1
Send message

Быстрая оценка эффекта рекламы/события на ключевые показатели: Python + Causal Impact

Level of difficultyMedium
Reading time4 min
Views536

Приветствую, меня зовут Владислав Поляков, я аналитик данных в Сбербанке. Сегодня я хочу поделиться, пожалуй, самым простым и быстрым способом оценки эффекта рекламы/события на ключевые показатели. Способ заключается в использовании библиотеки pycausalimpact для Python. Документация к библиотеке.

Вводные:

Данные: Данные ЦБ РФ по ключевой ставке и объему выданных кредитов с 2013 года.

Что будем оценивать?: Как повышение ключевой ставки повлияло на объем выданных кредитов.

Как будем оценивать?: С помощью библиотеки pycausalimpact для Python

Читать далее
Total votes 7: ↑7 and ↓0+10
Comments1

Основные типы распределений вероятностей в примерах

Level of difficultyMedium
Reading time15 min
Views21K

Статистические исследования и эксперименты являются краеугольным камнем развития любой компании. Особенно это касается интернет-проектов, где учёт количества пользователей в день, времени нахождения на сайте, нажатий на целевые кнопки, покупок товаров является обычным и необходимым явлением. Любые изменения в пользовательском опыте на сайте компании (внешний вид, структура, контент) приводят к изменениям в работе пользователя и, как результат, изменения наблюдаются в собираемых данных. Важным элементом анализа изменений данных и его фундаментом является использование основных типов распределений случайных величин, от понимания которых напрямую зависит качество оценки значимости наблюдаемого изменения. Рассмотрим их подробнее на наглядных примерах.

Читать далее
Total votes 58: ↑58 and ↓0+58
Comments11

Автоматизируем создание отчетов в Word с данными из Excel на Python

Level of difficultyEasy
Reading time7 min
Views38K

До смешного простой код, который может сэкономить вам кучу времени в будущем. И как фанат автоматизации, который старается избегать любой однообразной и рутинной работы, я от таких решений просто в восторге.

Читать далее
Total votes 35: ↑33 and ↓2+33
Comments55

Пишем приложение на Python для подготовки к собеседованиям по Python

Reading time6 min
Views26K

На конец 2023 года язык программирования Python является самым популярным по индексу TIOBE. Что касается работы, то по количеству вакансий в мире язык Python занимает второе место (после JavaScript/TypeScript). Поэтому у соискателей на должность, где требуется Python, возникает потребность подготовки к собеседованиям.

В этой статье я расскажу о том, как используя Python, можно написать desktop-приложение для ОС Windows, которое поможет быстро, эффективно и абсолютно бесплатно подготовиться к собеседованиям по Python.

Читать далее
Total votes 12: ↑10 and ↓2+9
Comments15

Как уменьшить галлюцинации ChatGPT: 6 способов

Level of difficultyEasy
Reading time5 min
Views6K

Одна из главных проблем при работе с нейросетями – их склонность выдумывать недостоверные ответы. Это называется "галлюцинациями". Чтобы их избегать, нужно понимать, как составлять промты. В этой статье я расскажу о шести способах уменьшить галлюцинации. Все дело в том, как вы создаете запросы.

Галлюцинации – это явление, при котором ChatGPT генерирует контент, который не соответствует реальности. Это может произойти из-за недостаточности данных для обучения, неправильной интерпретации входных данных или из-за особенностей архитектуры модели. Это ведет к некорректным или вводящим в заблуждение результатам.

Специалисты по машинному обучению предлагают разные решения проблемы. Среди них – создание специализированных наборов данных, использование обучения с подкреплением (RLHF), использование поисковой нейросети, которая будет парсить внешнюю информацию для генеративной нейросети и др. CEO OpenAI Сэм Альтман считает, что устранить галлюцинации удастся за 1,5-2 года. Тогда будет найден баланс между креативностью и идеальной точностью ответов.

Я же исследовал вопрос с точки зрения пользовательского опыта – как улучшать ответы модели с помощью промтов. Для примеров я использовал чат MashaGPT, который дает удаленный доступ к ChatGPT.

Читать далее
Total votes 10: ↑5 and ↓5+2
Comments5

Майнд-карта успешной физической трансформации. Питание. Тренировки. Мотивация

Reading time7 min
Views11K

Это базовая база из разряда «если ты не делаешь этого, тогда я не знаю, на что ты рассчитываешь», применимая в почти любой ситуации.
Нюансы опущены. Их много и часто касаются индивидуальных особенностей каждого и, как правило, накладываются уже на эту базу.

С этой майнд-картой теперь весь твой путь у тебя перед глазами. А если застрянешь на каком-то этапе, ты будешь знать, что делать дальше.
Ниже по тексту будет описание майнд-карты, чтобы рекомендации из нее не выглядели голословными.

Успехов тебе!

Читать далее
Total votes 21: ↑16 and ↓5+20
Comments26

Оформляем красивые отчеты и приложения в Streamlit и запускаем в облака

Level of difficultyEasy
Reading time6 min
Views8.1K

Создаем красивый отчет или веб приложение на Python при помощи Streamlit и делимся им через облачный сервис с развертыванием через GIT.

Читать далее
Total votes 3: ↑3 and ↓0+3
Comments1

Data-driven рост с помощью науки о данных и машинного обучения

Level of difficultyEasy
Reading time20 min
Views2.1K

Машинное обучение меняет способы использования данных компаниями для обеспечения прибыльного роста, предоставляя возможность опередить своих конкурентов. Ведущие игроки на вашем рынке уже используют науку о данных и машинное обучение в частности для принятия более эффективных решений в области маркетинга, продаж и успешного обслуживания клиентов. Еще не поздно воспользоваться этой возможностью - технологические компании могут ускорить свой рост, приняв пять ведущих практик.

Читать далее
Total votes 4: ↑2 and ↓2+4
Comments1

Создай своего ИИ-ассистента с помощью ChatGPT и Streamlit

Level of difficultyMedium
Reading time10 min
Views35K

Автор: Дмитрий Косаревский

Привет, Хабр! 👋

Меня зовут Дима Косаревский, я инженер данных (DE), увлеченный Data Science и всем, что связано с этим направлением.
Data Science позволяет извлекать ценную информацию из огромных объемов данных при помощи статистических и вычислительных методов.

В последнее время эти ИИ, вроде ChatGPT, врываются прямо во все сферы. И вот благодаря увлечению Data Science можно использовать этих ботов, чтобы помогать людям, да ещё и пообщаться с ними на разные темы. Здорово, правда?

ChatGPT действительно впечатляет. Он не только общается на разные темы, но еще и стихи сочинять умеет.
Вот один из примеров, которые я получил недавно:

Поехали 🚀
Total votes 26: ↑24 and ↓2+27
Comments15

Регрессионный анализ в DataScience. Часть 3. Аппроксимация

Level of difficultyMedium
Reading time72 min
Views13K

В предыдущих обзорах (https://habr.com/ru/articles/690414/, https://habr.com/ru/articles/695556/) мы рассматривали линейную регрессию. Пришло время переходить к нелинейным моделями. Однако, прежде чем рассматривать полноценный нелинейный регрессионный анализ, остановимся на аппроксимации зависимостей.

Про аппроксимацию написано так много, что, кажется, и добавить уже нечего. Однако, кое-что добавить попытаемся.

При выполнении анализа данных может возникнуть потребность оперативно построить аналитическую зависимость. Подчеркиваю - речь не идет о полноценном регрессионном анализе со всеми его этапами, проверкой гипотез и т.д., а только лишь о подборе уравнения и оценке ошибки аппроксимации. Например, мы хотим оценить характер зависимости между какими-либо показателями в датасете и принять решение о целесообразности более глубокого исследования. Подобный инструмент предоставляет нам тот же Excel - все мы помним, как добавить линию тренда на точечном графике:

Читать далее
Total votes 14: ↑14 and ↓0+14
Comments17

Titanic Survivors Data Research

Level of difficultyMedium
Reading time17 min
Views8.6K

15 апреля 1912 года произошло крушение парохода «Титаник», став одной из самых значимых катастроф в истории человечества. В данной статье исследованы данные пассажиров Титаника, сделаны и проверены предположения о влиянии определённых факторов на вероятность человека выжить в той катастрофе. Анализ данных сопровождается примерами кода на Python, с использованием пакета Pandas. Построена и обучена модель нейронной сети, предсказывающая вероятность человека выжить в катастрофе с точностью 0.78 на тестовых данных. Модель построена на базе фреймворка pyTorch.

Читать далее
Total votes 9: ↑8 and ↓1+10
Comments6

Всё, что вам нужно — это внимание (часть 1)

Level of difficultyHard
Reading time14 min
Views23K
Источник

Примечание переводчика: Недавно на Хабре мы рассказывали о статьях, которые нужно прочитать, если вы хотите заниматься искусственным интеллектом. Среди них была культовая статья Attention is all you need, выпущенная в 2017 году. С неё началось развитие больших языковых моделей, в том числе всем известного чат-бота ChatGPT. Оказалось, что у такой важной статьи нет перевода на русский язык. Мы решили исправить это. Ниже вы найдёте перевод первой части статьи, вторая часть доступна по ссылке.

Краткое содержание


Наиболее распространённые модели преобразования последовательностей основаны на сложных рекуррентных или свёрточных нейронных сетях, которые включают энкодер и декодер. В самых успешных моделях энкодер и декодер соединяются с помощью механизма внимания. В статье авторы предлагают новую простую архитектуру нейронных сетей — Трансформер. Он основан исключительно на механизмах внимания, без рекуррентности или свёрток. Эксперименты на двух задачах машинного перевода показали лучшее качество, а также больше возможностей к распараллеливанию и меньшие временные затраты на обучение. Модель достигает 28.4 по метрике BLEU на задаче перевода с английского на немецкий на данных WMT 2014, что превосходит предыдущий лучший результат на 2 пункта. На задаче перевода с английского на французский на данных WMT 2014 модель достигла наилучшего результата для решения, основанного на одной модели — 41.8 по метрике BLEU — после всего 3.5 дней обучения на 8 GPU, что составляет совсем небольшую часть тех вычислительных мощностей, которые были затрачены на обучение лучшей модели, известной из имеющихся публикаций. Авторы показывают, что Трансформер может также успешно применяться и в других задачах, таких как, например, синтаксический разбор предложений на английском языке с использованием как больших, так и весьма ограниченных наборов данных для обучения.
Читать дальше →
Total votes 41: ↑40 and ↓1+59
Comments5

Стохастический язык программирования на основе алгоритмов Маркова

Reading time13 min
Views26K

MarkovJunior — это вероятностный язык программирования, в котором программы являются сочетаниями правил перезаписи, а инференс выполняется при помощи распространения ограничений. MarkovJunior назван в честь математика Андрея Андреевича Маркова, придумавшего и исследовавшего то, что сейчас называется алгоритмами Маркова.
Читать дальше →
Total votes 139: ↑139 and ↓0+139
Comments24

4 анти-паттерна pandas и способы борьбы с ними

Reading time12 min
Views21K

Pandas — это мощная библиотека для анализа данных, API которой обладает широкими функциональными возможностями. Этот API позволяет решить любую задачу, связанную с обработкой данных, несколькими способами. Некоторые из подходов к решению задач лучше других. Часто бывает так, что пользователи pandas узнают о подходах, не отличающихся особой эффективностью, привыкают к ним и постоянно их применяют. Этот материал посвящён разбору четырёх анти-паттернов pandas и рассказу о приёмах работы, которые стоит использовать вместо них.

Автор черпал вдохновение из многих источников, ссылки на которые даны в статье. В частности — из замечательной книги Effective Pandas.

Читать далее
Total votes 20: ↑19 and ↓1+26
Comments15

6 заблуждений о похудении

Level of difficultyEasy
Reading time8 min
Views8.5K

Попробую внести ясность в этот вопрос.

Бывает, читая статью про похудение, не так интересна статья, как комментарии к ней, где каждый отчасти соглашаясь с автором «да это же очевидно, чтобы похудеть, нужно меньше есть», добавляет что-то со своей колокольни «но как можно худеть, если плохие гормоны/замедленный метаболизм/тяга на сладкое/» и т.д.

Я тренирую онлайн и один из частых запросов подопечных — это снижение веса. Я не диетолог, и не составляю рацион для людей с заболеваниями ЖКТ и прочее. Я не нутрициолог, и не составляю рационы по микроэлементам, чтобы восполнить дефициты веществ etc. Я — тренер и мотивирую (заставляю) подопечных тренироваться под моим контролем до тех пор, пока это не войдет в устойчивую привычку, а чтобы тренинг не сопровождался упадком сил, травмами, недовосстановлением, помогаю корректировать питание. Да и яркие результаты в тренировках возможны только при правильно подобранном рационе. Когда все эти условия выполняются, мой подопечный неизбежно худеет, даже тогда, когда такой задачи не ставилось.

Так что накопившийся опыт позволяет порассуждать в этом направлении и разобрать частые заблуждения относительно процесса снижения веса, которые очередной раз встретились в комментариях.

Читать далее
Total votes 23: ↑14 and ↓9+11
Comments22

Пишем нейросеть для сегментации снимков со спутника

Level of difficultyEasy
Reading time16 min
Views7K

Прочитав несколько известных статей по сегментации спутниковых снимков земли, я решил попробовать создать и обучить свою модель нейросети для этой задачи. И конечно, в процессе возникало много вопросов, своими ответами на которые я решил поделиться в рамках этого туториала. Поделиться так подробно и просто, как это было бы понятно таким новичкам, как я.

Читать далее
Total votes 4: ↑4 and ↓0+4
Comments0

Автоматизируй это: как мы упрощаем создание проектной документации в нефтянке (часть 2)

Level of difficultyMedium
Reading time9 min
Views3.8K

В первой части мы рассказывали, как нефтяные компании создают проектно-технические документы (ПТД) на разработку месторождений, насколько это большая, трудоемкая и очень рутинная работа. Причем, помноженная на десятки выполняемых проектных документов в год. Умножим это количество документов на несколько разных сценариев, которые по закону мы должны рассматривать в каждом проекте, и получим просто колоссальный объем работ.

Читать далее
Total votes 9: ↑9 and ↓0+9
Comments4

ML-задача на 30 минут: гадаем по cookie

Reading time5 min
Views19K

«Я тебя по IP вычислю!» – помните такую угрозу из интернета времен нулевых годов? Мы в Big Data МТС решили выяснить, можно ли составить хотя бы приблизительное представление о человеке, обладая информацией о сайтах, которые он посещает. Мы сгенерировали полусинтетические данные, чтобы понять, насколько смелыми можно быть в этих ваших интернетах.

Приглашаем вас попробовать составить портрет пользователя на основе этих данных и посмотреть, насколько точным он получится. Также под катом вы найдете наш baseline решения, написание которого займет около получаса.

Читать далее
Total votes 33: ↑33 and ↓0+33
Comments14

React+Django как написать Hello World

Reading time26 min
Views41K

Создание веб приложения на основе React и Django, с базой данных на postgress, небольшое прощупывание RabbitMQ и чуть-чуть nginx, потом объясню зачем. Ах да! Завернём все в контейнеры и заставим подниматься в три команды!

Читать далее
Total votes 14: ↑12 and ↓2+13
Comments15

SD – это Linux, а Midjourney – Mac: краткое полное руководство по Stable Diffusion

Reading time13 min
Views78K
Вот таких тирекс-тянок выдает нейросеть

Текст про Midjourney привлек внимание, и в комментариях наметилась дискуссия про Stable Diffusion. Аргументы убедили меня попробовать SD самостоятельно, но вскоре я понял, что это не самая простая задача. Сообщество любителей Stable Diffusion произвело на свет множество удобных инструментов, которые своим количеством и сложностью могут отпугнуть новичков.

Всю неделю, что я экспериментировал с нейросетью, я боролся с желанием SD добавлять вторичные гендерные признаки по моим запросам и грустил, смотря на результаты генерации котиков. О своих страданиях частично писал в личном Telegram-канале — подписывайтесь! В этом же тексте — собрал основные советы по работе со Stable Diffusion и подвел итог, сравнив эту нейросеть с Midjourney.
Читать дальше →
Total votes 84: ↑83 and ↓1+104
Comments53
1

Information

Rating
2,715-th
Registered
Activity