Обновить
813.5

Python *

Высокоуровневый язык программирования

Сначала показывать
Порог рейтинга
Уровень сложности

DataScience Digest — 05.08.21

Время на прочтение2 мин
Охват и читатели2.1K

Приветствую всех!

Встречайте свежий выпуск дайджеста полезных материалов из мира Data Science & Machine Learning подготовленный командой Data Phoenix и не забывайте подписываться на наш Telegram-канал.

Также хочу пригласить всех 17 августа на свой вебинар "The A-Z of Data: Introduction to MLOps". В его рамках мы рассмотрим, что такое MLOps, основные принципы и практики, лучшие инструменты и возможные архитектуры. Мы начнем с простого жизненного цикла разработки ML решений и закончим сложным, максимально автоматизированным, циклом, который нам позволяет реализовать MLOps. Детали и обязательная предварительная регистрация здесь.

Читать далее

Ускоряем код на Питоне с помощью расширений на Cи

Время на прочтение7 мин
Охват и читатели15K

Питон — простой, но мощный язык, который заслуженно стал одним из самых популярных. Тем не менее, иногда ему не хватает скорости статически типизированных языков с предварительной компиляцией, таких как Cи и Джава.

Если у вас есть задача выполнить трудоемкие вычисления, если нужно оптимизировать «подтормаживающее» приложение на Питоне без переписывания его на другом языке или если вы просто обожаете оптимизацию и хотите, чтобы код работал как можно быстрее, — тогда с большой вероятностью вы полюбите расширения на Си.

Расширения на Си — отличное дополнение в арсенале разработчика, будь вы фанат производительности и эффективности или любитель смешивать различные технологии и экспериментировать с чем-то новым: вы не только получаете почти «бесплатный» скачок производительности, но и расширяете функциональные возможности Питона.

Читать далее

Приглашаем компании к спонсорcтву PyCon Russia: прокачивайте HR-бренд вживую

Время на прочтение2 мин
Охват и читатели480

Если спросить опытного питониста в каких компаниях ему хотелось бы поработать, назовет ли он вашу компанию?

Знают ли о вашей компании в python-сообществе? Какое мнение сложилось о ней? Есть ли у вас интересные проекты? Умеете ли вы взаимодействовать с разработчиками?

Теперь компаниям заниматься продвижением своего HR-бренда нужно заблаговременно, чтобы сильные разработчики сами приходили к вам, когда они начнут искать работу, и чтобы название компании всплывало в мозгу в этот момент​ Этот подход работает лучше, чем впопыхах искать, когда уже горит.

Читайте, какие возможности для hr-брендинга IT-компаний есть на PyCon Russia

Читать далее

Спектральный анализ временных рядов с помощью python

Время на прочтение3 мин
Охват и читатели13K

С развитием информационных технологий профессия DS стала чрезвычайно популярна. Сейчас почти каждый может имея ПК и установленный на нем стандартный пакет Python, анализировать данные и строить на их основе прогнозы.

Во многих случаях достаточно просто скачать библиотеку для анализа данных, и получить неплохие результаты. При этом процессы, происходящие внутри используемых пользователем библиотек, остаются за пределами понимания, что зачастую влечет за собой неспособности поверхностного пользователя правильно интерпретировать полученные данные, особенно если это нейросеть.

В статье представлен пример реализации спектрального анализа функции на примере реальных данных. Этот математический метод позволяет провести более глубокий анализ изменения функции переменной во времени, найти периодические составляющие. Его применение способно существенно повлиять на результат предсказания целевой переменной, поскольку позволяет учитывать сезонные и другие периодические колебания.

Предположим, перед аналитиком стоит задача исследовать информацию о количестве людей на сайте в определенное время в определенный день, имея выборку по посещению сайта за несколько месяцев каждые 30 минут. И сделать прогноз посещения на будущий период.

Данные по посещениям представлены на графике ниже

Читать далее

Разбираемся с ChainMap из коллекций Python

Время на прочтение19 мин
Охват и читатели18K

Работая с несколькими словарями, иногда нужно сгруппировать их и управлять ими как единым словарём. В других ситуациях у вас есть словари, представляющие различные области видимости, контексты и, чтобы получить данные в определённом порядке или с определённым приоритетом, нужно работать с ними как с единым словарём.

В обоих случаях можно воспользоваться ChainMap из модуля коллекций. ChainMap группирует словари и отображает их в единое, обновляемое представление с поведением, подобным поведению словаря, а также представляет возможности для эффективного управления различными словарями, определения их ключей, свойств и не только. К старту курса о Fullstack-разработке на Python делимся статьёй о ChainMap, где вы найдёте ссылку на истоки появления класса — баг в Python и, конечно, примеры его применения на практике и в стандартной библиотеке Python.

Читать далее

Ансамблевые методы машинного обучения

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели50K

Ансамблевые методы - это мощный инструмент для построения моделей машинного обучения. Команды, которые используют их в соревнованиях на kaggle, занимают победные места. Ансамбли позволяют увеличить точность модели до 90+, при этом они довольно просты в понимании.

Поэтому я решил осветить эту тему в данной статье и показать реализацию ансамблей с помощью scikit-learn.

Читать далее

Как совместить поездку на конференцию и семейный отдых: 9 способов, которые есть на PyCon Russia

Время на прочтение2 мин
Охват и читатели1.2K

Мы (IT-People) уже 11 лет проводим конференции для разработчиков и поняли, что часть спикеров и участников всегда приезжает на конференцию в другой город с "половинкой" или семьей.
Это какой-то правильный паттерн совместить приятное с полезным: прокачаться на профессиональной тусовке + посмотреть новые места + закрыть гештальт "я мало уделяю время семье".

Вы тоже испытываете чувство удовлетворения, когда за единицу времени успеваете очень много, и эти дела были для вас приятными? Тогда читайте ниже о том, как ваши поездки на конференции могут стать ещё и отдыхом для вашей семьи.

Читать далее

Полиномиальная регрессия и метрики качества модели

Время на прочтение4 мин
Охват и читатели25K

Давайте разберемся на примере. Скажем, я хочу спрогнозировать зарплату специалиста по данным на основе количества лет опыта. Итак, моя целевая переменная (Y) — это зарплата, а независимая переменная (X) — опыт. У меня есть случайные данные по X и Y, и мы будем использовать линейную регрессию для прогнозирования заработной платы. Давайте использовать pandas и scikit-learn для загрузки данных и создания линейной модели.

Читать далее

Всё о работе с cookie в Python — класс http.cookies

Время на прочтение4 мин
Охват и читатели21K


Модуль http.cookies реализует парсер для cookie, по большей части совместимый с RFC 2109 — документом со стандартами работы с cookie и смежными вещами.

Читать дальше →

Гайд по использованию enum в Python

Время на прочтение6 мин
Охват и читатели186K


Модуль enum содержит в себе тип для перечисления значений с возможностью итерирования и сравнения. Его можно использовать для создания понятных обозначений вместо использования чисел (для которых приходится помнить, какое число что обозначает) или строк (в которых легко опечататься и не заметить).

Читать дальше →

Marshmallow vs. Pydantic: две лучшие библиотеки для сериализации и валидации данных на Python

Время на прочтение10 мин
Охват и читатели48K

Сериализация и десериализация данных — это преобразование между необработанной структурой данных и экземплярами классов для их хранения и передачи. Например, преобразование объектов Python в JSON-представление. Мы рассмотрим две популярные Python-библиотеки Marshmallow и Pydantic, которые помогут нам справиться как с преобразованием, так и с валидацией данных. Сначала я представлю вам каждую библиотеку, используя небольшие примеры, а потом мы сравним их и разберем различия. Я также расскажу, чего вам стоит избегать при работе с обеими библиотеками.

Читать далее

BDD-тестирование чат-бота

Время на прочтение9 мин
Охват и читатели9.2K

Многие знакомы с методологией Test-Driven Development и, в частности, Behavior-Driven Development. Этот подход к разработке и обеспечению качества ПО набрал большую популярность, поскольку позволяет выстроить четко установленное соответствие между бизнес-требованиями и технической реализацией продукта.

На Russian Python Week 2020 Владислав Мухаматнуров, Senior QA automation на примере проекта голосового ассистента в Tinkoff, рассказал о задачах, которые решает BDD. В своем докладе Влад разобрал, что такое BDD и Gherkin, откуда возникает потребность в поведенческом тестировании на проекте и как выглядит имплементация предметно-ориентированного языка для тестирования, базирующейся на диалогах системы. А под катом мы предлагаем вам прочитать расшифровку доклада.

Читать далее

Нейродайджест: главное из области машинного обучения за июль 2021

Время на прочтение3 мин
Охват и читатели5.8K

Новый язык программирования от Open AI, рост популярности диффузионных моделей, чат-бот с памятью не как у золотой рыбки — об этом и многом другом в июльском выпуске.

Перейти к обзору

Ближайшие события

Профессионально обрабатываем исключения в Python

Время на прочтение10 мин
Охват и читатели54K

Одним из недостатков гибких языков, таких как Python, является предположение, что если что-то работает, то скорее всего оно сделано правильно. Я хочу написать скромное руководство по эффективному использованию исключений в Python, правильной их обработке и логировании.

Читать далее

Кратко: запросы к API и разбор XML-ответов. Python

Время на прочтение8 мин
Охват и читатели36K

Этот пост предназначен в первую очередь для новичков в разработке, впервые столкнувшихся с необходимостью отправить post/get запросы к какому-нибудь API и проанализировать полученный в XML ответ. Постаралась собрать необходимы минимум в одном месте.

Читать далее

Tweet-a-pot, или Как я через Twitter кофе варил

Время на прочтение5 мин
Охват и читатели2.6K

Мы уже писали о том, как сделать умный термостат, чтобы отапливать дом, и рассказывали, как, потратив всего 5 долларов, из подручных материалов собрать спектрометр. Сегодня мы делимся переводом статьи о превращении простой кофеварки в устройство, которое может включаться и выключаться по заданным вами условиям. Все перечисленные приборы работают при помощи Python, а у нас скоро стартует курс по Fullstack-разработке на этом языке. Подробности преображения кофеварки читайте под катом.

Читать далее

Как перенести нейросеть на мобильное устройство

Время на прочтение9 мин
Охват и читатели16K
В статье поговорим как обучить несложную CNN сеть с помощью tensorflow, конвертировать готовое с помощью tensoflow-lite и перенести на мобильное устройство под управлением android.
Описывается личный опыт автора, поэтому нет претензий на всеохватывающее руководство.

Читать дальше →

13 проектов для Python-программистов уровня intermediate

Время на прочтение10 мин
Охват и читатели81K
Изучение основ Python — прекрасный опыт. Но эйфория от изучения языка постепенно заменяется желанием создать что-то своими руками. И это нормально, но нужны идеи.

Проблема здесь в том, что некоторые проекты либо слишком просты, либо слишком сложны для разработчика среднего уровня. Эта статья — помощь программисту уровня intermediate. Она предоставляет несколько идей проектов, которые могут стать интересным вызовом для вас. Материал адаптирован на русский язык совместно с Алексеем Некрасовым, лидером направления Python в МТС, программным директором направления Python в Skillbox.
Читать дальше →

Global WHEAT CHALLENGE 2021 или как накормить весь мир

Время на прочтение4 мин
Охват и читатели994

Представляю вашему внимаю обзор на соревнование Global Wheat Challenge 2021, а также делюсь своим опытом участия в нем.

О соревновании

Данное соревнование проводилось на площадке aicrowd.com, аналоге kaggle, и организатором был университет Саска́чеван. Денежные призы присуждались за первые три места: 1) 2000$; 2) 1000$; 3) 1000$.

Перед участниками стояла задача детектирования колосьев пшеницы на изображениях. Лучшая модель должна заместить ручной труд в задачах ученых-селекционеров и фермеров. На основе выхода работы нейронной сети ученым и фермерам будет легче посчитать их метрику качества плодородности пшеницы и выбрать наилучшую культуру для того или иного региона мира. В конечном итоге это должно повысить урожайность.

Стоит сказать, что это не первое соревнование, организованное этим университетом в рамках данной задачи. Так, например, в прошлом году он так же проводил соревнование на площадке kaggle.

Датасет

Набор данных состоит из более чем 6000 изображений с разрешением 1024х1024 пикселей, содержащих свыше 300 тыс. уникальных колосьев пшеницы. Изображения получены из 11 стран и охватывают 44 уникальных сеанса измерений. Сеанс измерения — это набор изображений, полученных в одном и том же месте в течение нескольких часов. По сравнению с конкурсом 2020 года на Kaggle, он представляет 4 новые страны, 22 новых сеанса измерений, 1200 новых изображений и 120 тыс. новых голов пшеницы. Стоит отметить, что распределение между test и train было не стратифицировано относительно сеансов измерений, то есть в test попали изображения из стран и временных периодов, не встречающихся в train. Так организаторы пытались подтолкнуть участников создавать робастный метод детекции.

Читать далее

Микросервисы vs. Монолит

Время на прочтение20 мин
Охват и читатели78K
В начале ноября на ютуб-канале Яндекс.Практикума прошли дебаты «Микросервисы, Монолит и Зомби». Ведущие дебатов — наставник курса «Мидл Python-разработчик» Руслан Юлдашев и техлид курса Савва Демиденко — разобрали архитектуры двух систем, прошлись по реальным задачам и ошибкам из своей рабочей практики и по очереди защищали свои позиции.

Обсуждение растянулось на 100 минут, поэтому мы публикуем сокращённую текстовую расшифровку.



Этот материал будет полезен разработчикам, которые хотят научиться делать хорошо масштабируемые продукты и задумываются про архитектурные проблемы в разработке, а также для тех, кто принимает архитектурные решения в проектах.

Вы узнаете, как врачи регионов России не получали зарплату из-за микросервисов и сколько монолитов можно запустить, пока согласовывается интерфейс между сервисами.
Читать дальше →

Вклад авторов