Обновить
529.23

Python *

Высокоуровневый язык программирования

Сначала показывать
Порог рейтинга
Уровень сложности

Как получить полезную информацию из своих категориальных признаков?

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели18K

В этой статье я выскажу свою точку зрения о том, что из себя представляют категориальные признаки. Расскажу про способы работы с ними, которыми пользуюсь сам как антифрод-аналитик в Каруне.

Читать далее

Что выбрать новичку: Python или Java?

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели51K

Волна цифровизации неумолимо нарастает, равно как и количество начинающих программистов. Стоит ли поддаться общей тенденции сегодня, и если да, то с какого языка лучше начать своё погружение в мир кода?

Читать далее

Работа с временными рядами в Python. Часть 2

Уровень сложностиПростой
Время на прочтение10 мин
Охват и читатели22K


Добро пожаловать во вторую часть нашей серии статей "Работа с временными рядами в Python." В первой части, мы ознакомились с основами работы с временными рядами и научились анализировать и визуализировать их. Теперь мы переходим к более продвинутым аспектам этой увлекательной темы.
Читать дальше →

У нас в Excel поселился замечательный Python

Уровень сложностиСредний
Время на прочтение5 мин
Охват и читатели49K

На Хабре уже была новость об этом знаменательном событии. Правда, она похожа на пересказ официального пресс-релиза Microsoft, но такой и должна быть "новость".

Читать далее

Как устроен GIL (Global Interpreter Lock) в Python: влияние на многозадачность и производительность

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели44K

Привет, уважаемые читатели!

GIL, или Global Interpreter Lock десятилетиями оставался темой обсуждения и дебатов среди питонистов.

Что такое GIL? GIL, сокращение от Global Interpreter Lock, представляет собой важную концепцию в Python. Он представляет собой мьютекс, который блокирует доступ к объекту Python interpreter в многопоточных средах, разрешая выполнять лишь одну инструкцию за раз. Этот механизм, хоть и заботится о безопасности и целостности данных, одновременно становится камнем преткновения для тех, кто стремится максимально задействовать многозадачность и использовать полностью потенциал многоядерных процессоров.

Читать далее

Выявление схожести между произведением искусства из коллекции музея и работами автора методами ML

Уровень сложностиПростой
Время на прочтение13 мин
Охват и читатели1.7K

Идею работы: «Похоже ли произведение искусства из коллекции музея на работы автора?» я придумала под датасет Музея MoMa. Конечно, хотелось бы установить: оригинал или подделка? Но для ответа на такой категоричный вопрос данных оказалось недостаточно.

У проекта было несколько целей. Разработка модели машинного обучения, способной оценить схожесть произведения искусства из коллекции музея на основе анализа её характеристик и работ автора, её создавшего. Исследование различных моделей машинного обучения для выявления схожести работ, таких как Logistic Regression, Decision Tree, Random Forest, LightGBM, CatBoost. Оценка точности и эффективности моделей, выбор лучшей. Выработка рекомендаций для дальнейшего улучшения системы выявления схожести, чтобы сделать её более точной и полезной для анализа произведений искусства.

Читать далее

Анализ 10 000 вопросов с технических интервью: частотность и вероятность встречи

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели43K

Привет, Хабр! Я проанализировал 600 публичных мок-интервью с YouTube и собрал из них 10 000 уникальных вопросов. Затем посчитал, как часто они встречаются, и определил вероятность появления каждого вопроса. У меня есть данные по 20 профессиям, включая frontend, python, java-разработчика, специалиста по тестированию и многих других.

Читать далее

Как применять метод PCA для уменьшения размерности данных

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели35K

Одной из ключевых задач при работе с данными является уменьшение размерности данных, чтобы улучшить их интерпретируемость, ускорить алгоритмы обучения машин и, в конечном итоге, повысить качество решений. Сегодня мы поговорим о методе, который считается одним из наиболее мощных инструментов в арсенале данных разработчиков — методе главных компонент, или PCA (Principal Component Analysis).

Читать далее

Малоизвестные библиотеки Python для анализа данных, которые сделают вашу жизнь проще

Уровень сложностиСредний
Время на прочтение15 мин
Охват и читатели34K

Привет Хабр! В этой статье мы рассмотрим некоторые полезные библиотеки Python для задач обработки данных, с которыми, возможно, вы еще не знакомы. Хотя для задач машинного обучения на ум приходят такие библиотеки, как pandas, numpy, scikit-learn, keras, tensorflow, matplotlib и т.д., но всегда полезно знать о других предложениях Python, особенно если это поможет улучшить ваши проекты.

Читать далее

Как провести анализ рекламных креативов с помощью генеративных сетей

Время на прочтение13 мин
Охват и читатели2.2K

Привет, Хабр!

На связи Сергей и Григорий - Data Scientist'ы.

Сегодня расскажем, как заняли 2 место в общем зачете AI Generative Product Hackathon, инициированного Napoleon IT,  и 1 место в кейсе по анализу рекламных креативов для крупной российской фармацевтической компании.

Читать далее

Как реализовать систему рекомендаций на сайте просмотра кино

Уровень сложностиПростой
Время на прочтение13 мин
Охват и читатели5.2K

Привет, Хабр!

Когда вы открываете ваш любимый стриминговый сервис, и перед вами развертывается каталог фильмов и сериалов, точно соответствующих вашим вкусам - это великолепное ощущение, когда ваш сервис знает, что именно вас интересует, и предлагает именно то, что вы искали.

Рекомендательные системы не только облегчают жизнь пользователям, но и повышают уровень удовлетворенности клиентов, а также помогают увеличивать доходы компаний.

Читать далее

Русский LLM-помощник (saiga) с кэшем, используя RAG (Retrieval-Augmented Generation)

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели38K

Используя технику Retrieval-Augmented Generation ("Поисковая расширенная генерация"), мы настроим русскоязычного бота, который будет отвечать на вопросы потенциальных работников для выдуманного свечного завода в городе Градск.

Читать далее

Работа с временными рядами в Python. Часть 1

Уровень сложностиПростой
Время на прочтение13 мин
Охват и читатели66K


Аналитика данных стала неотъемлемой частью современного бизнеса и научных исследований. И одним из ключевых аспектов анализа данных являются временные ряды. Эффективная работа с временными рядами играет критическую роль в прогнозировании, стратегическом планировании и принятии решений в различных отраслях.

Временные ряды — это наборы данных, где каждая точка данных связана с определенным моментом времени. Это может быть что угодно, от ежедневных финансовых показателей до ежечасных кликов на веб-сайте или даже месячных показателей погоды. Зачем нам это нужно? Потому что временные ряды предоставляют нам ценную информацию о том, как меняются данные со временем.
Читать дальше →

Ближайшие события

Python-разработчик: из новичка в профессионалы. Как начать свой путь в освоении языка?

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели39K

В статье рассказали:

 Почему многие крупные компании до сих выбирают Python

 Какие знания нужны разработчику на каждой из ступени грейдов

 Где эти знания получить.

Читать далее

Airflow в Kubernetes. Часть 1

Уровень сложностиСредний
Время на прочтение10 мин
Охват и читатели16K

Приветствую!

На пути инженера данных часто встречаются задачи связанные с DevOps. Одна из таких - развернуть Airflow в Kubernetes кластере. Если до этого похожего опыта работы не было, то эта задача может показаться нетривиальной. Конечно, можно выполнить несколько команд из официального гайда, но если нужно будет что-то поправить, то без понимания, что происходит внутри, обойтись будет сложно.

Эта статья призвана  облегчить данную задачу. Она поможет тем, кто уже работал с Airflow, но еще не касался технологии Kubernetes. 

Читать далее

Взлетаем на backend: наш путь к победе в номинации «Лучший backend-разработчик» на хакатоне от ООО «Лента» и ЯП

Уровень сложностиПростой
Время на прочтение12 мин
Охват и читатели6.2K

«Недоджун» решил проверить свои силы и поучаствовать в хакатоне, который организовали Яндекс Практикум и ООО «Лента».

Читать далее

Создание искусственного интеллекта для игры Баше без нейронных сетей

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели3.5K

В статье речь пойдёт про машинное обучение. Приведу одно из определений этого понятия: использование математических моделей данных, помогающих компьютеру обучаться без непосредственных инструкций. Машинное обучение является одним из направлений искусственного интеллекта.

Выполняется обучение модели на множестве данных, сохранение весов (параметров) модели и использование сохранённых параметров для быстрого принятия решений. Обучение может длиться долго и требовать больших вычислительных мощностей и множества данных; обученная модель работает быстро и на слабых компьютерах. С помощью такого подхода выявляются закономерности в данных, качество результатов напрямую зависит от объёма данных для обучения.

В данной статье я хочу раскрыть суть машинного обучения на примере создания искусственного интеллекта для математической игры Баше (названа в честь французского поэта и математика Баше де Мезириака).

Читать далее

Как создать API в облаке менее чем в 200 строках кода

Уровень сложностиСложный
Время на прочтение13 мин
Охват и читатели13K
Современные облачные инструменты и пакеты Python стали настолько мощными, что с их помощью можно создать (масштабируемый) облачный API менее чем в 200 строках кода. В этом посте будет рассмотрено, как при помощи lines Google Cloud, Terraform и FastAPI развернуть в облаке полноценный API, через который можно отвечать на запросы.

Репозиторий к этому проекту находится здесь, пользуйтесь им, если захотите опробовать весь код сами.

image

Пример API, возвращающего данные. О том, как его создать, рассказано в этом посте.
Читать дальше →

Событийное логирование для аналитики и мониторинга работы телеграм-бота

Время на прочтение10 мин
Охват и читатели11K

Привет, Хабр! Меня зовут Артем.

По мере роста различной работы с телеграм ботом нашего корпоративного телеграм-бота, оптимизация и поддержание его стало более сложной задачей. В какой-то момент я осознал, что нужен надежный способ отслеживания происходящих событий в приложении. Это важно не только для решения проблем и багов, но и для оптимизации производительности и повышения общей эффективности работы.

В этой статье мы рассмотрим как реализовать событийное логирование для телеграм-бота.

Читать далее

Что расскажут на PiterPy 2023: много питонов и немного ржавчины

Время на прочтение11 мин
Охват и читатели3.1K

Python применяется для совсем разных задач, от ML до бэкенда. О каких темах тогда говорить на конференции по Python? Обо всех главных сразу. На приближающемся PiterPy 2023 среди докладов будут и «В Python есть готовый фронтенд для вашего компилятора», и «Django + Keycloak: доверьте аутентификацию профессионалам», и «Мастер-класс по взлому».

Более того: будут даже доклады со словом «Rust» в названии, при чём оно тут? А ещё есть тема «ChatGPT как раб разработчика», что под ней скрывается? А закрывать онлайн-часть и вовсе будет биоинформатик Михаил Гельфанд, что он расскажет? И, наконец, будет даже доклад о настоящих питонах!

В этом хабрапосте мы собрали описания всех докладов, так что можете узнать, чего именно ожидать от конференции.

Программа PiterPy 2023

Вклад авторов