Обновить
671.79

Python *

Высокоуровневый язык программирования

Сначала показывать
Порог рейтинга
Уровень сложности

Обзор книги Аллена Б. Дауни «Think Python. Основы Python»

Время на прочтение5 мин
Охват и читатели20K

Написать хороший учебник по Python сложно. Пожалуй, сложнее, чем по любому другому языку программирования. Как ни странно, из-за того, что Python — универсальный, распространённый и очень простой язык. Но Аллену Дауни, профессору компьютерных наук, это, похоже, удалось.

В книге найдётся интересное упражнение для изучения любого аспекта языка Python. Если вы изучаете обязательный в таких случаях модуль turtle, то будете рисовать с помощью черепашки не просто какие-то скучные прямоугольники, а буквы алфавита и спираль Архимеда. А ещё — почему бы нам не нарисовать один из самых знаменитых фракталов — кривую Коха? Если вы знакомитесь с понятием функции, то вместо скучных вычислений попробуйте найти решение уравнения Великой теоремы Ферма.

Читать далее

Круглое катить, прямоугольное тащить. А шестигранник?

Время на прочтение6 мин
Охват и читатели5.4K


В большинстве случаев в DS предпочитают работать с прямоугольными данными и на то есть масса причин и обоснований. Очень популярна тема парсинга и развертывания вложенных json. Часто дают тестовые задания на приведение к прямоугольному виду.


Но далеко не все задачи сводятся к data.frame и не обязательно весь DS сводить к ML. Есть масса задач, оперирующих, например, с графами или их частным случаем — деревьями. Можно использовать библиотеку igraph или аналоги и не думать о деталях. А можно попробовать чуть заглянуть внутрь алгоритмов.


На примере одной задачки посмотрим на работу с деревьями с альтернативной колокольни.


Все предыдущие публикации.

Читать дальше →

Что такое выпас данных и почему он необходим?

Время на прочтение8 мин
Охват и читатели6.3K

Когда речь идет об анализе данных, результаты хороши лишь настолько, насколько хороши данные. И даже если на вашей стороне миллионы значений данных, и вы вооружены искусственным интеллектом и машинным обучения, вы можете не использовать эти данные в полной мере (возможно, это сыграет даже во вред вашей организации).

Плохие данные приводят к принятию некачественных решений.

Поэтому вам необходимо очистить и отформатировать ваши данные – взять их под контроль, чтобы они были готовы к последующим процессам.

Вот тут-то и приходит на помощь выпас данных.

Читать далее

Как писать преобразователи данных в Sklearn

Время на прочтение7 мин
Охват и читатели14K

Сегодня разбираемся, как создавать собственные преобразователи Sklearn, позволяющие интегрировать практически любую функцию или преобразование данных в классы конвейера Sklearn. Подробности под катом к старту флагманского курса по Data Science.

Читать далее

GAN-модели для генерации набора данных из изображений

Время на прочтение6 мин
Охват и читатели5.7K

Привет, Хабр! Для машинного обучения в специфических областях очень остро стоит проблема нехватки данных для обучения.  Давайте рассмотрим один из способов генерировать изображения.

Читать далее

Оптимизация сервинга нейросетей

Время на прочтение10 мин
Охват и читатели5.2K

Я работаю ML-инженером в OK и последнее время занимался оптимизацией скорости инференса нейросетей, поэтому сегодня расскажу о них. И не просто о нейросетях, а о нейросетях в продакшене. 

Читать далее

Методика долгосрочной оценки эффекта целевого маркетинга

Время на прочтение7 мин
Охват и читатели4.2K

В последние годы компании с достаточной зрелостью процессов целевого маркетинга ставят перед собой задачу оценивать эффективность не отдельных кампаний, а всех кампаний в совокупности на продолжительном отрезке времени. Это связано с тем, что сети часто пытаются максимизировать выручку и прибыль лишь на горизонте действия целевой кампании, не учитывая, что может произойти каннибализация будущей выручки. Помимо этого, при активной контактной политике некоторые компании могут отправлять сразу несколько коммуникаций на клиента в один период времени. Если не учесть это при оценке кампаний, эффект будет дублироваться. В данной статье мы, команда Retail Solution компании GlowByte, планируем раскрыть основные сложности и особенности, с которыми придется столкнуться при разработке и внедрении методики оценки CRM на основе A/B-тестирования. Результаты получены нами на проекте с одним из ведущих ритейлеров страны.

Читать далее

Pet-проект для обучения или как я в одиночку писал Helpdesk

Время на прочтение6 мин
Охват и читатели31K

Ранее, у меня уже был опыт использования Helpdesk систем, но по разным причинам они не были внедрены у нас на предприятии. Хорошая возможность научится программировать, подумал я, и преступил к написанию собственного helpdesk’a.

Читать далее

Как я пагинацию на telebot делал (пагинация для telegram бота)

Время на прочтение13 мин
Охват и читатели24K

История о том, как мы пагинацию для бота делали.

Разберемся с начала, что это за статья зачем она и для кого. Пришлось мне в рамках хакатона "Поколение ИТ" писать бота для телеги.

Но готового решения для пагинации, которое бы нам подходило мы не нашли. Поэтому было принято решение изобретать велосипед. Решение моих товарищей было максимально странным, брать количество записей и перебирать их в цикле от 1 до N (конца, записей), но данная идея сразу была отброшена. Поэтому предоставляю вашему вниманию наше творчество, которое мы изобрели.

Читать далее

Как пакетно конвертировать изображения и видео в гифки с помощью FFmpeg минуя CLI

Время на прочтение6 мин
Охват и читатели5.8K

Привет, земляне. Многие из вас слышали про набор библиотек FFmpeg, а некоторые его активно используют. Я из их числа, но я не поклонник взаимодействия с приложением посредством текстовых команд, поэтому я предлагаю собственное приложение с графическим интерфейсом для взаимодействия с FFmpeg. Теперь, не нужно изучать текстовый интерфейс, чтобы произвести пакетное конвертирование изображений и видео в GIF-файлы высокого качества.

Пожалуйста, подробнее

Введение в извлечение сущностей из текста и NER

Время на прочтение3 мин
Охват и читатели14K

Извлечение информации означает создание структурированных данных из неструктурированного текста. На практике задача может выглядеть так: нужно автоматически создать запись в календаре исходя из текста письма, как на рисунке ниже.

Читать далее

Простым языком о языковых моделях и цепи Маркова (Markov Chain)

Время на прочтение3 мин
Охват и читатели20K

N-граммы 

N-граммы – это статистические модели, которые предсказывают следующее слово после N-1 слов на основе вероятности их сочетания. Например, сочетание I want to в английском языке имеет высокую вероятностью, а want I to – низкую. Говоря простым языком, N-грамма – это последовательность n слов. Например, биграммы – это последовательности из двух слов (I want, want to, to, go, go to, to the…), триграммы – последовательности из трех слов (I want to, want to go, to go to…) и так далее.

Такие распределения вероятностей имеют широкое применение в машинном переводе, автоматической проверке орфографии, распознавании речи и умном вводе. Например, при распознавании речи, по сравнению с фразой eyes awe of an, последовательность I saw a van будет иметь большую вероятность. Во всех этих случаях мы подсчитываем вероятность следующего слова или последовательности слов. Такие подсчеты  называются языковыми моделями.

Как же рассчитать P(w)? Например, вероятность предложения P(I, found, two, pounds, in, the, library). Для этого нам понадобится цепное правило, которое определяется так:

Читать далее

Полковнику никто не пишет. Отправка писем по SMTP после изменения политики Google. С примером на Python

Время на прочтение2 мин
Охват и читатели27K

Недавно Google изменил политику по отношению к доступу к аккаунту из неизвестных источников. Давно приходили предупреждения, но я до последнего надеялся, что обойдется и не коснется меня. Наивный.

Докатилось до меня где-то в середине июня. Однажды, смотря логи одного из моих проектов, наткнулся на ошибку авторизации при попытке отправки электронного письма.

Читать далее

Ближайшие события

Papers, please! Как устроены сервисы по распознаванию лиц для идентификации клиента и проверки документов

Время на прочтение8 мин
Охват и читатели7.1K

В популярной в свое время игре Papers, please! игрок выполняет роль таможенника, проверяющего документы по все более усложняющимся правилам. Главная игровая механика - проверка документов на соответствие всем нормам, таким как верная дата и место выдачи, соответствие имени и фамилии человека на всех документах, срок действия визы, наличие человека в “черных” списках и тому подобное.

Игра привлекла тысячи пользователей по всему миру самобытным стилем и необычной механикой игры, однако для некоторых людей подобная игра показалась бы настоящим кошмаром, ведь в реальной жизни, на своей реальной работе они занимаются тем же самым.

Читать далее

Обзор книги «Python. Экспресс-курс», отличная книга для начинающих с нуля

Время на прочтение4 мин
Охват и читатели14K

Всем доброго времени суток!

Публикую обзор книги "Python. Экспресс-курс" от автора Наоми Седера.

Стоит читать? Да! Почему? Опишу в статье.

Python - хороший первый язык программирования, а это отличная книга для его изучения с нуля.

Читать далее

Рекомендательная система через поиск схожих изображений с помощью Resnet50

Время на прочтение4 мин
Охват и читатели5.9K

В этой статье я хочу рассказать о подходе который основан на поиске схожих изображений. Зачем подготавливать дополнительнительные данные если почти все основные характеристики некоторых товаров, например одежда, можно отобразить на изображении.

Смотреть подробнее + пример

Как сравнивать распределения. От визуализации до статистических тестов

Время на прочтение15 мин
Охват и читатели75K

В подробном лонгриде к старту курса по анализу данных вы найдёте авторские визуализации, пояснения и комментарии об искусстве сравнивать распределения и делать выводы.

Приятного чтения!

Готовим статьи для Хабра: скрипт для подтягивания адресов картинок с habrastorage

Время на прочтение6 мин
Охват и читатели2.8K


Программист пишет интересную статью. Холст, масло, ruDALL-E.


Что самое сложное в написании статьи для Хабра? Конечно же сесть и начать писать! А потом вовремя остановиться. Ну а на третьем месте — во всяком случае для меня — стоит загрузка уже готовой статьи на Хабр. Про новый редактор я тактично промолчу, а старый в принципе весьма неплох: статью в markdown можно скопировать в него почти без изменений. Но вот с добавлением картинок есть пара нюансов.


Во-первых, форматирование: markdown не поддерживает ширину-высоту-выравнивание картинок, поэтому если вам захочется красоты, то все теги придется переписать в html. А во-вторых, когда вы зальете картинки на Habrastorage (или в любое другое облако), адреса локальных картинок по всему тексту придется вручную перебивать на ссылки в облаке. Как-то вечером я дописывал статью с ~50 картинками, ужаснулся количеству предстоящей работы, и решил написать простенький скрипт для автоматизации всего этого.

Читать дальше →

Как быстро разрабатывать сервисы обработки данных в реальном времени с помощью PySpark Structured Streaming и Kafka

Время на прочтение16 мин
Охват и читатели9.4K

Данная статья обобщает базовые шаги по установке и началу работы с PySpark Structured Streaming при участии брокера сообщений Kafka. Предполагается, что читатель уже знаком с языком программирования Python и сервисом Kafka.

При помощи PySpark Structured Streaming можно быстро разрабатывать масштабируемые сервисы обработки данных в реальном времени. Такой подход позволяет в короткие сроки сделать выгодное предложение клиенту, вовремя заметить аномалию в системе или же отображать актуальные данные.

Читать далее

Управляем параметрами в процессной аналитике при помощи фреймворка Hydra

Время на прочтение7 мин
Охват и читатели4K

Привет, Хабр! Меня зовут Александр Дунаевский, я Data Scientist в Сбере. Сегодня хочу рассказать про управление параметрами в Process mining (процессная аналитика) и нюансах этой задачи.

Для работы используется фреймворк Hydra, который здорово облегчает жизнь. В чём вообще проблема? В задачах процессной аналитики требуется постоянно менять входные параметры и сохранять результаты работы. Но при большом количестве запусков возникает потребность в отдельной системе для управления как передаваемыми параметрами, так и логированием. В статье рассмотрим, как фреймворк Hydra может помочь нам с этим. Кому интересно ― просим под кат!

Читать далее

Вклад авторов