Обновить
904.87

Python *

Высокоуровневый язык программирования

Сначала показывать
Порог рейтинга
Уровень сложности

Визуализация и анализ зимних температур Алматы за последние сто лет на Streamlit

Время на прочтение7 мин
Охват и читатели4.5K

Как менялись зимние температуры в Алматы за сто лет, анализ на Streamlit.

Читать далее

Анонс: митап «Быстрый бэкенд». MongoDB, оптимизация алгоритмов и диагностика проблем в больших проектах

Время на прочтение2 мин
Охват и читатели1.8K
Привет, Хабр. Мы задумали встретиться офлайн в Москве и поговорить о том, как строить быстрый бэкенд и развивать его. Будут доклады о том, как живётся с большим кластером MongoDB, как битмап-индексы помогают быстро искать по каталогам и то, как анализировать большие объемы Jaeger-трейсов. Читайте пост: ниже тезисы и ссылка на регистрацию, встречаемся 4 июня.



Читать дальше →

Анализ аудиоданных (часть 1)

Время на прочтение8 мин
Охват и читатели37K

Каждый аудиосигнал содержит характеристики. Из MFCC (Мел-кепстральных коэффициентов), Spectral Centroid (Спектрального центроида) и Spectral Rolloff (Спектрального спада) я провела анализ аудиоданных и извлекла характеристики в виде среднего значения, стандартного отклонения и skew (наклон) с помощью библиотеки librosa.

Для классификации “живого” голоса (класс 1) и его отделению от синтетического/конвертированного/перезаписанного голоса (класс 2) я использовала алгоритм машинного обучения - SVM (Support Vector Machines) / машины опорных векторов. SVM работает путем сопоставления данных с многомерным пространством функций, чтобы точки данных можно было классифицировать, даже если данные не могут быть линейно разделены иным образом. Для работы я использовала математическую функцию, используемой для преобразования (известна как функция ядра) - RBF (радиальную базисную функцию).

В первой части анализа аудиоданных разберем:

Читать далее

Работа в Data Science: что важно знать и как этому научиться

Время на прочтение9 мин
Охват и читатели65K

Сегодня словосочетания вроде Data Science, Machine Learning, Artificial Intelligence очень популярны. При этом нередко под ними понимаются довольно разные вещи. Это зачастую смущает и запутывает людей, желающих войти в специальность: трудно разобраться, с чего начать, что действительно нужно, а что необязательно для начала. Не претендуя на общность, расскажем, как это видится на основе десятка лет опыта c решением такого рода задач для крупных клиентов со всего мира (сервис / заказная разработка / аутсорс – подставьте термин по вкусу).

Читать далее

Авто преписка в тг с привязкой к Google Calendar

Время на прочтение5 мин
Охват и читатели3.8K

Всем привет!

У меня была такая проблема что я каждый день когда ложился спать всегда ставил в нике преписку что то по типу [БУДУ ЗАВТРА В 8:00] так вот в какой то момент меня это доконало и я решил сделать так что бы скрипт сам делал мне эту преписку, но будет брать события с Google Calendar. Думаю это довольно удобно ведь так можно будет записывать в календарь все свои дела а скрипт будет автоматически ко времени преписывать их к нику.

давайте начнем!

и начнем мы с самого сложного, настройкой своего гугл аккаунта

заходим на этот сайт https://console.cloud.google.com/ входим в аккаунт гугл (не бойтесь его потерять, это официальный сайт гугла) и заполняем небольшую анкету:

первым делом мы видим такую картину

Читать далее

Собираем генератор данных на Blender. Часть 1: Объекты

Время на прочтение5 мин
Охват и читатели7.5K

Привет, Хабр! Меня зовут Глеб. Я работаю в компании Friflex над проектами по оцифровке спорта. Работая над idChess (приложением для распознавания и аналитики шахматных партий), мы расширяем наш датасет синтетическими данными. В качестве движка используем Blender. В этой статье рассмотрим основы взаимодействия с объектами, получение доступа через API, перемещение, масштабирование и вращение.

Читать далее

«Ваша сезонность, сэр!»: ищем тренд и прогнозируем спрос с помощью временных рядов, SARIMA и Python. Ч.1

Время на прочтение4 мин
Охват и читатели18K

Как вы можете помнить по первой статье "Маркетинговая аналитика на Python. Пишем код для RFM-сегментации", более 8 лет я работаю в сфере маркетинга для B2B и примерно столько же бешусь от дилетантского подхода к аналитике, который тянет за собой ряд проблем с определением ключевых метрик эффективности для компании (и, как следствие, с мотивацией сотрудников):

Читать далее

Подгон под MNIST-овский датасет

Время на прочтение7 мин
Охват и читатели13K

В интернете можно найти 1000 и 1 статью по тренингу мнистовского датасета для распознавания рукописных чисел. Однако когда дело доходит до практики и начинаешь распознавать собственные картинки, то модель справляется плохо или не справляется вовсе. Преобразуем произвольное изображение числа под MNIST-овский датасет.

Читать далее

Работа с фреймворками Python: преимущества и проблемы

Время на прочтение7 мин
Охват и читатели11K

Фреймворки помогают ускорить разработку и сделать её приятнее. Программу, которая раньше писалась неделю и занимала 1000 строк, с помощью фреймворка вы можете создать за пару часов и уместить в 50 строчках кода. Некоторые решения даже поставляются в виде подписки на сервисы, и программисту остаётся только написать шаблонный код — остальное сервис сделает сам. Несмотря на всё это, в российском IT всё равно чаще выбирают писать что-то своё, тратя на это много сил, времени и денег. Почему так происходит, попытались разобраться с Денисом Наумовым, Techlead и Data Engineer в Skyeng. 

Читать далее

StyleGAN3 — изображения в разном стиле одним кликом

Время на прочтение12 мин
Охват и читатели21K

В конце 2018 года в nVidia выпустили первую StyleGAN — и сегодня любители технологий с воодушевлением смотрят в будущее безграничных развлекательных медиа, генерируемых ИИ. Это будущее на практике показывает автор, материалом которого делимся к старту флагманского курса по Data Science.

Читать далее

Классификация гистологических изображений со светлоклеточным раком почки, используя Keras

Время на прочтение5 мин
Охват и читатели4.1K

Мой первый любительский проект по классификации изображений со светлоклеточным раком почки, используя модели глубокого обучения, имплементированные на Keras. Весь пайплайн включал такие этапы, как:

1)    Получение полнослайдовых изображений (WSI) – подготовка датасета.

2)    Аннотация изображений

3)    Получение готового датасета (Train, Validation и Test)

4)    Выбор и тренировка моделей

5)    Тестирование моделей

Читать далее

Распределение вычислительной мощности между несколькими ПК

Время на прочтение2 мин
Охват и читатели4.6K

В ходе работы возникла задач обработки огромного объема (~500 Гб) аудиозаписей в условиях ограниченного времени. На одном ПК обработка заняла бы не менее месяца, что не вписывалось в установленные заказчиком сроки. Возникла идея подключения компьютеров коллег, у которых ночью ПК «отдыхают».

Читать далее

Как автоматически переписать текст другими словами, сохранив смысл? Рассказываем про рерайт-сервис

Время на прочтение8 мин
Охват и читатели19K

Часто при работе с текстами мы хотим не только выделить главное из больших отрывков, но и переписать текст, сохранив его смысл. В предыдущем посте мы рассказали, как команда SberDevices делала AI Service суммаризатора. Сегодня давайте поговорим про наш опыт создания не просто парафразера, а именно рерайтера текста. В связке эти инструменты могут быть полезны для множества практических задач. Демо обоих сервисов доступны в маркетплейсе AI Services.

Читать далее

Ближайшие события

Аналитика содержимого аудиоразговоров (пробуем, пытаемся)

Время на прочтение6 мин
Охват и читатели4.9K

Приветствую. Данная статья не является новшеством. Это скорее сборка использования различных технологий для достижения одной цели — определение и анализ полученных данных. В моем случае - это аналитика аудиосодержимого. Нет, у меня не будет графиков по правилам Котельникова. Мы будем складывать полученные данные в различные базы данных и последовательно анализировать полученное, а также пытаться автономно на существующих мощностях переопределять речь в текст. К сожалению, в первой части больше теории.

Читать далее

Как ускорить Python с помощью C-расширений. Часть 1

Время на прочтение9 мин
Охват и читатели12K

Привет, Хабр! Я – Игорь Алимов, ведущий разработчик группы Python в МТС Digital, работаю над продуктами Smart Rollout, B2B портал. В этой статье я расскажу о том, как писать быстрый код на Python с использованием C-расширений и способах победы над GIL.

Интересно? Добро пожаловать под кат!

Читать далее

Это наконец произошло: нейросеть и человек написали книгу. Вместе! Рассказываем, как им помогали разработчики

Время на прочтение9 мин
Охват и читатели18K

На этой неделе в издательстве Individuum вышел сборник рассказов «Пытаясь проснуться», написанных писателем и художником Павлом Пепперштейном и генеративной нейросетью ruGPT-3, разработанной командой SberDevices. 

«Пытаясь проснуться» — это первый в мире сборник рассказов, родившийся в результате сотрудничества писателя и его «двойника»-нейросети. Из 24 текстов в нём только половина принадлежит Пепперштейну — ещё дюжину сочинила генеративная нейросеть ruGPT-3, дополнительно обученная на рассказах Павла. 

В этом тексте мы расскажем, как обучали Нейроличность — двойника писателя — и что теперь будет с литературой (спойлер: а всё очень даже хорошо будет!).

Читать далее

Асинхронный python без головной боли (часть 1)

Время на прочтение14 мин
Охват и читатели488K

Почему так сложно понять asyncio?

Асинхронное программирование традиционно относят к темам для "продвинутых". Действительно, у новичков часто возникают сложности с практическим освоением асинхронности.

Но будь я автором самого толстого в мире учебника по python, я бы рассказывал читателям про асинхронное программирование уже с первых страниц. Вот только написали "Hello, world!" и тут же приступили к созданию "Hello, asynchronous world!". А уже потом циклы, условия и все такое.

Съешь красную таблетку

Airtable & Telegram Bot — рецепт быстрого запуска

Время на прочтение5 мин
Охват и читатели9.4K

В данной статье рассмотрим интеграцию no-code базы данных с телеграмм ботом. Благодаря хорошему API и читабельной документации Airtable удобно использовать разработчику. При этом человеку, не знакомому с программированием, подвластно создание базы данных с нуля и аналитика без единой строчки кода. Фактически в данной статье получим готовый рецепт для быстрого запуска небольшого сервиса.

Читать далее

Анализ эффективности тренировок с помощью Python и линейной регрессии

Время на прочтение14 мин
Охват и читатели6.5K
Был ли эффект от регулярных тренировок? Я проанализировал данные своих предыдущих тренировок с помощью нескольких общепринятых методов и получил неоднозначные результаты.


Читать дальше →

Как мы классифицировали товары при разработке СDP-платформы

Время на прочтение8 мин
Охват и читатели2.3K

Привет, хабр!

Меня зовут Марк Порошин вместе с моим коллегой Артемом Шнайдером в DV Group мы занимаемся Data Science. Сейчас мы активно развиваем собственную платформу клиентских данных (CDP) DV Platform. Коротко расскажу, зачем вообще она нужна. Платформа обрабатывает данные из маркетплейсов и позволяет создавать и передавать сегменты пользователей, которые с наибольшей вероятностью совершат покупки конкретной категории или товара. Это позволяет оптимизировать маркетинговые бюджеты и увеличивать онлайн-продажи брендов.

Читать далее

Вклад авторов