Обновить
814.5

Python *

Высокоуровневый язык программирования

Сначала показывать
Порог рейтинга
Уровень сложности

3D моделирование в Python

Время на прочтение21 мин
Охват и читатели110K

Допустим, вам потребовалось на языке программирования python, построить трёхмерную модель некоторого объекта, затем визуализировать его, или подготовить файл для печати на 3D принтере. Существует несколько библиотек, помогающих в решении этих задач. Поговорим о том, как строить трёхмерные модели из точек, граней и примитивов в python. Как выполнять элементарные приемы 3D моделирования: перемещение, поворот, объединение, вычитание и другие.

Читать далее

Не обижайте котиков и собачек, а ищите их среди… питонов

Время на прочтение5 мин
Охват и читатели1.3K

Некоторые размышления о сложностях машинного обучения, базирующиеся на практическом опыте и полёте фантазии

Читать далее

Как выглядит эффект бэггинга на смещение и дисперсию

Время на прочтение12 мин
Охват и читатели4.8K

Часто суть статей о бэггинге сводится к тому, что вы обучаете множество деревьев решений на различных частях данных и усредняете прогнозы, чтобы получить окончательный прогноз, который улучшается из-за того, что дисперсия случайного леса меньше дисперсии одного дерева решений. Тексты с таким заключением содержат отличные демонстрации, код и много других мыслей. Но криптоаналитику и дата-сайентисту, доктору Роберту Кюблеру, переводом статьи которого мы делимся сегодня, часто не хватает хороших выкладок о причине, почему бэггинг — хорошая идея, а ещё не хватает демонстраций уменьшения дисперсии на реальных данных. Восполняем этот пробел к старту нашего флагманского курса по Data Science.

Читать далее

Собеседование на позицию Data Engineer в Х5: чего ждать и как лучше подготовиться

Время на прочтение4 мин
Охват и читатели21K

В X5 Group активно развивают цифровые продукты, построенные на основе  больших данных, использующие сложную аналитику и машинное обучение, такие как прогнозирование спроса, управление ассортиментной матрицей магазинов, предсказание отсутствия товаров на полках, динамическое ценообразования и т.п. 

Для разработки продуктов формируются автономные, кросс-функциональные команды, которые имеют минимум внешних зависимостей и могут двигаться вперед с максимальной скоростью. Одной из ключевых ролей в таких командах является роль Data Engineer.

Читать далее

DataScience Digest — 12.08.21

Время на прочтение3 мин
Охват и читатели1.9K

Приветствую всех!

Встречайте свежий выпуск дайджеста полезных материалов из мира Data Science & Machine Learning подготовленный командой Data Phoenix и не забывайте подписываться на наш Telegram-канал.

Напоминаю, что 17 августа буду проводить вебинар "The A-Z of Data: Introduction to MLOps". В его рамках мы рассмотрим, что такое MLOps, основные принципы и практики, лучшие инструменты и возможные архитектуры. Мы начнем с простого жизненного цикла разработки ML решений и закончим сложным, максимально автоматизированным, циклом, который нам позволяет реализовать MLOps. Детали и обязательная предварительная регистрация здесь.

Читать далее

Парсинг Instagram в промышленных масштабах

Время на прочтение28 мин
Охват и читатели47K

В декабре 2020 года, завершив работать в научном институте, я увлёкся задачей добычи данных из соцсетей, в частности из Инстаграма. Прежде я работал только с готовыми данными, поэтому мне всегда было интересно, как эти данные можно добывать. За несколько дней до Нового Года я написал достаточно базовую статью про то как парсить Инст. В первых числах января мне написал заказчик и попросил сделать для него масштабный парсер инстаграма, который был бы способен делать более 10.000 запросов в сутки.

С тех пор прошло уже больше полугода, за которые я набил всевозможные шишки в данной области и написал промышленный парсер, который способен делать сотни тысяч, если не миллионы запросов в сутки.

В рамках данной статьи я хочу рассказать про путь развития своего Pet-Project в потенциально мощный и серьёзный инструмент. Впереди вас ждёт увлекательное путешествие от хранения данных в простых Json-ах на жестком диске сервера, до облачной базы данных и автоматической инициализации cron расписания запуска процессов внутри докер контейнера, поехали!

Поехали!

Анализ аудио. Идентификация голоса

Время на прочтение8 мин
Охват и читатели21K

Реалии современного мир таковы, что аналитику всё чаще приходится прибегать к помощи новейших алгоритмов машинного обучения для выявления тех или иных отклонений в работе исследуемой системы. Наибольшей востребованностью пользуются алгоритмы компьютерного зрения для обработки фото и видео информации, а также техники работы с естественными языками для анализа текстов. Однако не стоит забывать о такой важной сфере, как работа с аудио, о которой и пойдет речь в этой статье.

Перед нашей командой стояла задача проанализировать большое число телефонных звонков от клиентов, с целью выявления фактов псевдодоверительного управления, т.е. тех случаев, когда один и тот же человек представляет по телефону интересы нескольких клиентов. Суммарный объем аудиоданных составлял более 500Гб, а общая продолжительность 445 дней (11 тыс. часов). Естественно, прослушать все записи силами нескольких человек невозможно, поэтому решением задачи мы видели автоматическую кластеризацию похожих голосов с последующим анализом полученных групп.

В качестве модели для получения векторов голоса была выбрана модель SincNet. Но прежде чем перейти к описанию примененного метода давайте рассмотрим какие вообще существуют подходы к извлечению признаков из звука и почему мы остановились именно на SincNet.

Пожалуй, самым простым подходом в обработке звука является амплитудно-временно анализ.

Читать далее

Моя эпопея настройки автодеплоя: ошибки и открытия

Время на прочтение4 мин
Охват и читатели3.1K

С развитием моей веб-студии и ростом количества проектов, мне, как руководителю проектов, задачи стало выполнять сложнее. Сложнее стало и успевать за всем следить: что-то удалось делегировать, но все-таки некоторые задачи остались на мне и требовали вмешательства, а то и непосредственного участия. Например,  размещение исходного кода на сервере и загрузка правок все еще за мной. 

Вы сейчас закономерно заметите: “А чего ж ты сразу не сделал автодеплой? Там же все просто!”. 

Пока было не в напряг, я заливал всё сам, оправдывая это тем, что я слежу за процессом и в случае чего смогу оперативно отреагировать. 

Да-да, пайплайны падают - карван (деплой) останавливается, теперь знаю. Да и тогда тоже знал, но что-то меня останавливало... И вот, когда работы, связанной с загрузкой изменений на сервер стало намного больше, чем я мог переварить (у некоторых проектов по 3 окружения), я решился на автоматизацию. 

Каков логичный первый шаг, если хочется сделать быстрее и не погружаться в литературу очень глубоко? 

Читать далее

Знакомство с Panda Gym

Время на прочтение7 мин
Охват и читатели4.4K

К старту курса о машинном и глубоком обучении знакомим читателей с panda-gym — это библиотека с открытым исходным кодом, предоставляющая среду обучения с подкреплением интегрированному с Gym роботу Franka Emika Panda. Поддерживаются среды игр Atari, настольных игр, физические симуляции в 2D и 3D и многое другое. Это позволяет обучать несколько агентов, сравнивать их или разрабатывать новые алгоритмы машинного обучения для задач обучения с подкреплением. Подробности, как всегда, под катом, а в конце вы найдёте ссылку на блокнот Google Colab.

Читать далее

Автоботы, трансформируемся: как быстро и недорого победить 400 систем-десептиконов

Время на прочтение9 мин
Охват и читатели2.3K

Привет, Хабр!

Меня зовут Иван Маслов, я работаю в Страховом Доме ВСК на должности руководителя направления RPA. Расскажу Вам об опыте использования роботов, и о том, как упростить работу с legacy системами. Уверен, будет интересно всем: и тем, кто скептически относится к роботам, и тем, кто хочет побольше о них узнать. Подробности под катом.

Читать далее

Продолжаем ковырять Тинькофф API. Рассчитываем эффективность инвестиций

Время на прочтение12 мин
Охват и читатели25K

Продолжение публикации: "Что недоговаривают Тинькофф Инвестиции. Вытаскиваем все данные по портфелю через API в большую таблицу Excel".

В этот раз поговорим о совершённых доработках, всплывших подводных камнях, исправленных ошибках, участии сообщества, подсчитаем XIRR и попробуем сравнить доходность портфеля за 3 года с другими видами инвестиций.

Пост длинный, но много картинок

Простые запросы SNMP в Python (с помощью pysnmp)

Время на прочтение6 мин
Охват и читатели37K

Этот пост предназначен в первую очередь для сотрудников телекома, админов и новичков в разработке, впервые столкнувшихся с необходимостью отправить snmp-запросы к какому-нибудь коммутатору и разобрать полученный ответ.

Разберем основы работы с библиотекой pysnmp на примере модуля, который принимает в качестве параметров oid-ы, ip и RO-community коммутатора и отдает человекопонятный json с ответами на эти oid-ы и ifAdminStatus, ifOperStatus, ifInOctets, ifOutOctets и ответ на запрос о типах линков.

Читать далее

КПД разработчика. Как успевать жить, работать и эволюционировать. Часть 1

Время на прочтение11 мин
Охват и читатели14K

Каждый из нас по-своему находит тот самый work-life balance. Или не находит. В серии статей мы спрашиваем разработчиков со впечатляющим бэкграундом, как они успевали и успевают жить, работать и эволюционировать.

Первое интервью — с Денисом Аникиным из Райффайзен привело к неожиданным выводам. Читайте историю о том, что успешный разработчик не всегда проходит правильный путь: ВУЗ-стажировка-джун-мидл-сеньор/тимлид. Посмотрите, какие принципы помогают соблюдать баланс техдолга и разработки. И узнайте, каким вопросом не стоит себя истощать, если хотите быть счастливым человеком.

Читать далее

Ближайшие события

Python в Visual Studio Code – августовский релиз

Время на прочтение2 мин
Охват и читатели9.1K

Мы рады сообщить, что стала доступна августовская версия расширения Python для Visual Studio Code. Вы можете загрузить расширение Python из Marketplace или установить его прямо из галереи расширений в Visual Studio Code. Если у вас уже установлено расширение Python, вы также можете получить последнее обновление, перезапустив Visual Studio Code. Вы можете узнать больше о поддержке Python в Visual Studio Code в документации.

Это был небольшой выпуск, так как сейчас мы корректируем периодичность выпусков в соответствии с таковой для VS Code (кстати, не забудьте проверить примечания к выпуску VS Code, чтобы узнать, что нового для всех языков!) Если вам интересно, вы можете проверить список улучшений в нашем журнале изменений.

Ну а под катом подробности.

Читать далее

HuggingArtists | Генерируем текст песен с трансформером за 5 минут

Время на прочтение7 мин
Охват и читатели19K

image


В этой статье я расскажу о том, как создавался проект HuggingArtists и что у него под капотом.
Мне будет очень приятно, если вы поставите сразу звезду в репозитории:
GitHub stars

Читать дальше →

NER для русского языка в Spacy 3: удобно и легко

Время на прочтение8 мин
Охват и читатели19K

Славянские языки, в том числе и русский, считаются довольно сложными для обработки. В основном, из-за богатой системы окончаний, свободного порядка слов и других морфологических и синтаксических явлений. Распознавание именованных сущностей (далее, NER) представляется трудной задачей для славянских языков, где синтаксические зависимости часто маркируются морфологическими чертами, нежели определенным порядком словоформ. Поэтому NER сложен для этих языков в сравнении с германскими или романскими языками.

Читать далее

Про DevOps для тех, кто изучает Python

Время на прочтение5 мин
Охват и читатели36K

Ни за что не поверите, но оказывается IT это не только программисты. Индустрия очень стремительно разрастается и кроме разработчиков существуют project manager’ы, бизнес-аналитики, product owner’ы, scrum-мастера, тестировщики и DevOps’ы. Последние двое тесно связаны с программистами и принимают непосредственное участие в разработке ПО. К тестировщикам мы ещё вернёмся позже, а сегодня же попробуем разобраться, что скрывается за загадочным названием DevOps и как это всё связано с нашим любимым языком программирования Python.

Читать далее

Python-разработка в Тинькофф

Время на прочтение7 мин
Охват и читатели13K

В этом году команда разработчиков Тинькофф активно участвует в конференции PyCon Russia. В программе можно увидеть выступления 6 наших спикеров. В этой статье мы рассказали организаторам конференции о проектах, продуктах, адаптации новичков, Python-культуре и о том, зачем Python-разработчики приходят на работу в Тинькофф.

Читать далее

Автоматически генерируем стикеры для Телеграма из фото плакатов в интернет-магазине

Время на прочтение4 мин
Охват и читатели5.7K

Всем привет!

В этой статье я расскажу, как я автоматически генерировал 42 стикера для Телеграма на основе изображений из интернет-магазина плакатов. На сайте продаются плакаты с разными забавными надписями, но соответствующих стикеров в Телеграме нет. Попробуем сделать сами. Единственная проблема состоит в следующем: чтобы сделать один стикер, нужно скачать фотографию плаката с сайта, отделить надпись от фона в фотошопе и сохранить в нужном разрешении, чтобы она соответствовала требованиям телеграма к стикерам. Поскольку изображений 42, это муторное и трудоемкое занятие.

Давайте автоматизируем

Технический подход к пониманию интерфейсов мозг — компьютер

Время на прочтение12 мин
Охват и читатели7.4K

Пересечение медицины и науки о данных всегда было актуальным; возможно, самый очевидный пример — реализация нейронных сетей в глубоком обучении. По мере развития науки о данных и машинного обучения будет развиваться и медицина, но верно и обратное. 

Нанотехнологии, стволовые клетки, оптогенетика, метаболомика, редактирование генов и интерфейсы мозг — компьютер — вот лишь некоторые области, выигрывающие от взаимовыгодных отношений медицины и науки о данных, представители которых должны научиться расти и адаптироваться к эволюции в своей сфере — иначе они рискуют остаться позади. К старту курса по Machine Learning и Deep Learning делимся статьёй о возможностях пакета MNE для визуализации данных о мозге. По словам автора — нейрохирурга и спикера TEDx — как только MNE будет сопряжён с TensorFlow, sklearn или другой библиотекой машинного обучения, в интерфейсы мозг — компьютер сможет погрузиться любой человек.

Читать далее

Вклад авторов