Все потоки

Python *

Высокоуровневый язык программирования

616,84

Рейтинг

СтатьиПостыНовостиАвторыКомпании

honyaki 3 июн 2022 в 20:12

Как написать средство проверки орфографии кхмерского языка

8 мин

3.3K

Блог компании SkillfactoryPython * Программирование * Алгоритмы *

Перевод

Материалом с подробностями о реализации средства проверки и исправления орфографии кхмерского языка, основного в Камбодже, делимся к старту флагманского курса по Data Science.

Читать далее

+6

zoldaten 3 июн 2022 в 10:20

Pandas vs dask vs sqlite на raspberry pi

7 мин

4.5K

Data Engineering * Python * Raspberry Pi *

Туториал

Возникла необходимость поработать с базой штрихкодов (barcode) на одноплатнике raspberry pi. Задача простая — открыть базу данных (~700 Мб), найти штрихкод и сделать это «достаточно быстро». Как оказалось, эти действия могут вылиться в захватывающее путешествие как в части того, как в базе быстро найти нужный код, так и в части того, как эту базу быстро открыть, чтобы найти. В работе помогали фреймворки pandas, dask, а также инструмент sqlite. Кто из них справился и какие есть нюансы — в данной статье.

Читать дальше →

-4

skaynet4788 3 июн 2022 в 05:12

Обзор книги «Секреты Python. 59 рекомендаций по написанию эффективного кода»

3 мин

7.6K

Профессиональная литература * Python *

Recovery Mode

Всем доброго времени суток!

Публикую рецензию подписчика нашего телеграмм-канала IT-старт на книгу "Секреты Python. 59 рекомендаций по написанию эффективного кода" от автора Бретта Слаткина

Краткая, тезисная, но емкая рецензия.

Основные темы книги:

— Действенные рекомендации по основным аспектам разработки ПО с использованием версий Python 3.x и 2.x, дополненные подробными описаниями и примерами.

— Лучшие методики написания функций, снижающие вероятность появления ошибок в коде.

— Точное описание вариантов поведения с помощью классов и объектов. — Рекомендации относительно того, как избежать скрытых ошибок с помощью метаклассов и динамических атрибутов.

— Эффективные подходы к решению проблем, связанных с одновременным и параллельным выполнением множества операций.

— Усовершенствованные приемы работы со встроенными модулями Python.

— Инструментальные средства и лучшие методики коллективной разработки.

— Решения по отладке, тестированию и оптимизации кода.

Книгу мне порекомендовал мой друг и коллега. Добрался до данной книги я не сразу, но исходя из совета моего товарища, прочитал.

Стоит ли читать книгу?

Хочу сэкономить вам ваше время. Данную книгу я не рекомендую к чтению. Некоторые советы вызывают у меня сомнения, что-то нового и прям "вау", я также не узнал. Сложилось также впечатление, что никаких "секретов" тут нет.

Сразу хотелось бы заметить, что я в целом не фанат технической литературы, так как подобная литература отлично подходит для поверхностного и беглого просмотра темы, но читать такие книги "от корки до корки" - дело не из легких.

Читать далее

0

dmitriizolotov 2 июн 2022 в 16:19

Прокладываем тропинки до микросервисов

8 мин

23K

Блог компании OTUSPython * DevOps * Микросервисы *

Одна из наиболее важных задач при разделении системы на микросервисы - обеспечить надежный механизм их репликации и обнаружения и создать набор правил для маршрутизации входящих запросов к соответствующим контейнерам или сетевым узлам. Идеальная система также должна уметь отслеживать состояние доступности и исключать недоступные реплики из маршрутизации. В этой статье мы поговорим об использовании маршрутизатора Kong, который принимает на себя не только задачи умной маршрутизации, но и возможности по протоколированию и трансформации запросов, контролю доступа, мониторингу запросов, а также может быть расширен с использованием плагинов.

Читать далее

+5

valiotti 2 июн 2022 в 08:09

Анализируем речь с помощью Python: Как и о чем говорят на YouTube-канале «вДудь»?

8 мин

21K

Python * Проектирование API * Визуализация данных * Машинное обучение * Искусственный интеллект

Выход практически каждого ролика на канале «вДудь» считается событием, а некоторые из этих релизов даже сопровождаются скандалами из-за неосторожных высказываний его гостей.

Сегодня при помощи статистических подходов и алгоритмов ML мы будем анализировать прямую речь. В качестве данных используем интервью, которые журналист Юрий Дудь (признан иностранным агентом на территории РФ) берет для своего YouTube-канала. Посмотрим с помощью Python, о чем таком интересном говорили в интервью на канале «вДудь».

Читать далее

+20

honyaki 1 июн 2022 в 20:36

Как с помощью Python создать приложение для расшифровки речи в реальном времени

6 мин

27K

Блог компании SkillfactoryВеб-разработка * Python * Программирование * Голосовые интерфейсы *

Туториал

Перевод

Научить ИИ разговаривать шёпотом — непростая задача даже сегодня. Но мы покажем, насколько простыми стали распознавание и транскрипция речи, по крайней мере, на поверхности. Интересно? Тогда добро пожаловать под кат.

Читать далее

+4

igoral 1 июн 2022 в 12:00

Как ускорить Python с помощью C-расширений. Часть 2

10 мин

6.2K

Блог компании МТСPython * C *

Туториал

Технотекст 2022

Привет, Хабр! Меня зовут Игорь Алимов, я ведущий разработчик группы Python в МТС Digital, и это вторая часть статьи, посвященной тому, как писать быстрый код на Python с использованием C-расширений. Я расскажу о всех нюансах и приведу конкретный пример применения этого метода.

Первую часть статьи читайте здесь, чтобы увидеть продолжение – переходите под кат!

Читать далее

+9

Friflex_dev 1 июн 2022 в 11:41

Собираем генератор данных на Blender. Часть 2: Камера

5 мин

7K

Блог компании FriflexPython * Машинное обучение * Искусственный интеллект

Туториал

Всем привет! На связи Глеб, в предыдущей статье мы рассмотрели работу с объектами на Blender. Но для того, чтобы создать минимально жизнеспособный генератор, нужно разобраться в том, как работают камеры.

Читать далее

+11

Modestovich 1 июн 2022 в 10:47

Как я дообучал Tesseract и что из этого получилось

7 мин

95K

Блог компании РосатомPython *

Туториал

Из песочницы

Решал я как-то задачку по поиску сущностей в отсканированных документах. Чтобы работать с текстом, надо его сначала получить из картинки, поэтому приходилось использовать OCR. Выбор пал на одну из самых популярных и доступных библиотек Tesseract. С ее помощью задача решается очень неплохо и процент распознавания текста достаточно высокий, особенно на хороших сканах. Но нет предела совершенству, а так же ввиду наличия большого количества документов сомнительного качества, поулучшав пайплайн разными методами, было принято решение попробовать улучшить и сам тессеракт.

Инструкция от разработчиков https://tesseract-ocr.github.io/tessdoc/Home.html не всегда сразу понятна и очевидна, поэтому и появилась мысль записать свой опыт в эту статью.

У меня на компьютере стоит Linux Mint 20.2 Cinnamon, поэтому все действия происходят в этой системе и я не могу гарантировать, что все получится точно так же в Windows или Mac.

Для начала необходимо установить бибилиотеку tesseract на компьютер. Делается это достаточно просто. Сначала проверю версию, которая уже установлена (как правило в комплекте с Linux уже есть пакет tesseract). В терминале набираем

Читать далее

+11

NewTechAudit 1 июн 2022 в 07:57

Компьютерное зрение в поиске атмосферных осадков

4 мин

3.1K

Машинное обучение * Программирование * Python *

Компьютерное зрение решает задачи поиска, отслеживания и классификации объектов в самых разнообразных областях: промышленности, медицине, сфере безопасности. Одно из возможных новых применений компьютерного зрения — выявление атмосферных осадков при помощи видеокамер наружного наблюдения. О том, как можно реализовать такой алгоритм и поговорим в этом посте.

Читать далее

+3

Bee_brightside 31 мая 2022 в 13:22

Добавляйте единицы измерения в имена

3 мин

19K

Блог компании билайн бизнесJava * Python * Программирование * Качество кода *

Перевод

Есть одна ловушка читаемости кода, которой легко избежать, если вы о ней знаете; тем не менее она встречается постоянно: это отсутствующие единицы измерения. Рассмотрим три фрагмента кода на Python, Java и Haskell:

time.sleep(300)

Thread.sleep(300)

threadDelay 300

Сколько «спят» эти программы? Программа на Python выполняет задержку на пять минут, программа на Java — на 0,3 секунды, а программа на Haskell — на 0,3 миллисекунды.

Как это можно понять из кода? А никак. Вам просто нужно знать, что аргументом time.sleep являются секунды, а threadDelay — микросекунды. Если вы часто ищете эту информацию, то рано или поздно её запомните, но как сохранить читаемость кода для людей, никогда не встречавшихся с time.sleep?

Читать дальше →

+60

Picard 30 мая 2022 в 20:49

Как сделать ИИ для поиска алмазов в Minecraft

9 мин

28K

Блог компании SkillfactoryPython * Искусственный интеллектМашинное обучение * Игры и игровые консоли

Перевод

В случайно сгенерированном мире Minecraft найдём алмазы с помощью ИИ. Как обученный с подкреплением агент проявит себя в одной из самых сложных задач игры? Подробностями делимся к старту флагманского курса по Data Science.

Читать далее

+8

yevkad 30 мая 2022 в 16:20

Визуализация и анализ зимних температур Алматы за последние сто лет на Streamlit

7 мин

4.6K

Python * Визуализация данных * Открытые данные * Экология

Из песочницы

Как менялись зимние температуры в Алматы за сто лет, анализ на Streamlit.

Читать далее

+12

rafinirovannoe 30 мая 2022 в 12:55

Анонс: митап «Быстрый бэкенд». MongoDB, оптимизация алгоритмов и диагностика проблем в больших проектах

2 мин

1.8K

Блог компании JoomGo * MongoDB * Python * Программирование *

Привет, Хабр. Мы задумали встретиться офлайн в Москве и поговорить о том, как строить быстрый бэкенд и развивать его. Будут доклады о том, как живётся с большим кластером MongoDB, как битмап-индексы помогают быстро искать по каталогам и то, как анализировать большие объемы Jaeger-трейсов. Читайте пост: ниже тезисы и ссылка на регистрацию, встречаемся 4 июня.

Читать дальше →

+8

tatvch 30 мая 2022 в 09:45

Анализ аудиоданных (часть 1)

8 мин

39K

Python * Программирование * Визуализация данных * Машинное обучение * Звук

Туториал

Каждый аудиосигнал содержит характеристики. Из MFCC (Мел-кепстральных коэффициентов), Spectral Centroid (Спектрального центроида) и Spectral Rolloff (Спектрального спада) я провела анализ аудиоданных и извлекла характеристики в виде среднего значения, стандартного отклонения и skew (наклон) с помощью библиотеки librosa.

Для классификации “живого” голоса (класс 1) и его отделению от синтетического/конвертированного/перезаписанного голоса (класс 2) я использовала алгоритм машинного обучения - SVM (Support Vector Machines) / машины опорных векторов. SVM работает путем сопоставления данных с многомерным пространством функций, чтобы точки данных можно было классифицировать, даже если данные не могут быть линейно разделены иным образом. Для работы я использовала математическую функцию, используемой для преобразования (известна как функция ядра) - RBF (радиальную базисную функцию).

В первой части анализа аудиоданных разберем:

Читать далее

+8

ChoyoChagas 29 мая 2022 в 18:30

Работа в Data Science: что важно знать и как этому научиться

9 мин

67K

Python * Искусственный интеллектКарьера в IT-индустрииМашинное обучение * Big Data *

Из песочницы

Сегодня словосочетания вроде Data Science, Machine Learning, Artificial Intelligence очень популярны. При этом нередко под ними понимаются довольно разные вещи. Это зачастую смущает и запутывает людей, желающих войти в специальность: трудно разобраться, с чего начать, что действительно нужно, а что необязательно для начала. Не претендуя на общность, расскажем, как это видится на основе десятка лет опыта c решением такого рода задач для крупных клиентов со всего мира (сервис / заказная разработка / аутсорс – подставьте термин по вкусу).

Читать далее

+12

prtolem 29 мая 2022 в 10:07

Авто преписка в тг с привязкой к Google Calendar

5 мин

3.9K

Recovery Mode

Всем привет!

У меня была такая проблема что я каждый день когда ложился спать всегда ставил в нике преписку что то по типу [БУДУ ЗАВТРА В 8:00] так вот в какой то момент меня это доконало и я решил сделать так что бы скрипт сам делал мне эту преписку, но будет брать события с Google Calendar. Думаю это довольно удобно ведь так можно будет записывать в календарь все свои дела а скрипт будет автоматически ко времени преписывать их к нику.

давайте начнем!

и начнем мы с самого сложного, настройкой своего гугл аккаунта

заходим на этот сайт https://console.cloud.google.com/ входим в аккаунт гугл (не бойтесь его потерять, это официальный сайт гугла) и заполняем небольшую анкету:

первым делом мы видим такую картину

Читать далее

-6

Friflex_dev 27 мая 2022 в 15:17

Собираем генератор данных на Blender. Часть 1: Объекты

5 мин

7.7K

Блог компании FriflexPython * Машинное обучение * Искусственный интеллект

Туториал

Привет, Хабр! Меня зовут Глеб. Я работаю в компании Friflex над проектами по оцифровке спорта. Работая над idChess (приложением для распознавания и аналитики шахматных партий), мы расширяем наш датасет синтетическими данными. В качестве движка используем Blender. В этой статье рассмотрим основы взаимодействия с объектами, получение доступа через API, перемещение, масштабирование и вращение.

Читать далее

+7

kaza4ka 27 мая 2022 в 10:49

«Ваша сезонность, сэр!»: ищем тренд и прогнозируем спрос с помощью временных рядов, SARIMA и Python. Ч.1

4 мин

19K

Python * CRM-системы * Big Data * 1С *

Туториал

Как вы можете помнить по первой статье "Маркетинговая аналитика на Python. Пишем код для RFM-сегментации", более 8 лет я работаю в сфере маркетинга для B2B и примерно столько же бешусь от дилетантского подхода к аналитике, который тянет за собой ряд проблем с определением ключевых метрик эффективности для компании (и, как следствие, с мотивацией сотрудников):

Читать далее

+8

bicikar 27 мая 2022 в 08:31

Подгон под MNIST-овский датасет

7 мин

13K

Python * TensorFlow * Машинное обучение *

Из песочницы

Перевод

В интернете можно найти 1000 и 1 статью по тренингу мнистовского датасета для распознавания рукописных чисел. Однако когда дело доходит до практики и начинаешь распознавать собственные картинки, то модель справляется плохо или не справляется вовсе. Преобразуем произвольное изображение числа под MNIST-овский датасет.

Читать далее

+8

1 2 ...

258

259 260 ...