Обновить
500.92

Python *

Высокоуровневый язык программирования

Сначала показывать
Порог рейтинга
Уровень сложности

Анализ текстовых данных с использованием тематического моделирования

Время на прочтение14 мин
Охват и читатели22K

Анализ текстовых данных становится все более важным в наше время, когда огромные объемы информации генерируются и обмениваются каждую секунду. От социальных медиа до новостных порталов, от клиентских отзывов до академических статей — текстовые данные содержат бесценные знания и инсайты. Однако извлечение значимой информации из таких объемов текста может быть огромным вызовом.

Компании хотят понимать общественное мнение о своих продуктах и брендах, но анализировать миллионы постов и комментариев вручную практически невозможно. Вот где анализ текстовых данных и тематическое моделирование приходят на помощь. Эти методы позволяют автоматически выявлять темы, тональность и структуру текста, делая процесс анализа эффективным и масштабируемым.

Читать далее

Разбираемся в «базовых» алгоритмах для проекта

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели38K

Меня зовут Александр Певненко, я Java developer в СберТехе. Вместе с командой развиваю Platform V DataSpace — BaaS-продукт, обеспечивающий базовые сервисы для работы с данными.

В этой статье я собрал примерный список алгоритмов, которые использую в работе с высоконагруженным проектом с большой кодовой базой. Материал будет интересен всем, кто на практике решает задачи оптимизации и вообще задумывается, обязательно ли разработчику глубоко погружаться в математику.

Если скорость и производительность критичны для системы, то оптимизация кода перестает быть пустой тратой времени. А использование сторонних библиотек без понимания их устройства становится риском, так как может обернуться падением производительности.

Поэтому здесь я приведу несколько «базовых» алгоритмов, знание которых помогает мне работать с прицелом на эффективность кода, и дополню примерами на Python и Java.

Читать далее

Использование конечных автоматов с несколькими активными состояниями для автоматизации бизнес-процессов

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели3.8K

Производственная деятельность предприятия связана с работой ответственных должностных лиц над одним или несколькими документами, включая электронные. Порядок прохождения документов определён нормативными актами. Каждое должностное лицо заполняет ту или иную часть документа, согласовывает, утверждает документ, возвращает его на доработку, участвует в выполнении работ по документу.

Бизнес процессы, описывающие производственную деятельность принято представлять в формате BPMN, а системы, автоматизирующие бизнес-процессы, часто создают с использованием ИТ-платформ типа Camunda. Camunda выступает в роли BPMN-движка.

Camunda довольно специфический продукт, требующий привлечения специалистов соответствующей квалификации. Можно предложить подход к автоматизации бизнес-процессов, не требующий специальной подготовки аналитиков и разработчиков.

Читать далее

JSON и XML для новичков

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели65K

Краткое описание понятий json и xml, а также работа с ними на языке python.

Всем привет! Это моя первая статья, немного волнительно, но потными ладошками все же пишу. Идея написания пришла ко мне после задачи на работе, которая была связана с направлением xml - файлов в ЦБ. Думаю, многие аналитики, работающие в банке, сталкивались или еще столкнутся с подобными задачами, поэтому хочу помочь будущим поколениям.

Читать далее

Просто о Deep #1

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели5.6K

Боль в написании backend

Разберем, какие есть боли у backend разработчика и как deep.foundation решает данную проблему и что предлагает для разработчика.

In deep

Создание красивого Desktop-приложения на Python (customtkinter)

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели93K

Если Вы как и я решили впервые взглянуть в сторону Python после нескольких попыток изучения С++/C# то скорее всего первым проектом станет desktop-приложение. Отходя от темы скажу что тяга к изучению этих языков была безнадежно утрачена в виду классического преподавания в духе "лишь бы сдали" и бесчисленных однотипных и монотонных лекций. Как я сказал выше хоть и на начальном уровне, но я всё же касался разработки приложений для шинды и поэтому мне хотелось посмотреть на принципы работы питона сначала отсюда(а не прыгать в django и прочие мощные фреймворки).

Читать далее

Развертывание docker контейнера с easyocr в закрытом контуре предприятия

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели6.6K

Привет, Хабр! На просторах интернета, да и на самом Хабре есть огромное количество статей про OCR. Сегодня я бы хотел рассказать не про процесс распознавания текста а про методику развертывания решения в закрытом контуре (проще говоря - без интернета).

Читать далее

Чтобы ускорить работу Numba и кода NumPy, нужно понять, как работают процессоры

Время на прочтение11 мин
Охват и читатели8.4K

Если вам нужно ускорить обработку NumPy или просто сократить использование памяти, попробуйте компилятор Numba just-in-time. С его помощью можно писать код на языке Python, который во время выполнения компилируется в машинный код. Это позволяет получить прирост скорости, сопоставимый с приростом, который можно получить на C, Fortran или Rust.

По крайней мере, так считается в теории. На практике же код на Numba может быть не быстрее, чем эквивалент NumPy. Но если лучше понимать, как работают процессоры, можно добиться большего. Эти знания помогут более широко использовать любой компилируемый язык. В этой статье мы:

Рассмотрим простую задачу обработки изображений.

Попытаемся (поначалу безуспешно) ускорить ее с помощью Numba.

Рассмотрим, почему современные процессоры такие быстрые, и каковы возможности компиляторов.

Опираясь на полученные знания, скорректируем наш код так, чтобы он выполнялся в 25 раз быстрее по сравнению с первоначальной версией.

Читать далее

Метаданные как обезбол при миграции

Уровень сложностиСредний
Время на прочтение5 мин
Охват и читатели4K

Привет! Меня зовут Наташа Красильникова, я старший аналитик команды Operations Analytics в Skyeng. Мы завязаны на работе с сотней сервисов компании: забираем данные из сервисов и интегрируем много локальных документов с бизнесовыми маппингами, таргетами, а иногда и просто какими-то дополнительными данными.

Когда пришло время мигрировать наше многолетнее легаси на новый DWH… что ж, мы пережили целый спектр острых эмоций. И, конечно, выработали ноу-хау, чтобы сгладить переход и сделать его менее болезненным. В статье расскажу, что придумали и как применяли.

Читать далее

Пятифакторный тест личности — бот в Телеграм

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели4.5K

В качестве повышения собственного уровня в программировании я решил написать бота в Телеграм, который проводит тестирование по 5-Factor Model of Personality. Простыми словами, это тест, в котором участники отвечают в формате от "Полностью согласен" до "Полностью не согласен" на ~50 вопросов, на подобие "я душа компании" или "я часто беспокоюсь". На выходе, мы получаем результаты от 1 до 100 по пяти факторам - Открытость к опыту, Сознательность, Экстраверсия, Доброжелательность, Невротизм (эмоциональная стабильность).

Интерпретировать результаты можно таким нехитрым способом. Например, мы получаем 70 по экстраверсии - это означает, что, если бы в комнате находились 100 человек, расположенных в порядке возрастания их экстраверсии, то мы стояли бы на 70 месте. То есть, мы были бы более общительны, чем 70% людей в комнате. Надеюсь, что звучит нетрудно.

Думаю, что выбор языка python для написания бота в Телеграм является незамысловатым решением, так как большинство ботов написаны на питоне и обилие библиотек на питоне для работы с API Телеграм сильно упрощает работу и позволяет сконцентрироваться на предмете работы. Библиотеку использовал python-telegram-bot.

Правильность подсчета результатов является основой любого теста. Для данного бота я взял эти данные. Там содержатся более миллиона итогов прохождений данного тестирования другими людьми. Что нам нужно, это:

Читать далее

Как правильно дифференцировать дискретные функции (Часть 2. Все-таки, МКЭ?)

Уровень сложностиСредний
Время на прочтение10 мин
Охват и читатели12K

Публикация является продолжением обсуждения алгоритмов вычисления первой производной дискретной функции (функции, заданной массивом {аргумент: значение}, или массивом узловых значений). В части первой обсуждались функции из библиотеки NumPy, и был предложен альтернативный алгоритм, повышающий точность расчетов на границах области определения функции. В настоящей публикации предложены 2 алгоритма на основе метода конечных элементов (МКЭ, Finite Elements Method), один из которых показал на тестовых функциях лучшие результаты в сравнении с альтернативами.

Читать далее

Строим пайплайн в sсikit-learn — пошаговое руководство

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели39K

Привет, Хабр! Меня зовут Иван Сивков, я наставник на курсе «Специалист по Data Science» в Яндекс Практикуме. В этой статье покажу, как построить пайплайн в библиотеке scikit-learn на базе встроенных инструментов и сократить количество кода при преобразовании данных. Эта статья рассчитана на новичков, которые только начинают изучать Data Science, но уже знают основные понятия.

Читать далее

Архитектурные нюансы OpenStack. Принципы работы компонентов Nova

Уровень сложностиСредний
Время на прочтение11 мин
Охват и читатели18K

OpenStack — широко распространенная облачная платформа. На ее базе построены десятки, а то и сотни проектов: приватных и публичных. Ее многочисленные модули позволяют достаточно просто наращивать функциональность конечного решения: от понятных DBaaS (Database as a Service) до специфичных AXaaS (Acceleration as a Service).

По мере развития CLO возникла необходимость доработки платформы под собственные нужды. В процессе написания патчей мне сильно не хватало понимания архитектурных принципов OpenStack. Часть информации я смог найти в документации, часть мне приходилось вытаскивать из исходников, поэтому я решил систематизировать знания и поделиться с сообществом.

В цикле статей мы рассмотрим основные компоненты OpenStack, механизмы их взаимодействия и как именно разработчиками был реализован основной функционал. Статья будет интересна инженерам, разработчикам облачных сервисов и всем тем, кто хотел заглянуть под капот, но стеснялся.

А так как Nova (он же Compute) является едва ли не основным сервисом, который эксплуатируют все остальные, с него и начнем.

Читать далее

Ближайшие события

Структура тестового фреймворка

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели18K

Любой автоматизатор тестов рано или поздно сталкивается с задачей либо дополнить, либо расширить тестовый фреймворк. К тому же, у многих есть профессиональная цель написать свой тестовый фреймворк. Чтобы реализовать это, необходимо знать и понимать архитектуру тестовых фреймворков, так как от заложенной архитектуры зависит стабильность, расширяемость и гибкость вашего фреймворка и тестов в целом. 

Всем известная организация ISTQB разработала общую схему (архитектуру) компонентов, из которых должен состоять тестовый фреймворк. В этой статье разберем, что это за компоненты и для чего они нужны.

Читать далее

Разработка RESTful API на Python с помощью HappyX

Время на прочтение2 мин
Охват и читатели2.6K

До этого я писал о разработке веб приложений на Nim здесь и здесь.


Что? Какой Nim? В заголовке указан Python!

Да, до недавнего времени писать веб приложения на веб фреймворке HappyX было возможно лишь с помощью Nim. На данный момент HappyX доступен и на Python. Любой желающий может воспользоваться библиотекой, если не знает Nim.


веб фреймворк HappyX


В этой статье мы создадим фейковое API GitHub'а.

Читать дальше →

BI-аналитика на коленке: делаем веб-аналитику в DataLens

Уровень сложностиСредний
Время на прочтение4 мин
Охват и читатели16K

Привет. Я Витя, продуктовый аналитик в Тинькофф Страховании. Как и многие мои коллеги, я привык работать с готовыми мастер-системами, готовыми ETL-процессами, готовыми инструментами работы с данными. Всё это я уже давно воспринимаю как должное.

Однако что делать, если ты - человек с большим бэкграундом в аналитике, а перед тобой pet-project, где хочется тратить на всё 0 рублей, на проекте пару рук и ещё ничего не настроено?

Читать далее

Курс проложит аналитик: проверьте, какими SQL-скилами вы экипированы

Время на прочтение1 мин
Охват и читатели23K

Если вы не первый год в аналитике, то знаете, каково это — прокладывать дорогу сквозь неопределённость. Рассматривать гипотезы и принимать ту, по которой работать, — это как выбирать дорогу, по которой идти всей команде. Волнительно и непросто отправляться на неосвоенные земли.

Вот вы — хороший штурман? Готовы встретиться с вызовами? Перетряхнём же рюкзак, посмотрим, чем он набит, и есть ли там самое важное, без чего не выжить в пути.

Пройти тест

Статистика по финансовым рынкам или будни дата-аналитика

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели4.9K

Есть крутой статистический портал, аггрегатор данных по большинству финансовых бирж - WORLD FEDERATION OF EXCHANGES (WFE). На этом сайте представлен широкий спектр разнообразных данных, множество интересных показателей - раздолье для дата-аналитика. Какие биржи самые крупные? Какие имеют самую высокую динамику развития? Где больше всего активности? На эти и многие другие вопросы можно ответить, зная python и приложив немного усилий и фантазии.

В этом посте в качестве упражнения покажу, как можно поиграть с данными, посмотреть статистику и понаблюдать за динамикой выбранных показателей.

Читать далее

Мультиплеер PyGame. Пишем сервер и клиент. Часть 1

Уровень сложностиСредний
Время на прочтение5 мин
Охват и читатели23K

Это моя первая статья и серия из статьей о написании мультиплеерной игры на Python с использованием библиотеки Pygame.

Читать далее

Преобразование табличных данных в Python

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели7.2K

Предположим: вы полны желания изучить  манящий массив данных. К счастью, для этого достаточно вашего компьютера. Итак, вы открываете блокнот Python или REPL, чтобы начать работать:  какую библиотеку использовать? Естественно, вы можете обратиться к старой доброй Pandas. А как насчет новой модной библиотеки фреймов данных, например Polars или datatable? А ещё, для разнообразия, можно попробовать встроенный SQL с помощью DuckDB.

Давайте погрузимся в прекрасную область фреймов данных, чтобы сделать выбор!

PS: Используйте DuckDB, если вам удобно работать с SQL, Polars или Pandas с поддержкой PyArrow, если вам не нужно какое-то специфическое расширение NumPy, и задействуйте PyArrow в том случае, если вы не против ручной оптимизации.

Читать далее

Вклад авторов