Все потоки
Поиск
Написать публикацию
Обновить
411.28

Python *

Высокоуровневый язык программирования

Сначала показывать
Порог рейтинга
Уровень сложности

Адаптация подхода с применением сжатия zlib для отсеивания некачественных текстов разной длины

Время на прочтение4 мин
Количество просмотров1.8K

Недавно Сбер в статье Всё, что нам нужно — это генерация предложил интересный подход для отсеивания некачественных текстов (технического мусора и шаблонного спама). Но разве коэффициент сжатия zlib на качественных текстах не имеет нелинейной зависимости от длины сжимаемого текста? Давайте проверим.

Читать далее

Как установить ROS NOETIC на UBUNTU 20.04

Время на прочтение4 мин
Количество просмотров18K

Как установить ROS Noetic на Ubuntu? Читайте в моей первой публикации.

Прочитать

Генетический алгоритм vs алгоритм роя частиц

Время на прочтение11 мин
Количество просмотров16K

К задачам поиска лучшего варианта решения (объекта, параметров или других данных) сводятся многие из проблем математики, экономики, статистики и т.д. Эти проблемы возникают, когда приходится строить математическую модель ситуации. При обработке полученной математической модели не всегда является возможным перебрать все данные, предоставленные системой, поэтому возникает потребность в разработке таких алгоритмов, которые могли бы искать оптимальные данные с некоторыми погрешностями, чтобы ограничить зону обработки данных для поиска последующих лучших значений.

В данной статье под задачей оптимизации понимается нахождение экстремума (минимума) некоторой вещественной функции в заданной области. Будут рассмотрены два самых важных алгоритма в оптимизации: генетический алгоритм и алгоритм роя частиц.

Ознакомиться

Разочарованы в IT? RPA как основа IT архитектуры, которая победит Микросервисы

Время на прочтение9 мин
Количество просмотров7.6K

Уже прошло несколько десятилетий под эгидой развития IT технологий, но мы по-прежнему повсеместно сталкиваемся с косяками в IT системах, например: В продуктовом магазине на кассе не смогли пробить товар; В отделении почты не удалось отправить посылку; В интернет-магазине не работает форма онлайн-оплаты; В пиццерии не удается оформить онлайн-заказ. И так далее..

К огромному счастью эпоха таких проблем потихоньку близится к своему закату, и огромную роль в этом играет именно технология роботизации RPA, которую стало возможно рассматривать как основу всей IT инфраструктуры компании, с того момента, когда появилась pyOpenRPA.

Очень интересно - читать далее

Развертывание приложений Django

Время на прочтение3 мин
Количество просмотров18K

После того, как мы закончили разработку веб-приложения, оно должно быть размещено на хосте, чтобы общественность могла получить доступ к нему из любого места. Мы посмотрим, как развернуть и разместить приложение на экземпляре AWS EC2, используя Nginx в качестве веб-сервера и Gunicorn в качестве WSGI.

Читать далее

Python: 18 задач на вывод символов по заданному шаблону

Время на прочтение3 мин
Количество просмотров78K
Подготовка к техническому собеседованию по Python — нелёгкая задача. На таком собеседовании вам, вполне возможно, встретятся задачи на вывод символов по заданным шаблонам. Если вы хотите научиться решать такие задачи — вам может пригодиться подборка способов их решения, приведённая в этом материале.



Здесь продемонстрировано 18 примеров кода. Начинающие программисты вполне могут проработать всё по порядку, а опытные могут разобраться именно с тем, что им нужно. Главное — понять, как устроен тот или иной пример. Отсутствие чёткого понимания того, что происходит в программах, способно сыграть злую шутку с тем, кто, например, заучив фрагмент кода и воспроизведя его на собеседовании, попытается объяснить то, как именно этот код работает. А тех, кто проводит собеседование, часто интересуют именно такие вот разъяснения.
Читать дальше →

HMM: ловим мошеннические транзакции

Время на прочтение5 мин
Количество просмотров5.8K

Три года я проработал в Сербии iOS-евангелистом - было два профильный проекта и один Machine Learning-овый.

Если вам стало интересно - добро пожаловать в мир HMM.

Читать далее

Липкие сессии для самых маленьких [Часть 1]

Время на прочтение4 мин
Количество просмотров31K

Липкие сессии (Sticky-session) — это особый вид балансировки нагрузки, при которой трафик поступает на один определенный сервер группы. Как правило, перед группой серверов находится балансировщик нагрузки (Nginx, HAProxy), который и устанавливает правила распределения трафика на доступные сервера.

В первой части цикла мы посмотрим как создавать липкие сессии с помощью Nginx. Во второй же части разберем создание подобной балансировки средствами Kubernetes.

Вляпаться

Как сделать полнотекстовую поисковую машину на 150 строках кода Python

Время на прочтение14 мин
Количество просмотров30K

Полнотекстовый поиск — неотъемлемая часть нашей жизни. Разыскать нужные материалы в сервисе облачного хранения документов Scribd, найти фильм в Netflix, купить туалетную бумагу на Amazon или отыскать с помощью сервисов Google интересующую информацию в Интернете — наверняка вы сегодня уже не раз отправляли похожие запросы на поиск нужной информации в невообразимых объёмах неструктурированных данных. И что удивительнее всего — несмотря на то что вы осуществляли поиск среди миллионов (или даже миллиардов) записей, вы получали ответ за считанные миллисекунды. Специально к старту нового потока курса Fullstack-разработчик на Python, в данной статье мы рассмотрим основные компоненты полнотекстовой поисковой машины и попытаемся создать систему, которая сможет за миллисекунды находить информацию в миллионах документов и ранжировать результаты по релевантности, причём всю систему можно воплотить всего в 150 строках кода на Python!

Читать далее

Сравнение ассортимента блюд трёх ресторанов Санкт-Петербурга

Время на прочтение7 мин
Количество просмотров6.9K

Мне никогда раньше не приходилось иметь дело с парсингом данных из интернета. Обычно все данные для работы (аналитик данных) приходят из выгрузок компании с использованием простого внутреннего интерфейса, либо формируются sql-запросами к таблицам напрямую из хранилища, если нужно что-то более сложное, чем “посмотреть выручку за предыдущий месяц”. 

Поэтому мне захотелось освоить какой-нибудь несложный инструмент парсинга html-страниц, чтобы уметь собирать данные из интернета с помощью кода в удобной для себя IDE без привлечения сторонних инструментов. 

Сайты для сбора данных были подобраны по принципу “нет блокировщика парсеров” и “из анализа этих данных может выйти что-то интересное”. Поэтому выбор пал на ассортимент блюд на доставку трёх ресторанов Санкт-Петербурга - “Токио City”, “Евразия” и “2 Берега”. У них приблизительно одна направленность кухни и похожий ассортимент, поэтому явно найдется, что сравнить. 

Что из этого получилось?

Python & оптимизация времени и памяти

Время на прочтение8 мин
Количество просмотров35K

Зачастую скорость выполнения python оставляет желать лучшего. Некоторые отказываются от использования python именно по этой причине, но существует несколько способов оптимизировать код python как по времени, так и по используемой памяти. 

Хотелось бы поделиться несколькими методами, которые помогают в реальных задачах.

Изучить статью

Отбор признаков в задачах машинного обучения. Часть 1

Время на прочтение12 мин
Количество просмотров67K

Часто наборы данных, с которыми приходится работать, содержат большое количество признаков, число которых может достигать нескольких сотен и даже тысяч. При построении модели машинного обучения не всегда понятно, какие из признаков действительно для неё важны (т.е. имеют связь с целевой переменной), а какие являются избыточными (или шумовыми). Удаление избыточных признаков позволяет лучше понять данные, а также сократить время настройки модели, улучшить её точность и облегчить интерпретируемость. Иногда эта задача и вовсе может быть самой значимой, например, нахождение оптимального набора признаков может помочь расшифровать механизмы, лежащие в основе исследуемой проблемы. Это может быть полезным для разработки различных методик, например, банковского скоринга, поиска фрода или медицинских диагностических тестов. Методы отбора признаков обычно делят на 3 категории: фильтры (filter methods), встроенные методы (embedded methods) и обёртки (wrapper methods). Выбор подходящего метода не всегда очевиден и зависит от задачи и имеющихся данных. Цель настоящего цикла статей - провести краткий обзор некоторых популярных методов отбора признаков с обсуждением их достоинств, недостатков и особенностей реализации. Первая часть посвящена фильтрам и встроенным методам.

Читать далее

R vs Python в продуктивном контуре

Время на прочтение2 мин
Количество просмотров5.2K

Элегантные трюки в notebook на персональном компьютере (ноутбуке) — это хорошо и интересно. Но как только речь заходит об исполнении кода в продуктивном контуре, тут же появляются масса ограничений в виде:


  • объема доступного железа;
  • требований по производительности;
  • стабильности;
  • соблюдения требований ИБ;
  • … (добавьте специи по вкусу).

Нынче в России такая фаза, что для задач data science язык python позиционируется как "серебряная пуля". Похоже, что такой тезис выдвинули те, кто продают курсы по DS на python. А дальше маховик пошел. В целом, это вполне нормально — почти все процессы в физическом мире являются колебательными.


Но, все-таки, в этом хайпе немного недоговаривают. Есть в python ряд досадных моментов, даже в базовых DS задачах, которые сильно усложняют его использование в продуктивном контуре.


Является продолжением серии предыдущих публикаций.

Читать дальше →

Ближайшие события

Полезности для разработчика на Django

Время на прочтение6 мин
Количество просмотров8.5K

Для написания данной статьи был изучен очень большой пласт материала, разбросанного по всему Интернету, по форумам, чатам, сайтам-блогам, stackoverflow. Я собрал все воедино, так как это пригодится и мне и очень надеюсь, что другие разработчики на Django, также, останутся довольны данным материалом. Если есть что добавить (улучшить) или поправить, пожалуйста, пишите в комментариях или в Диалоги ( личные сообщения ) Хабр.

Мы рассмотрим: "Тестирование handler 404" в окружении разработчика, "Формсеты и динамическое добавление форм", а также "Экспорт данных в PDF с поддержкой кириллицы (русских символов / букв)".

Читать далее

Impala для Python-разработчика на примере определения фрода при анализе трафика в маркетинговой платформе

Время на прочтение9 мин
Количество просмотров3.7K

Python-приложения традиционно работают с реляционными БД. Для этого у них есть нужная инфраструктура, множество различных решений и практик. Но иногда приходится использовать другие решения для хранения и обработки данных. Для разработки ETL есть много специализированных инструментов. Но что делать, если есть python-приложение и не хочется разрабатывать какие-то еще сервисы для процессинга данных? Попробуем выделить фродовые эвенты из большого массива данных, хранящихся в Impala, и сделать конструктор отчетов по таким эвентам с помощью только обычного асинхронного веб-приложения на базе python/fastapi.

Читать далее

Оптимизация рабочего процесса при помощи fzf

Время на прочтение14 мин
Количество просмотров13K

Работа в оболочке включает в себя выполнение одних и тех же команд снова и снова; что меняется, так это порядок выполнения команд и их параметры. Один из способов упростить рабочий процесс — найти паттерны выполнения команд с аргументами и обернуть их в небольшие скрипты. Такой подход часто оказывается полезным, сильно упрощая работу; другой способ оптимизации рабочего процесса — понять, как добавляются параметры, и попробовать упростить сам ввод. И в преддверии старта нового потока курса Fullstack-разработчик на Python, в этом посте я расскажу о втором подходе.

Читать далее

Нейродайджест: главное из области машинного обучения за март 2021

Время на прочтение6 мин
Количество просмотров5K

В марте было особенно много новостей про применение самообучения в области компьютерного зрения. Главная проблема, которую пытаются решить самообучающиеся модели — выполнять задачи, не полагаясь на тщательно подобранные и помеченные наборы данных. FAIR и Microsoft представили сразу несколько исследований и инструментов на эту тему.

Перейти к обзору

Как мы не сделали стартап в сфере телемедицины

Время на прочтение2 мин
Количество просмотров4K

В 2019 году я и мой товарищ решили сделать проект под названием "Polyclinica". Его основной идеей было перенаправить трафик людей, "гуглящих" свои симптомы в приложение-чатбот (a.k.a симптом-чекер), рекомендующий пользователю врача, к которому стоит обратиться. К врачу также можно записаться прямо на сайте через интеграцию API https://docdoc.ru/. Мы разработали полноценный MVP, выступали на нескольких стартап-конференциях, но что-то пошло не так. Цель написания данной статьи -- проанализировать свои ошибки и получить обратную связь от компетентных читателей.

Читать далее

Все важные фичи и изменения в Python 3.10

Время на прочтение8 мин
Количество просмотров60K

Если вам хочется попробовать все фичи великолепной последний версии Python, нужно установить альфа или бета-версию. Однако учитывая, что эти версии не стабильны, мы не хотим перезаписывать дефолтную установку языка. Будем устанавливать альфу Python 3.10 рядом с текущим интерпретатором. И в преддверии старта нового потока курса Fullstack-разработчик на Python — обозревать все новшества новой версии языка.

Читать далее

Поиск изображений

Время на прочтение5 мин
Количество просмотров13K

Пытаясь реализовать обратный поиск изображений для своего сайта, я столкнулся с огромным миром поиска изображений. Ниже приведены краткие описания и варианты применения некоторых подходов обратного поиска/поиска похожих изображений.

Читать далее

Вклад авторов