Все потоки

Python *

Высокоуровневый язык программирования

СтатьиПостыНовостиАвторыКомпании

FooBar167 24 фев 2020 в 15:19

Сканирующее окно по массивам NumPy

9 мин

24K

Python * Алгоритмы * Программирование * Качество кода *

CoLab блокнот с примерами.

Возможно сделать скользящее окно (rolling window, sliding window, moving window) по массивам NumPy на языке программирования Python без явных циклов. В данной статье рассматривается создание одно-, двух-, трех- и N-мерных скользящих окон по массивам NumPy. В результате скорость обработки данных увеличивается в несколько тысяч раз и сравнима по скорости с языком программирования С.

Cкользящее окно применяется в: обработке изображений, искусственных нейронных сетях, интернет протоколе TCP, обработке геномных данных, прогнозировании временных рядов и т.д.

Отказ от ответственности: в исходном коде могут быть ошибки! Если вы видите ошибку, пожалуйста, напишите мне.

Введение
Скользящее 1D окно по ND массиву в Numpy
Скользящее 2D окно по ND массиву в Numpy
Скользящее 3D окно по ND массиву в Numpy
Скользящее MD окно по ND массиву, где M ≤ N
Скользящее MD окно по ND массиву для любых M и N

Читать дальше →

+15

iVerner 24 фев 2020 в 11:52

Выбираемся из ада зависимостей в QlikView

13 мин

12K

Data Engineering * Python * Анализ и проектирование систем * Визуализация данных * Софт

Технотекст 2020

Keanu-1

TL;DR;

В статье описано, как внедрялся Apache Airflow для управления заданиями обновления отчетности, построенной на QlikView в достаточно крупном внедрении.

Читать дальше →

+3

cointegrated 24 фев 2020 в 06:56

Как сжать модель fastText в 100 раз

12 мин

24K

Машинное обучение * Алгоритмы * Python * Natural Language Processing * Data Mining *

Модель fastText — одно из самых эффективных векторных представлений слов для русского языка. Однако её прикладная польза страдает из-за внушительных (несколько гигабайт) размеров модели. В этой статье мы показываем, как можно уменьшить модель fastText с 2.7 гигабайт до 28 мегабайт, не слишком потеряв в её качестве (3-4%). Спойлер: квантизация и отбор признаков работают хорошо, а матричные разложения — не очень. Также мы публикуем пакет на Python для этого сжатия и примеры компактной модели для русских слов.

Читать дальше →

+40

albartash 23 фев 2020 в 15:28

Сдруживаем Python и Bash: библиотеки smart-env и python-shell

5 мин

22K

Python * DevOps *

Из песочницы

Доброго времени суток всем.

На сегодняшний день Python является одним из наиболее используемых языков в сфере создания не только непосредственно программных продуктов, но также обеспечения их инфраструктуры. Вследствие этого многим девопсам, по их воле или против оной, пришлось учить новый язык для последующего использования в качестве дополнения к старым добрым Bash-скриптам. Однако Bash и Python исповедуют различные подходы к написанию кода и имеют определенные особенности, в виду чего портирование Bash-скриптов на «змеиный язык» иногда оказывается ёмкой и далеко не тривиальной задачей.

Чтобы упростить жизнь девопсам, создано и продолжает создаваться много полезных библиотек и утилит на Python. Данная статья описывает сразу две новых библиотеки, созданные автором сего поста — smart-env и python-shell — и призванные избавить девопса от необходимости уделять много внимания тонкостям работы с Python, оставляя простор для более интересных задач. Сфера деятельности библиотек — переменные окружения и запуск внешних утилит.

Кого заинтересовало, прошу под кат.

Читать дальше →

+8

RalfHacker 23 фев 2020 в 10:09

Hack The Box — прохождение Zetta. FXP, IPv6, rsync, Postgres и SQLi

6 мин

6.8K

CTF * Python * Информационная безопасность *

Туториал

Продолжаю публикацию решений отправленных на дорешивание машин с площадки HackTheBox. Надеюсь, что это поможет хоть кому-то развиваться в области ИБ. В данной статье узнаем IPv6 адрес сервера с помощью FXP, поработаем с rsync, а также запишем ssh-ключ используя SQL-инъекцию при обработке журналов логов в Postgres.

Подключение к лаборатории осуществляется через VPN. Рекомендуется не подключаться с рабочего компьютера или с хоста, где имеются важные для вас данные, так как Вы попадаете в частную сеть с людьми, которые что-то да умеют в области ИБ :)

Организационная информация

Специально для тех, кто хочет узнавать что-то новое и развиваться в любой из сфер информационной и компьютерной безопасности, я буду писать и рассказывать о следующих категориях:

PWN;
криптография (Crypto);
cетевые технологии (Network);
реверс (Reverse Engineering);
стеганография (Stegano);
поиск и эксплуатация WEB-уязвимостей.

Вдобавок к этому я поделюсь своим опытом в компьютерной криминалистике, анализе малвари и прошивок, атаках на беспроводные сети и локальные вычислительные сети, проведении пентестов и написании эксплоитов.

Читать дальше →

+8

MaxRokatansky 20 фев 2020 в 13:12

Как в Python реализованы очень длинные числа типа integer?

6 мин

78K

Блог компании OTUSPython * Программирование *

Перевод

Перевод статьи подготовлен специально для студентов курса «Разработчик Python».

Когда вы пишете на низкоуровневом языке, таком как С, вы беспокоитесь о выборе правильного типа данных и спецификаторах для ваших целых чисел, на каждом шаге анализируете достаточно ли будет использовать просто int или нужно добавить long или даже long double. Однако при написании кода на Python вам не нужно беспокоиться об этих «незначительных» вещах, потому что Python может работать с числами типа integer любого размера.

Читать дальше →

+32

KeyMan 20 фев 2020 в 08:24

Добавление своих полей в отчет Pytest

9 мин

7.3K

Python * Тестирование IT-систем *

Туториал

Столкнулся с задачей модификации html-отчета при работе с pytest, в результате чего нашёл удобное для своей задачи решение, хочу им поделиться — возможно кому-то пригодится.

* Все картинки кликабельны

Читать дальше →

+2

MaxRokatansky 19 фев 2020 в 13:08

Невероятная производительность ввода-вывода с параллельным Apache Parquet на Python

3 мин

9.5K

Блог компании OTUSBig Data * Python *

Перевод

В преддверии старта курса «Data Engineer» подготовили перевод небольшого, но интересного материала.

В этой статье я расскажу о том, как Parquet сжимает большие наборы данных в маленький файл footprint, и как мы можем достичь пропускной способности, значительно превышающей пропускную способность потока ввода-вывода, используя параллелизм (многопоточность).

Читать дальше →

+8

de_evjeny 19 фев 2020 в 12:41

Ансамбли нейронных сетей с PyTorch и Sklearn

15 мин

23K

Программирование * Машинное обучение * Python *

Туториал

Технотекст 2020

Из песочницы

Нейронные сети довольно популярны. Их главное преимущество в том, что они способны обобщать довольно сложные данные, на которых другие алгоритмы показывают низкое качество. Но что делать, если качество нейронной сети все еще неудовлетворительное?

И тут на помощь приходят ансамбли...

Что такое ансамбли

Ансамбль алгоритмов машинного обучения — это использование нескольких (не обязательно разных) моделей вместо одной. То есть сначала мы обучаем каждую модель, а затем объединяем их предсказания. Получается, что наши модели вместе образуют одну более сложную (в плане обобщающей способности — способности "понимать" данные) модель, которую часто называют метамоделью. Чаще всего метамодель обучается уже не на нашей первоначальной выборке данных, а на предсказаниях других моделей. Она как бы учитывает опыт всех моделей, и это позволяет уменьшить ошибки.

Читать дальше →

+4

spasibo_kep 19 фев 2020 в 10:41

Делимся самым большим в РФ пластом данных по онлайн-обучению с проектами по лингвистике, персонализации, педдизайну, ML

3 мин

4.9K

Блог компании SkyengОткрытые данные * Машинное обучение * Python *

Перед Новым годом команда Михаила Sverdlove Свердлова объявила, что готова делиться обезличенными данными уроков Skyeng с внешними исследователями и стартапами. Вскоре после праздников мы поговорили с Мишей, о каких именно данных идет речь, что уже с ними делают и почему получить свой дата-сет можно, только написав ему на почту.

— Если вы делитесь данными, то почему бы просто не залить датасет куда-нибудь?
Самый большой корпус английского языка в России, по-моему, составляет 10 тысяч позиций. К концу января в нашей школе глобально прошло свыше 9,1 миллионов уроков — насколько знаю, большим набором именно по онлайн-образованию и урокам один-на-один обладают только китайские школы.

Мы знаем, что происходило и как менялись действия учителя и ученика за все уроки, которые мы провели, у нас есть трек истории всех упражнений по ним. Это порядка 120 метрик по учителям, а также около 300 параметров по детям двух возрастных групп (4-11 и 11-18 лет) и взрослым разных возрастов, городов, статусов (например, студентам) и так далее. И это точно не все параметры, которые мы можем собирать, — кажется можно использовать в 2-3 раза больше. На таком объеме история «вот ссылка на датасет, покрутите, кто хочет» едва ли будет работать.

Читать дальше →

+11

chemtech 19 фев 2020 в 07:29

Ansible playbooks — это код: проверяем, тестируем, непрерывно интегрируем. Иван Пономарёв

20 мин

23K

DevOps * IT-инфраструктура * Python * Серверное администрирование * Системное администрирование *

Предлагаю ознакомиться с расшифровкой доклада Ивана Пономарёва «Ansible playbooks — это код: проверяем, тестируем, непрерывно интегрируем».

Рефакторинг кода может быть увлекательным, особенно если это код вашей инфраструктуры. К тому же Ansible-роли почему-то имеют тенденцию к быстрому увеличению сложности. И это добавляет «изюминку» в вашу задачу. Иван расскажет, как можно преодолевать сложность Ansible-кода с помощью тестирования. В Docker-контейнерах.
По мере разрастания кодовой базы в Ansible приходят знакомые проблемы: сложность поддержки кода, ошибки и страх изменений. У знакомых проблем есть знакомое решение: автоматическое тестирование и CI. В докладе Иван покажет, как с использованием ряда инструментов решить проблемы «хрупкости» Ansible-кода, выполнить статический анализ, протестировать Ansible-скрипты и настроить CI-системы для публикации ролей в Ansible Galaxy.

+11

hrustbb2 18 фев 2020 в 19:16

Меню консольных команд на python

2 мин

17K

DevOps * Python *

Из песочницы

Приветствую Вас, коллеги. Меня зовут Рустам, я работаю в небольшой компании, которая занимается web-разработкой и продвижением сайтов.

Очень часто во время работы над каким-либо проектом возникают задачи решение которых требует ввода в консоль нескольких команд, такие как, например, пересборка фронтенда, запуск/остановка нескольких docker-контейнеров, развертывание окружения на новом девелоперском компе и тому подобные вещи.

Это вообщем то не сложно, но зачастую подобные задачи возникают весьма регулярно, требуют повторения, превращаясь в рутину.

И вот, собственно, однажды возникла идея как сократить время на это вот все, максимально упростив процесс, реализовав небольшую утилиту, позволяющую обернуть наборы часто производимых действий в пункты удобного меню выводимого в консоль.

Читать дальше →

+1

MaxRokatansky 18 фев 2020 в 14:22

Предсказание стоимости биткоина по новостям на Python

6 мин

17K

Блог компании OTUSBig Data * Python * КриптовалютыМашинное обучение *

Перевод

Перевод статьи подготовлен в преддверии старта курса «Machine Learning» от OTUS.

Задача

В этом руководстве мы используем датасет Bitcoin vs USD.

Вышеприведенный датасет содержит ежедневную сводку цен, где колонка CHANGE – это изменение цены в процентах от цены за предыдущий день (PRICE) по отношению к новой (OPEN).

Цель: Чтобы упростить задачу, мы сосредоточимся на прогнозировании того, возрастет ли цена (CHANGE > 0) или упадет (CHANGE < 0) на следующий день. (Так мы потенциально сможем использовать предсказания «в реальной жизни»).

Требования

В системе должен быть установлен Python 2.6+ или 3.1+
Установите pandas, sklearn и openblender (с помощью pip)

$ pip install pandas OpenBlender scikit-learn

Читать дальше →

+2

sgjurano 18 фев 2020 в 10:56

Использование faiss для поиска по многомерным пространствам

7 мин

18K

Блог компании AvitoTechPython * Машинное обучение *

Recovery Mode

Привет! Меня зовут Владимир Олохтонов, я старший разработчик в команде автоматической модерации Авито. Осенью 2019 мы запустили сервис поиска похожих изображений на основе библиотеки faiss. Он помогает нам понимать, что фотографии уже встречались в другом объявлении, даже если они достаточно серьёзно искажены: размыты, обрезаны и тому подобное. Так мы определяем потенциально фейковые публикации.

Мне бы хотелось рассказать о тех проблемах, с которыми мы столкнулись в процессе создания этого сервиса, и наших подходах к их решению.

Читать дальше →

+28

Oksumoron 18 фев 2020 в 10:19

Настройка функции потерь для нейронной сети на данных сейсморазведки

13 мин

38K

Блог компании Open Data SciencePython * Геоинформационные сервисы * Искусственный интеллектМашинное обучение *

В прошлой статье мы описали эксперимент по определению минимального объема вручную размеченных срезов для обучения нейронной сети на данных сейсморазведки. Сегодня мы продолжаем эту тему, выбирая наиболее подходящую функцию потерь.

Рассмотрены 2 базовых класса функций – Binary cross entropy и Intersection over Union – в 6-ти вариантах с подбором параметров, а также комбинации функций разных классов. Дополнительно рассмотрена регуляризация функции потерь.

Спойлер: удалось существенно улучшить качество прогноза сети.

Читать дальше →

+31

ru_vds 18 фев 2020 в 09:30

Поиск идеального набора инструментов: анализ популярных шаблонов Python-проектов

7 мин

21K

Блог компании RUVDS.comPython * Веб-разработка *

Перевод

Материал, перевод которого мы сегодня публикуем, посвящён рассказу об инструментальных средствах, используемых при создании Python-приложений. Он рассчитан на тех программистов, которые уже вышли из разряда начинающих, но пока не добрались до категории опытных Python-разработчиков.

Тем, кому не терпится приступить к практике, автор предлагает использовать в существующих Python-проектах Flake8, pytest и Sphinx. Он, кроме того, рекомендует взглянуть на pre-commit, Black и Pylint. Тем, кто планирует начать новый проект, он советует обратить внимание на Poetry и Dependabot.

Читать дальше →

+33

Leono 18 фев 2020 в 08:59

Как проверить навыки программирования на Python? Задачи от Яндекса

9 мин

68K

Блог компании ЯндексPython * Алгоритмы * Занимательные задачки

^{_{Хакатон в Школе бэкенд-разработки}}

В 2019 году нам потребовалось автоматизированно проверить умение писать Python-код у сотен разработчиков. Так мы отбирали будущих студентов для Школы бэкенд-разработки. Это не то же самое, что предложить решить задачу на листе бумаги, как на собеседовании. С другой стороны, мы также не могли переиспользовать условия задач, уже подготовленные для наших соревнований по программированию. Дело в том, что соревнования с целью определить лучших из лучших — это одно, а отбор специалистов с небольшим опытом в школу — совсем другое. Нам требовались задачи, по решению которых было бы видно, обладает ли разработчик базовыми навыками написания кода и умением грамотно использовать память и время. Вот какие условия мы составили.

Читать дальше →

+12

Matshishkapeu 18 фев 2020 в 07:24

Пандас и другие для толстых данных

5 мин

15K

Big Data * Python *

Туториал

В этой заметке я расскажу о паре простых приемов, полезных при работе с данными, не помещающимися в память локальной машины, но все еще слишком мелкими чтобы называться Большими. Следуя англоязычной аналогии (large but not big), будем называть эти данные толстыми. Речь идет о размерах в единицы и десятки гигабайт.

[Дисклеймеръ]Если вы любите SQL все написанное ниже может вызвать в вас яркие, скорее всего, негативные эмоции, в Голландии 49262 Теслы, из них 427 такси, дальше лучше не читайте [/Дисклеймеръ].

Читать дальше →

+2

zyrik 17 фев 2020 в 18:38

А как вам такой вариант управления зависимостями в Python?

7 мин

11K

Недавно я решил, что пора наконец-то разобраться в теме управления зависимостями в моих Python проектах и начал искать решение, которое бы меня полностью устроивало. Я поэкспериментировал с pipenv, проштудировал документацию к poetry, почитал другие статьи по теме. К сожалению, идеального решения я так и не нашел. В результате, я изобрел ~~новый велосипед~~ свой подход, который и предлагаю обсудить под катом.

Читать дальше →

+1

DarthDeveloper 17 фев 2020 в 12:46

Web Scraping

4 мин

52K

Из песочницы

Введение

Всем привет. Недавно у меня возникла идея о том, чтобы поделиться с интересующимся кругом лиц о том как пишутся скраперы. Так как большинству аудитории знаком Python все дальнейшие примеры будут написаны на нём.

Данная часть рассчитана для того, чтобы познакомить тех, кто ещё не пробовал себя в данной сфере. Если вы уже продвинутый читатель, то можете смело листать дальше, но для сохранения закономерности я бы посоветовал уделить немного внимания данной статье.

print('Part 1. Get started')

Инструменты

Язык программирования и соответствующие библиотеки
Конечно, без него никуда. В нашем случае будет использован Python. Данный язык является довольно сильным инструментом для написания скраперов, если уметь правильно пользоваться им и его библиотеками: requests, bs4, json, lxml, re.
Инструменты разработчика
Каждый современный браузер имеет данную утилиту. Лично мне удобно пользоваться Google Chrome или Firefox. Если вы пользуетесь другим браузерами, рекомендую попробовать один из вышеперечисленных. Здесь нам понадобятся практически все инструменты: elements, console, network, application, debuger.
Современная IDE
Здесь выбор остаётся за вами, единственное, что хотелось бы посоветовать — наличие компилятора, debuger'a и статического анализатора в вашей среде разработке. Я отдаю своё предпочтение PyCharm от JetBrains.

Читать дальше →

+7

1 2 ...

344

345 346 ...