Все потоки

Python *

Высокоуровневый язык программирования

706,42

Рейтинг

СтатьиПостыНовостиАвторыКомпании

sobolevn 3 мар 2020 в 07:09

Как заставить машину написать тесты из кода за тебя

17 мин

10K

Блог компании Конференции Олега Бунина (Онтико)Тестирование веб-сервисов * Тестирование IT-систем * Программирование * Python *

Мы живем в неидеальном мире. Здесь код пишут люди, а люди по своей природе склонны совершать ошибки. Все бы ничего, ошибки можно отловить на этапе тестирования и не дать им никому навредить. Можно, если писать тесты. Чего люди делать почему-то не любят. Но возможно, есть надежда — автогенерация тестов из написанного кода.

Юлия Волкова хочет проверить идею в реальности и пробует переложить на машину создание тестов на основе кода, причем без использования дополнительных инструкций или контрактов. О том, какие открытия приносит путешествие в мир метапрограммирования, AST, синтаксического анализа и токенизации, и чего это все позволило добиться в автогенерации тестов, Юлия расскажет на Moscow Python Conf++. А пока я расспросил, откуда появилась сама идея — автоматизировать тестирование, что лежит в основе прототипа и с чем еще предстоит справиться.

Читать дальше →

+19

X5Tech 2 мар 2020 в 16:41

Задача для разработчика, или как мы без вендора ручные сканеры прошивали

7 мин

14K

Блог компании X5 TechWindows * Linux * Инженерные системы * Python *

Всем привет.

Мы, Виктор Антипов и Илья Алешин, сегодня расскажем о своем опыте работы с USB-девайсами через Python PyUSB и немного о реверс-инжиниринге.

Читать дальше →

+35

Takagi 28 фев 2020 в 15:49

Новостной агрегатор за две недели

8 мин

20K

Машинное обучение * Python * C++ *

18 ноября Telegram запустил соревнование по кластеризации данных: Data Clustering Contest. Нужно было за две недели сделать свой новостной агрегатор. Ограничения, которые были установлены в этом соревновании отпугнули кучу людей, но не меня и моих коллег. Я расскажу от том, каким путём мы прошли, какие выборы сделали и с какими сложностями столкнулись. Решение, которое мы заслали в соревнование обрабатывало 1000 документов за 3,5 секунды, занимало 150 Мб, заняло 6 место на публичном голосовании и 3 место в итоговых результатах. Мы допустили много ошибок, из-за которых не заняли место повыше, большинство из них сейчас исправлены. Весь код и все модели можно найти в репозитории. Все скрипты для обучения моделек перенесены на Colab.

Топ из публичного голосования

Читать дальше →

+13

grigoryvp 27 фев 2020 в 11:58

Укрощая зверя: legacy-код, тесты и вы

10 мин

10K

Блог компании Конференции Олега Бунина (Онтико)Тестирование веб-сервисов * Проектирование и рефакторинг * Программирование * Python *

Legacy-код — это «старый» код, возраст которого может быть как 2 месяца, так и 10 лет. Часто его писали разработчики, о которых в компании смутно помнят. Возможно, их вообще не было, а legacy-код родился вместе со Вселенной во время Большого Взрыва. С тех пор требования к нему менялись много раз, код правили в режиме «нужно было еще вчера», а документацию никто не писал, как и тесты. Legacy-код запутан и хрупок, в нем не видно ни начала, ни конца. Как к нему подступиться?

Здесь и далее кадры из сериала «Рик и Морти». Авторы Джастин Ройланд и Дэн Хармон.

Подбираться к нему нужно с тестов, но готовьтесь к боли. Проблемы начнутся уже с того момента, как вы решите взяться за такой проект. Вам нужно понять, зачем вы хотите за него браться, убедить руководство одобрить тестирование legacy-кода, а коллег — помочь. После этого возникнут вопросы, с чего начать изучение, какие тесты запустить первыми и как все не сломать? Но главное — как не впасть в отчаяние, когда поймете, что работе нет конца.

Кирилл Борисов 12 лет в индустрии, за эти годы прошел долгий путь по костылям, битому коду и гниющим каркасам старых систем: от монолитных учетных систем до микросервисов авторизации. Путешествие наградило его опытом и историями, которыми он поделится в виде ценных советов.

+17

ritchie_kyoto 26 фев 2020 в 06:33

Все, что вы хотели узнать об LDPC кодах, но стеснялись спросить (наверное)

18 мин

55K

Python * Алгоритмы * Беспроводные технологии * Научно-популярное

Туториал

Предисловие

С кодами малой плотности проверок на чётность, которые дальше мы будем именовать коротко LDPC (Low-density parity-check codes), мне удалось познакомиться более или менее близко, работая над семестровым научным проектом в ТУ Ильменау (магистерская программа CSP). Моему научному руководителю направление было интересно в рамках педагогической деятельности (нужно было пополнить базу примеров, а также посмотреть в сторону недвоичных LDPC), а мне из-за того, что эти коды были плюс-минус на слуху на нашей кафедре. Не все удалось рассмотреть в том году, и поэтому исследование плавно перетекло в мое хобби… Так я набрал некоторое количество материала, которым сегодня и хочу поделиться!

Кому может быть интересна данная статья:

Студентам, которые хотят разобраться с данными кодами (в начале статьи будет много теории, я предупредил).
Преподавателям, которые хотели бы добавить коды LDPC в область своих семинаров.
Всем, кто любит покопаться в различных алгоритмах, а также чего-нибудь помоделировать и посравнивать (в конце будут примеры: как скрипты, так и реализации "из коробки" open-source проекта aff3ct).

В общем, присоединяйтесь!

Читать дальше →

+10

pohily 25 фев 2020 в 19:53

Интеграция Gitlab, Jira и Confluence на Python для автоматизации сборки релизов

6 мин

9.3K

Программирование * Python *

Из песочницы

Недавно на стендапе коллега внес рацпредложение: автоматизировать сборку релизов, взяв за основу готовые уже наработки по взаимодействию с Jira, написанные на Python.

Процесс деплоя у нас следующий: когда накапливается достаточное количество задач, прошедших тестирование из них собирается Релиз-кандидат (RC) в каждом проекте, затронутом задачами, затем задачи тестируются в составе RC. После этого RC заливается на стейджинг сервер, где в близком к боевому окружении все еще раз тестируется и проводится полный регресс. И затем, после необходимых деплойных действий свежий релиз заливается в мастер.

До недавнего времени весь процесс сборки проводился кем-либо из разработчиков вручную. Что отнимало час, два и больше времени и было, мне кажется, не очень интересным занятием. Теперь же, когда уже почти все готово, релиз из 20 задач, затрагивающий 5 проектов, собирается меньше минуты. Остается, конечно еще разрешение конфликтов, запуск пропущенных тестов и прочее, но даже с учетом этого, времени разработчиков и тестировщиков, вынужденных ждать, пока кто-то и первых освободится и создаст RC, экономится немало.

В общем, приступил я к задаче, и она оказалась очень интересной и увлекательной. А что еще надо для удовольствия от работы, как не увлекательных проектов?

Читать дальше →

+11

FooBar167 24 фев 2020 в 15:19

Сканирующее окно по массивам NumPy

9 мин

25K

Python * Алгоритмы * Программирование * Качество кода *

CoLab блокнот с примерами.

Возможно сделать скользящее окно (rolling window, sliding window, moving window) по массивам NumPy на языке программирования Python без явных циклов. В данной статье рассматривается создание одно-, двух-, трех- и N-мерных скользящих окон по массивам NumPy. В результате скорость обработки данных увеличивается в несколько тысяч раз и сравнима по скорости с языком программирования С.

Cкользящее окно применяется в: обработке изображений, искусственных нейронных сетях, интернет протоколе TCP, обработке геномных данных, прогнозировании временных рядов и т.д.

Отказ от ответственности: в исходном коде могут быть ошибки! Если вы видите ошибку, пожалуйста, напишите мне.

Введение
Скользящее 1D окно по ND массиву в Numpy
Скользящее 2D окно по ND массиву в Numpy
Скользящее 3D окно по ND массиву в Numpy
Скользящее MD окно по ND массиву, где M ≤ N
Скользящее MD окно по ND массиву для любых M и N

Читать дальше →

+15

cointegrated 24 фев 2020 в 06:56

Как сжать модель fastText в 100 раз

12 мин

24K

Data Mining * Natural Language Processing * Python * Алгоритмы * Машинное обучение *

Модель fastText — одно из самых эффективных векторных представлений слов для русского языка. Однако её прикладная польза страдает из-за внушительных (несколько гигабайт) размеров модели. В этой статье мы показываем, как можно уменьшить модель fastText с 2.7 гигабайт до 28 мегабайт, не слишком потеряв в её качестве (3-4%). Спойлер: квантизация и отбор признаков работают хорошо, а матричные разложения — не очень. Также мы публикуем пакет на Python для этого сжатия и примеры компактной модели для русских слов.

Читать дальше →

+40

MaxRokatansky 20 фев 2020 в 13:12

Как в Python реализованы очень длинные числа типа integer?

6 мин

79K

Блог компании OTUSPython * Программирование *

Перевод

Перевод статьи подготовлен специально для студентов курса «Разработчик Python».

Когда вы пишете на низкоуровневом языке, таком как С, вы беспокоитесь о выборе правильного типа данных и спецификаторах для ваших целых чисел, на каждом шаге анализируете достаточно ли будет использовать просто int или нужно добавить long или даже long double. Однако при написании кода на Python вам не нужно беспокоиться об этих «незначительных» вещах, потому что Python может работать с числами типа integer любого размера.

Читать дальше →

+32

spasibo_kep 19 фев 2020 в 10:41

Делимся самым большим в РФ пластом данных по онлайн-обучению с проектами по лингвистике, персонализации, педдизайну, ML

3 мин

4.9K

Блог компании SkyengPython * Машинное обучение * Открытые данные *

Перед Новым годом команда Михаила Sverdlove Свердлова объявила, что готова делиться обезличенными данными уроков Skyeng с внешними исследователями и стартапами. Вскоре после праздников мы поговорили с Мишей, о каких именно данных идет речь, что уже с ними делают и почему получить свой дата-сет можно, только написав ему на почту.

— Если вы делитесь данными, то почему бы просто не залить датасет куда-нибудь?
Самый большой корпус английского языка в России, по-моему, составляет 10 тысяч позиций. К концу января в нашей школе глобально прошло свыше 9,1 миллионов уроков — насколько знаю, большим набором именно по онлайн-образованию и урокам один-на-один обладают только китайские школы.

Мы знаем, что происходило и как менялись действия учителя и ученика за все уроки, которые мы провели, у нас есть трек истории всех упражнений по ним. Это порядка 120 метрик по учителям, а также около 300 параметров по детям двух возрастных групп (4-11 и 11-18 лет) и взрослым разных возрастов, городов, статусов (например, студентам) и так далее. И это точно не все параметры, которые мы можем собирать, — кажется можно использовать в 2-3 раза больше. На таком объеме история «вот ссылка на датасет, покрутите, кто хочет» едва ли будет работать.

Читать дальше →

+11

chemtech 19 фев 2020 в 07:29

Ansible playbooks — это код: проверяем, тестируем, непрерывно интегрируем. Иван Пономарёв

20 мин

23K

DevOps * IT-инфраструктура * Python * Серверное администрирование * Системное администрирование *

Предлагаю ознакомиться с расшифровкой доклада Ивана Пономарёва «Ansible playbooks — это код: проверяем, тестируем, непрерывно интегрируем».

Рефакторинг кода может быть увлекательным, особенно если это код вашей инфраструктуры. К тому же Ansible-роли почему-то имеют тенденцию к быстрому увеличению сложности. И это добавляет «изюминку» в вашу задачу. Иван расскажет, как можно преодолевать сложность Ansible-кода с помощью тестирования. В Docker-контейнерах.
По мере разрастания кодовой базы в Ansible приходят знакомые проблемы: сложность поддержки кода, ошибки и страх изменений. У знакомых проблем есть знакомое решение: автоматическое тестирование и CI. В докладе Иван покажет, как с использованием ряда инструментов решить проблемы «хрупкости» Ansible-кода, выполнить статический анализ, протестировать Ansible-скрипты и настроить CI-системы для публикации ролей в Ansible Galaxy.

+11

sgjurano 18 фев 2020 в 10:56

Использование faiss для поиска по многомерным пространствам

7 мин

19K

Блог компании AvitoTechPython * Машинное обучение *

Recovery Mode

Привет! Меня зовут Владимир Олохтонов, я старший разработчик в команде автоматической модерации Авито. Осенью 2019 мы запустили сервис поиска похожих изображений на основе библиотеки faiss. Он помогает нам понимать, что фотографии уже встречались в другом объявлении, даже если они достаточно серьёзно искажены: размыты, обрезаны и тому подобное. Так мы определяем потенциально фейковые публикации.

Мне бы хотелось рассказать о тех проблемах, с которыми мы столкнулись в процессе создания этого сервиса, и наших подходах к их решению.

Читать дальше →

+28

Oksumoron 18 фев 2020 в 10:19

Настройка функции потерь для нейронной сети на данных сейсморазведки

13 мин

39K

Блог компании Open Data ScienceМашинное обучение * Искусственный интеллектГеоинформационные сервисы * Python *

В прошлой статье мы описали эксперимент по определению минимального объема вручную размеченных срезов для обучения нейронной сети на данных сейсморазведки. Сегодня мы продолжаем эту тему, выбирая наиболее подходящую функцию потерь.

Рассмотрены 2 базовых класса функций – Binary cross entropy и Intersection over Union – в 6-ти вариантах с подбором параметров, а также комбинации функций разных классов. Дополнительно рассмотрена регуляризация функции потерь.

Спойлер: удалось существенно улучшить качество прогноза сети.

Читать дальше →

+31

ru_vds 18 фев 2020 в 09:30

Поиск идеального набора инструментов: анализ популярных шаблонов Python-проектов

7 мин

21K

Блог компании RUVDS.comPython * Веб-разработка *

Перевод

Материал, перевод которого мы сегодня публикуем, посвящён рассказу об инструментальных средствах, используемых при создании Python-приложений. Он рассчитан на тех программистов, которые уже вышли из разряда начинающих, но пока не добрались до категории опытных Python-разработчиков.

Тем, кому не терпится приступить к практике, автор предлагает использовать в существующих Python-проектах Flake8, pytest и Sphinx. Он, кроме того, рекомендует взглянуть на pre-commit, Black и Pylint. Тем, кто планирует начать новый проект, он советует обратить внимание на Poetry и Dependabot.

Читать дальше →

+33

Leono 18 фев 2020 в 08:59

Как проверить навыки программирования на Python? Задачи от Яндекса

9 мин

68K

Блог компании ЯндексPython * Алгоритмы * Занимательные задачки

^{_{Хакатон в Школе бэкенд-разработки}}

В 2019 году нам потребовалось автоматизированно проверить умение писать Python-код у сотен разработчиков. Так мы отбирали будущих студентов для Школы бэкенд-разработки. Это не то же самое, что предложить решить задачу на листе бумаги, как на собеседовании. С другой стороны, мы также не могли переиспользовать условия задач, уже подготовленные для наших соревнований по программированию. Дело в том, что соревнования с целью определить лучших из лучших — это одно, а отбор специалистов с небольшим опытом в школу — совсем другое. Нам требовались задачи, по решению которых было бы видно, обладает ли разработчик базовыми навыками написания кода и умением грамотно использовать память и время. Вот какие условия мы составили.

Читать дальше →

+12

chemtech 17 фев 2020 в 07:34

Go vs Python. Виталий Левченко

15 мин

64K

Системное программирование * Программирование * Python * Go * DevOps *

Предлагаю ознакомиться с расшифровкой доклада Виталия Левченко Go vs Python

Go — волшебное слово, решение всех проблем продакшна разом и одновременно негодная технология без эксепшнов. Истина посередине, поэтому поговорим о конкретных примерах:

asyncio vs горутины;
производительность узких мест;
лаконичность vs простота кода;
порог входа;
тулинг и паттерны поиска проблем и оптимизации производительности;
обслуживание в продакшне.

Читать дальше →

+14

Papazian 15 фев 2020 в 08:18

Знакомство с FastAPI

5 мин

273K

Вместо предисловия

В нашей команде бытует хорошая практика фиксировать все изменения, которые отправляются в продакшен в гитхабовских релизах. Однако, не вся наша команда имеет доступ в гитхаб, а о релизах хочется знать всем. Так сложилась традиция релиз из гитхаба дублировать в рабочем чате команды в телеграме. Что хорошо, гитхаб позволяет с помощь маркдауна красиво оформить релиз с разделением на секции и ссылками на задачи, которые отправляются на выкатку. Что плохо, простым copy/paste всю эту красоту в телеграм не перенесёшь и приходится тратить время на довольно нудную работу по повторному оформлению релиза, но уже в телеграме. Ну а посколько программисты народ ленивый, я решил этот процесс автоматизировать.

Исходные данные:

Гитхаб умеет сообщать обо всём, что происходит в репозитории с помощью вебхуков
Вся необходимая для формирования релиза информация содержится в теле запроса, который кидает вебхук
Авторизация идёт через подпись запроса секретом, который проставляется в настройках вебхука

Соответственно, задача заключается в том, чтобы поднять HTTP API, который сможет принять POST запрос, проверить подпись, извлечь нужную информацию из тела запроса и передать её дальше по инстанции. Как тут не попробовать FastAPI, на который я давно глаз положил?

Кто такой FastAPI?

FastAPI — это фреймворк для создания лаконичных и довольно быстрых HTTP API-серверов со встроенными валидацией, сериализацией и асинхронностью,
что называется, из коробки. Стоит он на плечах двух других фреймворков: работой с web в FastAPI занимается Starlette, а за валидацию отвечает Pydantic.

Комбайн получился легким, неперегруженным и более, чем достаточным по функционалу.

Читать дальше →

+11

ru_vds 14 фев 2020 в 10:15

Random Forest, метод главных компонент и оптимизация гиперпараметров: пример решения задачи классификации на Python

14 мин

116K

Блог компании RUVDS.comPython * Алгоритмы *

Перевод

У специалистов по обработке и анализу данных есть множество средств для создания классификационных моделей. Один из самых популярных и надёжных методов разработки таких моделей заключается в использовании алгоритма «случайный лес» (Random Forest, RF). Для того чтобы попытаться улучшить показатели модели, построенной с использованием алгоритма RF, можно воспользоваться оптимизацией гиперпараметров модели (Hyperparameter Tuning, HT).

Кроме того, распространён подход, в соответствии с которым данные, перед их передачей в модель, обрабатывают с помощью метода главных компонент (Principal Component Analysis, PCA). Но стоит ли вообще этим пользоваться? Разве основная цель алгоритма RF заключается не в том, чтобы помочь аналитику интерпретировать важность признаков?

Читать дальше →

+30

grigoryvp 13 фев 2020 в 10:04

На Moscow Python Conf++ приходите поговорить с разработчиками языка

9 мин

3.7K

Блог компании Конференции Олега Бунина (Онтико)Веб-разработка * Программирование * КонференцииPython *

Мы строили-строили, и наконец построили: расписание Moscow Python Conf++ собрано, проверено, перепроверено и опубликовано. Не то чтобы работа Программного комитета на этом заканчивалась (за два-то месяца до конференции, ну-ну), но 10 месяцев явно потрачено не зря, и я с нетерпением жду результата, заложив все возможное для общения разработчиков друг с другом.

Сейчас расскажу, какой получилась программа конференции, и выбора у нас просто не останется. На площадке в центре Москвы будет: 3 потока докладов, поток воркшопов и митапов, 4 Core-разработчика (я до сих пор не знаю, считать ли Python Core-разработчиком заведующего разработкой Pytest и Hypothesis), 6 зарубежных спикеров с нетривиальным опытом, доклады от Microsoft, Wargaming, JetBrains, Parallels, EPAM, Booking.com, Tinkoff и других не менее интересных компаний. Ни одной проходной темы, я проверил. Каждый докладчик по-своему интересен, и каждая тема точно найдет тех, кому есть что обсудить со спикером. В этой статье я максимально кратко расскажу обо всех наших гостях: акцент на спикерах, по темам вы и сами сориентируетесь.

Читать дальше →

+12

Xezed 12 фев 2020 в 16:22

Понимание итераторов в Python

8 мин

187K

Из песочницы

Python — особенный язык в плане итераций и их реализации, в этой статье мы подробно разберём устройство итерируемых объектов и пресловутого цикла for.

Особенности, с которыми вы часто можете столкнуться в повседневной деятельности

1. Использование генератора дважды

>>> numbers = [1,2,3,4,5]

>>> squared_numbers = (number**2 for number in numbers)

>>> list(squared_numbers)
[1, 4, 9, 16, 25]

>>> list(squared_numbers)
[]

Как мы видим в этом примере, использование переменной squared_numbers дважды, дало ожидаемый результат в первом случае, и, для людей незнакомых с Python в достаточной мере, неожиданный результат во втором.

2. Проверка вхождения элемента в генератор

Возьмём всё те же переменные:

>>> numbers = [1,2,3,4,5]
>>> squared_numbers = (number**2 for number in numbers)

А теперь, дважды проверим, входит ли элемент в последовательность:

>>> 4 in squared_numbers
True
>>> 4 in squared_numbers
False

Читать дальше →

+22

1 2 ...

139

140 141 ...