Все потоки

Python *

Высокоуровневый язык программирования

СтатьиПостыНовостиАвторыКомпании

Aragroth 5 мар 2020 в 19:00

Как я обошёл запрет на Messages API через документацию Вконтакте

5 мин

11K

Python * VK API * Информационная безопасность * Программирование *

Привет всему Хабро-сообществу. Для меня эта первая статья и пишется она под определённой эйфорией, так что прошу не судить эту статью слишком строго за литературную часть. Но что же, меньше слов и переходим к делу.

С чего всё началось

Все мы знаем, что у ВК есть API, и я уверен, что большинство людей пыталось им воспользоваться в своих целях. Лично у меня полно проектов, связанных с ним: штук 5 мощных ботов, составление масштабных датасетов из постов групп и т.д. И не удивительно, что мои знакомые просили меня пару раз выкачать песни из вложений диалога, фотографии или же сохранить текст переписок с каким-нибудь человеком в отдельный файл.

Но однажды пришло «оно», и с того момента выполнение таких небольших просьб перестало быть тривиальной задачей:

И вот, пару дней назад, чтобы раз и навсегда избавиться от этой проблемы, я решил написать свою обёртку через http запросы, притворяясь обычным пользователем, дабы иметь такой же мощный инструмент, как официальный API для раздела messages.

Читать дальше →

+6

ph_piter 5 мар 2020 в 18:31

Методы Монте-Карло для марковских цепей (MCMC). Введение

10 мин

15K

Блог компании Издательский дом «Питер»Python * Алгоритмы * Машинное обучение * Профессиональная литература *

Перевод

Привет, Хабр!

Напоминаем, что ранее мы анонсировали книгу "Машинное обучение без лишних слов" — и теперь она уже в продаже. Притом, что для начинающих специалистов по МО книга действительно может стать настольной, некоторые темы в ней все-таки затронуты не были. Поэтому всем заинтересованным предлагаем перевод статьи Саймона Керстенса о сути алгоритмов MCMC с реализацией такого алгоритма на Python.

Читать дальше →

+14

ru_vds 5 мар 2020 в 09:30

Загрузка NumPy-массивов с диска: сравнение memmap() и Zarr/HDF5

6 мин

8.1K

Блог компании RUVDS.comPython * НакопителиВеб-разработка *

Перевод

Если ваш NumPy-массив слишком велик для того, чтобы полностью поместиться в оперативной памяти, его можно обработать, разбив на фрагменты. Сделать это можно либо в прозрачном режиме, либо явно, загружая эти фрагменты с диска по одному.

В такой ситуации можно прибегнуть к двум классам инструментов:

Метод NumPy memmap(), прозрачный механизм, который позволяет воспринимать файл, расположенный на диске, так, будто он весь находится в памяти.
Похожие друг на друга форматы хранения данных Zarr и HDF5, которые позволяют, по необходимости, загружать с диска и сохранять на диск сжатые фрагменты массива.

У каждого из этих методов есть свои сильные и слабые стороны.

Материал, перевод которого мы сегодня публикуем, посвящён разбору особенностей этих методов работы с данными, и рассказу о том, в каких ситуациях они могут пригодиться. В частности, особое внимание будет уделено форматам данных, которые оптимизированы для выполнения вычислений и необязательно рассчитаны на передачу этих данных другим программистам.

Читать дальше →

+29

barsgroup_blog 5 мар 2020 в 06:57

Trio – асинхронное программирование для людей

7 мин

12K

Блог компании БАРС ГрупOpen source * Python * Программирование *

В Python существует библиотека Trio – библиотека асинхронного программирования.
Знакомство с Trio в основном будет интересно тем, кто работает на Asyncio, потому что это хорошая альтернатива, позволяющая решать часть проблем, с которыми не может справиться Asyncio. В этом обзоре рассмотрим, что из себя представляет Trio и какие фичи она нам дает.

Читать дальше →

+6

Svetlyak 3 мар 2020 в 14:59

Бесполезный REPL. Доклад Яндекса

10 мин

10K

Блог компании ЯндексGitHub * Python * Тестирование веб-сервисов *

REPL (read-eval-print loop) бесполезен в Python, даже если это волшебный IPython. Сегодня я предложу одно из возможных решений этой проблемы. В первую очередь доклад и мое расширение TheREPL будет полезны тем, кого интересует более быстрая и эффективная разработка, а также тем, кто пишет stateful-системы.

— Меня зовут Александр, я в Яндексе работаю программистом. Пишем мы в моей команде на Python, на Go пока не перешли. Но в свободное от работы время я, как ни странно, тоже программирую и делаю это на очень динамическом языке — Common Lisp. Он, пожалуй, даже более динамический, чем Python. Его особенность заключается в том, что сам процесс разработки устроен несколько иначе. Он более интерактивный и итеративный, потому что в REPL на Lisp вы можете делать всё: создавать новые и удалять старые модули, добавлять методы, классы и удалять их, переопределять классы и т. д.

Читать дальше →

+26

sobolevn 3 мар 2020 в 07:09

Как заставить машину написать тесты из кода за тебя

17 мин

10K

Блог компании Конференции Олега Бунина (Онтико)Тестирование веб-сервисов * Тестирование IT-систем * Программирование * Python *

Мы живем в неидеальном мире. Здесь код пишут люди, а люди по своей природе склонны совершать ошибки. Все бы ничего, ошибки можно отловить на этапе тестирования и не дать им никому навредить. Можно, если писать тесты. Чего люди делать почему-то не любят. Но возможно, есть надежда — автогенерация тестов из написанного кода.

Юлия Волкова хочет проверить идею в реальности и пробует переложить на машину создание тестов на основе кода, причем без использования дополнительных инструкций или контрактов. О том, какие открытия приносит путешествие в мир метапрограммирования, AST, синтаксического анализа и токенизации, и чего это все позволило добиться в автогенерации тестов, Юлия расскажет на Moscow Python Conf++. А пока я расспросил, откуда появилась сама идея — автоматизировать тестирование, что лежит в основе прототипа и с чем еще предстоит справиться.

Читать дальше →

+19

X5Tech 2 мар 2020 в 16:41

Задача для разработчика, или как мы без вендора ручные сканеры прошивали

7 мин

14K

Блог компании X5 TechWindows * Linux * Инженерные системы * Python *

Всем привет.

Мы, Виктор Антипов и Илья Алешин, сегодня расскажем о своем опыте работы с USB-девайсами через Python PyUSB и немного о реверс-инжиниринге.

Читать дальше →

+35

xing2020 2 мар 2020 в 09:18

PHP: array_key_exists ищет быстрее чем in_array в 500 раз

3 мин

15K

Из песочницы

В 2014 уже писали про обыск массива, но вряд ли кто понял.

C тех пор вышло много версий PHP и не исправили значит обратная связь плохая и об этом мало кто знает. На питоне так же, и в 3* хуже чем в 2.7.

Иногда нужно найти строку в массиве строк — очень частая операция в разных алгоритмах и если массив небольшой и искать немного и не в цикле, то in_array нормально, на общую скорость не влияет, но если big data и искать надо массиве из миллиарда строк и миллиард раз, то это уже критично: лучше час вместо недели.

Простой тест показывает:

in_array ищет за 6-9 сек ideone.com/Yb1mDa 6600ms
а array_key_exists ищет тоже самое, но быстрее в 250(php5.6/py3.*) в 400+ раз (php7.3/py2.7) ideone.com/gwSmFc (цикл увеличен в 100 раз) 12ms (6600/12=550раз +-10% разброс из-за нагрузки и кеша)

Почему же такое происходит? Рассмотрим подробно:

Читать дальше →

-11

albartash 1 мар 2020 в 04:31

Сдруживаем Python и Bash: релиз библиотек python-shell и smart-env v. 1.0.1

3 мин

4.1K

Python * DevOps *

Доброго времени суток всем!

29 февраля 2020 года состоялся официальный микро-релиз библиотек smart-env и python-shell. Тем, кто не в курсе, предлагаю предварительно прочитать первый пост.

Если вкратце, то среди изменений — автодополнение команд, расширение возможностей по запуску команд, немного рефакторинга и багфиксов.

За деталями прошу под кат.

Читать дальше →

+1

ynikitenko 29 фев 2020 в 17:23

Введение в архитектурный фреймворк для анализа данных Lena

15 мин

6.1K

Open source * Python * Программирование *

Туториал

Привет, Хабр! Я расскажу об архитектурном фреймворке, который я разрабатываю.

Архитектура определяет наиболее общее устройство программы и взаимодействие её компонентов. Lena как фреймворк реализует конкретную архитектуру для анализа данных (подробнее о ней ниже) и предоставляет пользователю классы и функции, которые могут быть при этом полезны (с учётом данной архитектуры).

Lena написана на популярном языке Python и работает с версиями Python 2, 3 и PyPy. Она опубликована под свободной лицензией Apache (версия 2) здесь. В данный момент она ещё разрабатывается, однако описываемое в данном руководстве уже используется, тестировано (общее покрытие всего фреймворка около 90%) и вряд ли будет изменено. Lena возникла при анализе данных экспериментов в физике нейтрино и названа в честь великой сибирской реки.

Река Лена (Википедия)

Читать дальше →

+5

Takagi 28 фев 2020 в 15:49

Новостной агрегатор за две недели

8 мин

20K

C++ * Python * Машинное обучение *

18 ноября Telegram запустил соревнование по кластеризации данных: Data Clustering Contest. Нужно было за две недели сделать свой новостной агрегатор. Ограничения, которые были установлены в этом соревновании отпугнули кучу людей, но не меня и моих коллег. Я расскажу от том, каким путём мы прошли, какие выборы сделали и с какими сложностями столкнулись. Решение, которое мы заслали в соревнование обрабатывало 1000 документов за 3,5 секунды, занимало 150 Мб, заняло 6 место на публичном голосовании и 3 место в итоговых результатах. Мы допустили много ошибок, из-за которых не заняли место повыше, большинство из них сейчас исправлены. Весь код и все модели можно найти в репозитории. Все скрипты для обучения моделек перенесены на Colab.

Топ из публичного голосования

Читать дальше →

+13

MaxRokatansky 27 фев 2020 в 13:19

Оптимизация кода на Python с помощью ctypes

4 мин

15K

Блог компании OTUSPython *

Перевод

Перевод статьи подготовлен специально для студентов курса «Разработчик Python».

Внимание: код в этой статье лицензирован под GNU AGPLv3.

Я написал это руководство, поскольку не смог найти такого, которое будет объединять в себе все полезное о ctypes. Надеюсь, эта статья сделает чью-то жизнь намного легче.

Содержание:

Базовые оптимизации
сtypes
Компиляция под Python
Структуры в Python
Вызов вашего кода на С
PyPy

Читать дальше →

+6

grigoryvp 27 фев 2020 в 11:58

Укрощая зверя: legacy-код, тесты и вы

10 мин

10K

Блог компании Конференции Олега Бунина (Онтико)Python * Программирование * Проектирование и рефакторинг * Тестирование веб-сервисов *

Legacy-код — это «старый» код, возраст которого может быть как 2 месяца, так и 10 лет. Часто его писали разработчики, о которых в компании смутно помнят. Возможно, их вообще не было, а legacy-код родился вместе со Вселенной во время Большого Взрыва. С тех пор требования к нему менялись много раз, код правили в режиме «нужно было еще вчера», а документацию никто не писал, как и тесты. Legacy-код запутан и хрупок, в нем не видно ни начала, ни конца. Как к нему подступиться?

Здесь и далее кадры из сериала «Рик и Морти». Авторы Джастин Ройланд и Дэн Хармон.

Подбираться к нему нужно с тестов, но готовьтесь к боли. Проблемы начнутся уже с того момента, как вы решите взяться за такой проект. Вам нужно понять, зачем вы хотите за него браться, убедить руководство одобрить тестирование legacy-кода, а коллег — помочь. После этого возникнут вопросы, с чего начать изучение, какие тесты запустить первыми и как все не сломать? Но главное — как не впасть в отчаяние, когда поймете, что работе нет конца.

Кирилл Борисов 12 лет в индустрии, за эти годы прошел долгий путь по костылям, битому коду и гниющим каркасам старых систем: от монолитных учетных систем до микросервисов авторизации. Путешествие наградило его опытом и историями, которыми он поделится в виде ценных советов.

+17

searchag 27 фев 2020 в 08:37

Анализ качества работы чат-бота в IBM Watson Assistant

4 мин

3.9K

Блог компании IBMОблачные сервисы * Машинное обучение * Искусственный интеллектPython *

Создание виртуального ассистента, который хорошо бы справлялся с поставленной бизнес-задачей на сегодняшний день, к сожалению, не такой простой процесс, как этого бы хотелось. В первую очередь — далеко не всегда очевидно, из-за чего чат-бот делает ошибки и, что еще более важно, непонятно, как можно минимизировать эти ошибки в сжатые сроки, выделенные на разработку и запуск платформы.

За счет постоянного совершенствования продукта команда IBM Watson Assistant старается сделать процесс создания и запуска виртуального ассистента максимально простым. Сегодня мы расскажем о Dialog Skill Analysis Notebook — фреймворк для Python, который позволяет в кратчайшие сроки разработать высококачественного ИИ ассистента в IBM Watson. Неважно, создаете ли вы своего первого чат-бота или вы — эксперт в области создания виртуальных помощников, в любом случае данный фреймворк поможет вам, если перед вами стоят вопросы:

Насколько эффективно работает мой чат-бот?
Как мне измерить эффективность ассистента?
Почему бот неверно отвечает на вопросы?
Как повысить уровень понимания вопросов ассистентом?

Читать дальше →

-2

oneSmilla 26 фев 2020 в 18:00

Яндекс.Практикум – Аналитик данных. Окончание обучения

4 мин

32K

Python * Машинное обучение * Учебный процесс в IT

Первая статья здесь.

Обучение в Яндекс.Практикуме закончилось, получен сертификат и можно подвести итоги по обучению.

Так же, после первой статьи, у многих возникли дополнительные вопросы, поэтому хотелось и на них ответить и показать немного практики. Кейсов освоено достаточно много, поэтому в рамках одной статьи все охватить не получится.

Читать дальше →

+4

parfeniukink 26 фев 2020 в 11:59

Python-Celery in Windows with Docker managing

2 мин

17K

Django * Python * Windows *

Туториал

Для того чтобы 'адекватно' отладить Celery из-под Windows существует несколько путей таких как:

> celery worker --app=demo_app.core --pool=solo --loglevel=INFO

Но, по факту для нормальной разработки нужна Unix-система. Если у Вас нет возможности использовать её как родную, то стоит задуматься…) Ну а если честно, то выход всегда есть и это Docker, а также WSL. Если Вы используете такие «крутые» IDE, как PyCharm, то всё так же усложняется, ведь тогда при использовании интерпретатора с источником из WSL после установки пакета через pip скелет проекта придётся обновлять вручную из-за проблем с индексацией.

Читать дальше →

0

ritchie_kyoto 26 фев 2020 в 06:33

Все, что вы хотели узнать об LDPC кодах, но стеснялись спросить (наверное)

18 мин

9.1K

Python * Алгоритмы * Беспроводные технологии * Научно-популярное

Туториал

Предисловие

С кодами малой плотности проверок на чётность, которые дальше мы будем именовать коротко LDPC (Low-density parity-check codes), мне удалось познакомиться более или менее близко, работая над семестровым научным проектом в ТУ Ильменау (магистерская программа CSP). Моему научному руководителю направление было интересно в рамках педагогической деятельности (нужно было пополнить базу примеров, а также посмотреть в сторону недвоичных LDPC), а мне из-за того, что эти коды были плюс-минус на слуху на нашей кафедре. Не все удалось рассмотреть в том году, и поэтому исследование плавно перетекло в мое хобби… Так я набрал некоторое количество материала, которым сегодня и хочу поделиться!

Кому может быть интересна данная статья:

Студентам, которые хотят разобраться с данными кодами (в начале статьи будет много теории, я предупредил).
Преподавателям, которые хотели бы добавить коды LDPC в область своих семинаров.
Всем, кто любит покопаться в различных алгоритмах, а также чего-нибудь помоделировать и посравнивать (в конце будут примеры: как скрипты, так и реализации "из коробки" open-source проекта aff3ct).

В общем, присоединяйтесь!

Читать дальше →

+10

pohily 25 фев 2020 в 19:53

Интеграция Gitlab, Jira и Confluence на Python для автоматизации сборки релизов

6 мин

9.2K

Python * Программирование *

Из песочницы

Недавно на стендапе коллега внес рацпредложение: автоматизировать сборку релизов, взяв за основу готовые уже наработки по взаимодействию с Jira, написанные на Python.

Процесс деплоя у нас следующий: когда накапливается достаточное количество задач, прошедших тестирование из них собирается Релиз-кандидат (RC) в каждом проекте, затронутом задачами, затем задачи тестируются в составе RC. После этого RC заливается на стейджинг сервер, где в близком к боевому окружении все еще раз тестируется и проводится полный регресс. И затем, после необходимых деплойных действий свежий релиз заливается в мастер.

До недавнего времени весь процесс сборки проводился кем-либо из разработчиков вручную. Что отнимало час, два и больше времени и было, мне кажется, не очень интересным занятием. Теперь же, когда уже почти все готово, релиз из 20 задач, затрагивающий 5 проектов, собирается меньше минуты. Остается, конечно еще разрешение конфликтов, запуск пропущенных тестов и прочее, но даже с учетом этого, времени разработчиков и тестировщиков, вынужденных ждать, пока кто-то и первых освободится и создаст RC, экономится немало.

В общем, приступил я к задаче, и она оказалась очень интересной и увлекательной. А что еще надо для удовольствия от работы, как не увлекательных проектов?

Читать дальше →

+11

zoldaten 25 фев 2020 в 14:51

Анализируем резюме юристов на hh.ru без api

4 мин

12K

Туториал

Hh.ru — неплохой сайт, не нуждающийся в дополнительном представлении. Поиск вакансий на нем удобен и прозаичен. Однако, порой интереснее посмотреть со стороны работодателя:

как выглядит выдача резюме по целевому запросу,
как видно собственное резюме в выдаче,
как «проседает» резюме со временем, заодно собрать резюме коллег-юристов для построения мини-статистики.

Несмотря на то, что у hh есть собственное api и оно добротно задокументировано, доступ к нему тщательно оберегается.

Доступ к api осуществляется как и в ситуации со многими api соц. сетей — через предварительную регистрацию приложения в web-кабинете аккаунта, в данном случае, работодателя на hh.ru/employer:

Читать дальше →

+5

DimaFromMai 24 фев 2020 в 20:06

Простой пример парсинга и аналитики данных по игре World of Tanks

3 мин

9.8K

Визуализация данных * Python * Data Mining * Data Engineering * Big Data *

Туториал

В этом небольшом примере, я хочу показать, как парсить данные с сайтов и как дальше использовать их для анализа. Для этого я спарсил таблицу рейтингов кланов из игры World of Tanks и посмотрел, как рейтинг клана может коррелировать с другими данными.

Читать дальше →

+4

1 2 ...

343

344 345 ...