Все потоки

Python *

Высокоуровневый язык программирования

691

Рейтинг

СтатьиПостыНовостиАвторыКомпании

a-talentex 2 сен 2020 в 14:52

Напишем и поймем Decision Tree на Python с нуля! Часть 1. Краткий обзор

8 мин

23K

Программирование * Python *

Перевод

Привет, Хабр! Представляю вашему вниманию перевод статьи "Pythonで0からディシジョンツリーを作って理解する　（1. 概要編）".

1.1 Что такое Decision Tree?

1.1.1 Пример Decision Tree

Например, у нас есть следующий набор данных (дата сет): погода, температура, влажность, ветер, игра в гольф. В зависимости от погоды и остального, мы ходили (〇) или не ходили (×) играть в гольф. Предположим, что у нас есть 14 сложившихся вариантов.

Из этих данных мы можем составить структуру данных, показывающую, в каких случаях мы шли на гольф. Такая структура из-за своей ветвистой формы называется Decision Tree.

Например, если посмотреть на Decision Tree, изображенный на картинке выше, мы поймем, что сначала проверяли погоду. Если было ясно, мы проверяли влажность: если она высокая, то не шли играть в гольф, если низкая — шли. А если погода была облачная, то шли играть в гольф вне зависимости от других условий.

Читать дальше →

+12

Seleditor 2 сен 2020 в 12:21

3 полезных Python-инструмента для упрощения работы с кодом

4 мин

22K

Блог компании SelectelPython * Лайфхаки для гиковПрограммирование *

Перевод

Любой разработчик использует те или иные вспомогательные инструменты. Какие-то из них позволяют ускорить процесс, какие-то — избавиться от ошибок, сделать код более понятным. Такие инструменты есть практически в любой сфере разработки.

Престон Бадир (Preston Badeer), Python-программист, поделился набором расширений которые, по его мнению, значительно упрощают и ускоряют кодинг. За 5 лет работы он перепробовал множество инструментов и выделил три наиболее полезных.

+16

Leono 2 сен 2020 в 08:16

Тесты в Python: все основные подходы, плюсы и минусы. Доклад Яндекса

23 мин

98K

Блог компании ЯндексPython * Тестирование IT-систем * Тестирование веб-сервисов *

Перед вами доклад Марии Зеленовой zelma — разработчика в Едадиле. За час Маша рассказала, в чём состоит тестирование программ, какие тесты бывают, зачем их писать. На простых примерах можно узнать про библиотеки для тестирования Python-кода (unittest, pytest, mock), принципы их работы и отличия между ними.

— Добрый вечер, меня зовут Маша, я работаю в отделе подготовки анализа данных Едадила, и сегодня у нас с вами лекция про тестирование.

Читать дальше →

+10

Niccolum 1 сен 2020 в 18:22

Функциональное программирование в Python. Генераторы, как питонячий декларативный стиль

19 мин

32K

Python * Функциональное программирование *

Общее введение
ФП
- Введение в ФП
- Основные принципы ФП
- Основные термины
- Встроенное ФП поведение в Python
- Библиотека Xoltar Toolkit
- Библиотека returns
- Литература
Генераторы
- Введение в итераторы
- Введение в генераторы
- Генераторы vs итераторы
- Генераторы как пайплайн
- Концепт yield from
- Маршрутизация данных на генераторах (мультиплексирование, броадкастинг)
- Пример трейсинга генератора
- Стандартные инструменты генераторы
- Выводы
  - Плюсы
  - Минусы
- Литература
Итоги

Общее введение

Читать дальше →

+20

DmitrySpb79 1 сен 2020 в 17:47

Определяем пульс по вебкамере в 50 строчек кода

4 мин

36K

Лайфхаки для гиковНаучно-популярноеАлгоритмы * Программирование * Python *

Технотекст 2020

Привет Хабр.

Однажды мне попалось описание приложения для Android, которое определяло пульс по камере телефона, просто по общей картинке. Камера не прикладывалась к пальцу, кожа не просвечивалась светодиодом. Интересный момент был в том, что ревьюеры не поверили в возможность такого определения пульса, и приложение было отклонено. Чем дело кончилось у автора программы, не знаю, но стало интересно проверить, возможно ли это.

Для тех кому интересно что получилось, продолжение под катом.

Читать далее

+84

averkij 31 авг 2020 в 10:56

Делаем параллельный корпус из книг с помощью sentence embeddings

8 мин

13K

Data Mining * Natural Language Processing * Python * Изучение языковМашинное обучение *

Туториал

Parallel trucks (image by Unsplash

При поиске параллельных корпусов для своих нужд, — это может быть обучение модели машинного перевода или изучение иностранного языка, можно столкнуться с тем, что их не так уж и много, особенно, если речь идет не об английском, а каком-то редком языке. В этой статье мы попробуем создать свой корпус для популярной языковой пары русский-немецкий на основе романа Ремарка "Три товарища". Любителям параллельного чтения книг и разработчикам систем машинного перевода посвящается.

Задача

Такая задача называется выравниванием текстов и может быть до какой-то степени решена следующими способами:

Использовать эвристики. Можно считать количество предложений в текстах, количество слов в них и на основе этого производить сопоставление. Такой способ не дает хорошего качества, но может тоже быть полезным.
Использовать sentence embeddings. Наверняка вы слышали про модели типа word2vec или sent2vec или видели такой пример их использования — "король" + "женщина" — "мужчина" = "королева". Если коротко, то суть в том, чтобы перевести слова (предложения, тексты) в векторное пространство с сохранением семантического расстояния между ними. Такой подход открывает перед нами замечательные возможности по оценке близости текстов и их кусочков по смыслу.

Читать дальше →

+13

malkovsky 29 авг 2020 в 16:32

Интерактивная визуализация алгоритмов на базе Jupyter

15 мин

16K

Визуализация данных * Алгоритмы * Python *

Jupyter уже давно зарекомендовал себя как удобную платформу для работы в различных областях на стыке программирования, анализа данных, машинного обучения, математики и других. Вот например очень известная книга по анализу данных, состоящая из Jupyter блокнотов. Поддержка

$\TeX$ , markdown, html дает возможность использовать использовать Jupyter в качестве платформы для удобного оформления научного-технического материала. Преимущество таких блокнотов заключается в интерактивности, возможности сопровождать сухой материал примерами программ, при этом эта интерактивность очень естественна и проста в использовании. В этой статье хотелось бы рассказать про возможность создания в Jupyter анимированных примеров работы различных алгоритмов и привести несколько из них с исходным кодом. В качестве кликбейта алгоритм Дейкстры.

Читать дальше →

+23

stkrizh 27 авг 2020 в 14:45

Python и теория множеств

11 мин

172K

Из песочницы

Python и теория множеств

В Python есть очень полезный тип данных для работы с множествами – это set. Об этом типе данных, примерах использования, и небольшой выдержке из теории множеств пойдёт речь далее.

Читать дальше →

+24

host_m 27 авг 2020 в 06:30

Как защитить Python-приложения от внедрения вредоносных скриптов

7 мин

8.6K

Блог компании VDSina.ruPython * Информационная безопасность * Программирование *

Перевод

Python-приложения используют множество скриптов. Этим и пользуются злоумышленники, чтобы подложить нам «свинью» — туда, где мы меньше всего ожидаем её увидеть.

Одним из достоинств Python считается простота использования: чтобы запустить скрипт, нужно просто сохранить его в .py-файле и выполнить команду python с этим файлом (например, python my_file.py). Так же легко разбить наш файл, например, на модули my_app.py и my_lib.py и далее для подключения модулей использовать конструкцию import...from: import my_lib from my_app.py.

Однако у этой простоты и лёгкости есть и обратная сторона: чем проще вам выполнять код из разных локаций, тем больше у злоумышленника возможностей для вмешательства.

Читать дальше →

+20

zoldaten 26 авг 2020 в 12:06

Создаем thumbnails для видео с python и opencv

2 мин

5.6K

Python * Обработка изображений *

Туториал

Порой, разбирая завалы больших и малых видеофайлов в папке(папках) нет времени заглядывать в содержимое каждого файла. Тут на ум приходят так называемые thumbnails, которые позволяют в виде нарезки фрагментов из видео, создать представление о содержимом.

Создадим небольшую программу, которая создаст thumbnails для каждого из файлов в текущей папке windows, и добавит timeline к вырезанным файлам.

Читать дальше →

+10

ru_vds 25 авг 2020 в 13:16

Разбор особенностей официального Docker-образа Python

7 мин

43K

Блог компании RUVDS.comВеб-разработка * Python *

Перевод

Официальный Docker-образ Python весьма популярен. Кстати, я и сам рекомендовал одну из его вариаций в качестве базового образа. Но многие программисты не вполне понимают того, как именно он работает. А это может привести к путанице и к возникновению различных проблем.

В этом материале я собираюсь поговорить о том, как создан этот образ, о том, какую он может принести пользу, о его правильном использовании и о его ограничениях. В частности, я разберу тут его вариант python:3.8-slim-buster (в состоянии, представленном файлом Dockerfile от 19 августа 2020 года) и по ходу дела остановлюсь на самых важных деталях.

Читать дальше →

+44

always-prog 25 авг 2020 в 13:14

Полноценная игра, сделанная мною в обычной windows консоли

33 мин

58K

Python * Разработка игр *

Из песочницы

Привет!

Сегодня я опишу в подробностях, как я сделал игру в командной строке, и насколько хороша она получилась.

Читать дальше →

+15

alexanderkuk 24 авг 2020 в 18:07

Проект Natasha. Набор качественных открытых инструментов для обработки естественного русского языка (NLP)

34 мин

132K

Data Mining * Natural Language Processing * Python * Искусственный интеллектМашинное обучение *

Технотекст 2020

Два года назад я писал на Хабр статью про Yargy-парсер и библиотеку Natasha, рассказывал про решение задачи NER для русского языка, построенное на правилах. Проект хорошо приняли. Yargy-парсер заменил яндексовый Томита-парсер в крупных проектах внутри Сбера, Интерфакса и РИА Новостей. Библиотека Natasha сейчас встроена в образовательные программы ВШЭ, МФТИ и МГУ.

Проект подрос, библиотека теперь решает все базовые задачи обработки естественного русского языка: сегментация на токены и предложения, морфологический и синтаксический анализ, лемматизация, извлечение именованных сущностей.

Для новостных статей качество на всех задачах сравнимо или превосходит существующие решения. Например с задачей NER Natasha справляется на 1 процентный пункт хуже, чем Deeppavlov BERT NER (F1 PER 0.97, LOC 0.91, ORG 0.85), модель весит в 75 раз меньше (27МБ), работает на CPU в 2 раза быстрее (25 статей/сек), чем BERT NER на GPU.

В проекте 9 репозиториев, библиотека Natasha объединяет их под одним интерфейсом. В статье поговорим про новые инструменты, сравним их с существующими решениями: Deeppavlov, SpaCy, UDPipe.

+53

itmo 22 авг 2020 в 17:33

Новая библиотека для уменьшения размерности данных ITMO_FS — зачем она нужна и как устроена

4 мин

9.1K

Блог компании ИТМОPython * Алгоритмы * Машинное обучение * Программирование *

Студенты и сотрудники лаборатории Машинного обучения Университета ИТМО разработали библиотеку для Python, которая решает ключевую задачу машинного обучения.

Расскажем, почему появился этот инструмент и что он умеет.

Читать дальше →

+21

Nepherhotep 22 авг 2020 в 13:25

Склеиваем несколько фотографий в одну длинную с помощью компьютерного зрения

4 мин

30K

Python * Машинное обучение * Ненормальное программирование * Обработка изображений * Программирование *

В предыдущих статьях был описан шеститочечный метод разворачивания этикеток и как мы тренировали нейронную сеть. В этой статье описано, как склеить фрагменты, сделанные из разных ракурсов, в одну длинную картинку.

Читать дальше →

+99

paramonov_ruvds 22 авг 2020 в 10:47

Заметки Дата Сайентиста: персональный обзор языков запросов к данным

9 мин

15K

Блог компании RUVDS.comBig Data * Data Engineering * Data Mining * Python *

Рассказываю из личного опыта, что где и когда пригодилось. Обзорно и тезисно, чтобы понятно было, что и куда можно копать дальше — но тут у меня исключительно субъективный личный опыт, у вас, может быть, все совсем по-другому.

Почему важно знать и уметь обращаться с языками запросов? По своей сути в Data Science есть несколько важнейших этапов работы и самый первый и важнейший (без него уж точно ничего работать не будет!) — это получение или извлечение данных. Чаще всего данные в каком-то виде где-то сидят и их нужно оттуда «достать».

Языки запросов как раз и позволяют эти самые данные извлечь! И сегодня я расскажу, о тех языках запросов, которые мне пригодились и расскажу-покажу, где и как именно — зачем оно нужно для изучения.

Всего будет три основных блока типов запросов к данным, которые мы разберем в данной статье:

«Стандартные» языки запросов — то, что обычно понимают, когда говорят о языке запросов, как, например, реляционная алгебра или SQL.
Скриптовые языки запросов: например, питоновские штучки pandas, numpy или shell scripting.
Языки запросов к графам знаний и графовым базам данных.

Все написанное здесь — это просто персональный опыт, что пригодилось, с описанием ситуаций и «зачем оно было нужно» — каждый может примерить, насколько подобные ситуации могут встретиться вам и попробовать подготовиться к ним заранее, разобравшись с этими языками до того, как придется их в (срочном порядке) применять на проекте или вообще попасть на проект, где они нужны.

Читать дальше →

+39

rd_oxagile 21 авг 2020 в 14:03

Стабилизация видео с движущейся камеры, или как перевести всё в неподвижную систему координат

8 мин

9K

Из песочницы

Сейчас возможности Computer Vision (CV) полностью перекраивают ландшафт рынка Public Safety solutions. В то время как традиционными системами видеонаблюдения уже не просто никого не удивить, а странно не найти её в любом общественном месте, использование ИИ в данной области всё ещё вновинку.

Мы исследуем применение CV для различных бизнес-задач в сфере Public safety. В этом посте мы предлагаем вариант перевода видео с движущейся камеры в неподвижную систему координат для последующего анализа.

Полностью проект лежит на GitHub.

Допустим, у нас есть какое-то видео и мы хотим построить для него неподвижную систему координат, чтобы оценивать расположение объектов относительно друг друга.

Зачем это нужно? Очень часто в задачах public surveillance видео, которое нужно анализировать, снято на движущуюся камеру. Из-за этого возникает несколько проблем в определении положения объектов относительно друг друга:

Непонятно, чем вызвано изменение координат объекта: движется камера или сам объект;
При смене сцены из-за поворота камеры разные объекты могут получить одни и те же координаты, даже если объекты были статичными.

Рисунок 1 — Одинаковые объекты имеют разные координаты из-за движения камеры

Для того, чтобы построить неподвижную систему координат необходимо:

Определить начало координат;
Сопоставить между собой два последовательных фрейма;
Найти преобразование, которое будет переводить координаты объекта на текущем фрейме в координаты относительно начала координат, при этом учитывать все движения камеры (поворот, перемещение, наклон и т.д.).

Рисунок 2 — проективное преобразование

Читать дальше →

+10

ru_vds 18 авг 2020 в 17:21

Большая история аргументов функций в Python

11 мин

94K

Блог компании RUVDS.comВеб-разработка * Программирование * Python *

Перевод

Ну, на самом деле, история аргументов в Python не такая уж и большая.

Я всегда удивлялся тому, что для работы с аргументами Python-функций достаточно лишь разобраться с *args и **kwargs. И удивлялся я не зря. Как оказалось, аргументы — это далеко не так просто. В этом материале я хочу дать общий обзор всего того, что связано с аргументами функций в Python. Надеюсь, что в итоге у меня, и правда, получится показать общую картину работы с аргументами, и что эта статья не станет очередной публикацией, в которой читателю не удастся найти ничего нового. А теперь — к делу.

Большинству читателей этой статьи, полагаю, понятна сущность аргументов функций. Для начинающих поясню, что это — объекты, отправляемые функции инициатором её вызова. При передаче аргументов функции выполняется множество действий, зависящих от того, объекты какого типа отправляют функции (изменяемые или неизменяемые объекты). Инициатор вызова функции — это сущность, которая вызывает функцию и передаёт ей аргументы. Говоря о вызове функций, стоит поразмыслить над некоторыми вещами, которые мы сейчас обсудим.

Читать дальше →

+27

zloy_stas 18 авг 2020 в 09:01

Почему здравый смысл важнее паттернов, а Active Record не так уж и плох

6 мин

32K

Блог компании ДомкликJava * Python * ООП * Программирование *

Так уж вышло, что разработчики, особенно молодые, любят паттерны, любят спорить о том, какой паттерн нужно применять здесь или там. Спорить до хрипоты: это фасад или прокси, а может даже синглтон. А если у вас не чистая, гексагональная архитектура, то некоторые разработчики готовы сжечь на костре Святой Инквизиции.

При этом они забывают, что паттерны — это лишь возможные решения. У паттернов, также как и у любых принципов, есть границы применимости, и важно их понимать. Дорога в ад вымощена слепым и религиозным следованием пусть даже и авторитетным словам.

А наличие во фреймворке нужных паттернов никак не гарантирует их правильного и осознанного применения.

Читать дальше →

+40

host_m 17 авг 2020 в 09:54

Автоматизируем обработку изображений с помощью Jupyter и Python

2 мин

11K

Блог компании VDSina.ruPython * Лайфхаки для гиковВеб-разработка *

Перевод

Вряд ли вам захочется разбираться с обработкой изображений в графических редакторах, если вы знаете, как сделать это с помощью открытых библиотек для Python.

Читать дальше →

+18

1 2 ...

129

130 131 ...