Python *

Высокоуровневый язык программирования

СтатьиПостыНовостиАвторыКомпании

NewTechAudit 19 авг 2021 в 05:48

FineReader, Tesseract и EasyOCR или нужно ли срочно менять инструмент для OCR

7 мин

30K

Машинное обучение * Программирование * Python *

По сравнению со старшими товарищами, EasyOCR очень молодой проект, но с большими амбициями. В статье приводится сравнение качества работы, удобства работы, особенности установки и производительности трёх инструментов.

Одна из популярных задач в аудиторской практике – распознавание текста с документов. Казалось бы, инструменты для решения этой задачи давно известны, всё работает и ничего больше особо и не хочется: бесплатно и руками – Tesseract, платно и легко в использовании – FineReader.

Однако, недавняя статья удивила меня качеством работы и удобством использования инструмента EasyOCR. Разберёмся, насколько всё хорошо в сравнении с самыми популярными инструментами на примере нескольких задач и сравним удобство использования каждого инструмента.

NowanIlfideme 17 авг 2021 в 06:45

Структура + предположения > ML? Моделирование продаж байесовскими методами

17 мин

6.6K

Блог компании EPAMУправление продажами * Машинное обучение * Big Data * Python *

Не так давно участвовал в проекте, где мы применяли методы байесовского моделирования для ритейлинговой сети. Тема непростая и интересная. Так как проект под NDA, решил на примере похожего гипотетического проекта показать, как мы решали поставленные перед нами задачи.

Также подробно расскажу об основах Байесовского моделирования. Ну и бонусом, тем кто дочитает до конца и захочет углубиться в эту тему – «куча» ссылок.

kate_shlyakhova 17 авг 2021 в 06:20

Люди python-сообщества: кто приедет на PyCon Russia

9 мин

2.8K

Блог компании IT-PeoplePython * Конференции

Представьте, что вы заранее знаете, о чем с человеком можно пообщаться. Есть ли у вас общие темы, интересы? Наступал ли он на те же грабли, что и вы, только на год-два раньше?

Тогда можно подойти, и сказать, к примеру: “Читал, что ты можешь развернуть микросервисы локально несколькими способами…”

В общем, облегчаем задачу интровертам (не путайте их с социофобами!) и повышаем КПД общения. Расскажем вам о той части сообщества питонистов, которая приедет на PyCon 5-6 сентября — о спикерах. Как оказалось, они готовы общаться на темы, которые выходят далеко за рамки их докладов.

honyaki 16 авг 2021 в 16:01

Трюки Pandas от RealPython

15 мин

14K

Блог компании SkillfactoryData Engineering * Программирование * Python *

Туториал

Перевод

К старту флагманского курса по Data Science делимся сокращённым переводом из блога RealPython о трюках с Pandas, материал начинается с конфигурирования запуска библиотеки и заканчиваются примерами работы с операторами и их приоритетом. Затрагивается тема экономии памяти, сжатие фреймов, интроспекция GroupBy через итерацию и другие темы. Подробности, как всегда, под катом.

kmoseenk 16 авг 2021 в 13:04

Functools – сила функций высшего порядка в Python

8 мин

45K

Блог компании OTUSPython * Программирование *

Перевод

В стандартной библиотеке Python есть множество замечательных модулей, которые помогают делать ваш код чище и проще, и functools определенно является одним из них. В этом модуле есть множество полезных функций высшего порядка, которые можно использовать для кэширования, перегрузки, создания декораторов и в целом для того, чтобы делать код более функциональным, поэтому давайте отправимся на экскурсию по этому модулю и посмотрим, что он может нам предложить.

Кэширование

Давайте начнем с самых простых, но довольно мощных функций модуля functools. Начнем с функций кэширования (а также декораторов) - lru_cache, cache и cached_property. Первая из них - lru_cache предоставляет кэш последних результатов выполнения функций, или другими словами, запоминает результат их работы:

ValentinDom 16 авг 2021 в 07:00

Как устроен Domain-Driven Design

13 мин

68K

Блог компании Конференции Олега Бунина (Онтико)Python * Программирование * Django * Конференции

Многие проекты на Django начинаются просто: есть база данных и к приложению, которое крутится на сервере, идут обращения. Например, так начиналась Dodo IS (информационная система компании Додо Пицца, где работал автор сегодняшней статьи). Но если использовать Django из коробки, можно натворить много бед и встретить пачку антипаттернов. Возможно, вы встречали такое на старых legacy-проектах.

Евгений Пешков развивает сообщество DDD-практиков, рассказывая, какие проблемы решает Domain-Driven Design (предметно-ориентированное проектирование) в современном мире. На конференции Russian Python Week 2020 он выступил с рассказом об этом. Кстати, 19 августа пройдет встреча DDDevotion-сообщества, присоединяйтесь, будем о чем поговорить.

В сегодняшней статье будет его рассказ про то, как устроен Domain-Driven Design и какие инструменты использует, чтобы наиболее точно описать требования бизнеса и сам бизнес.

+36

fdsvptr 16 авг 2021 в 04:11

В шоке от цен на авиабилеты по России: как летать дешевле

10 мин

41K

Python * Визуализация данных * DIY или Сделай сам

Вы продаете билетов на самолеты? - Нет, только показываю. - Красивое…

Люди делятся на два типа: одни летают за тысячу рублей из Питера во Владивосток, другие сутками скрупулезно высчитывают маршруты через Казахстан, отказываются от багажа, соглашаются на микро кресла и в итоге все равно получают космический ценник.

Почему так происходит, как формируются цены на авиабилеты и как в итоге покупать их дешевле - рассказываю под катом.

+28

Molozey 15 авг 2021 в 21:36

Как я боролся с анти-читом

8 мин

8.6K

Ненормальное программирование * Python * Программирование * Обработка изображений *

Из песочницы

Насколько мне известно, в большинстве русскоязычных тестировщиков скорости печати используется метрика CPM, наткнувшись на следующее видео мне стало интересно посмотреть на свои показатели метрики WPM.

По окончанию тестирования пользователю показывается результат написанный на картинке. И мне она показалась не совсем корректной.

+15

NewTechAudit 15 авг 2021 в 14:25

Поиск адресов в «испорченных» данных

10 мин

6.4K

Python * Программирование * Машинное обучение *

Введение

Для проведения проверки мне необходимо было установить адреса нескольких сотен объектов недвижимости. Проблема в том, что адреса были написаны в разных частях документов, документы имели различные форматы, и сам адрес также мог быть написан разнообразными способами.

Да, существует возможность использовать для данной задачи различные библиотеки и сервисы, но источники данных с информацией об этих объектах должны быть упорядочены и однородны. Можно ли используя минимум ресурсов решать подобные задачи? Можно! Рассмотрим решение на основе Python 3, Pandas и нескольких библиотек для конвертации файлов в датафреймы.

jamm1985 15 авг 2021 в 13:00

Владивосток, оползни и логистическая регрессия

8 мин

8.1K

Python * Математика * Машинное обучение * Научно-популярное

27-28 августа во Владивостоке и Приморском крае произошли массовые оползни. К счастью, обошлось без жертв. Однако, материальные потери оказались существенными: разбитые машины, перекрытые дороги, повреждённые здания и детские площадки. Оползни сошли в момент прохождения циклона с обильными дождями. Мы робко предположили, что "осадки виновны", распаковали методы классической статистики и приступили к исследованию.

+12

honyaki 14 авг 2021 в 14:48

Как превратить книгу о Гарри Поттере в граф знаний

12 мин

11K

Блог компании SkillfactoryPython * Программирование * Визуализация данных * Natural Language Processing *

Туториал

Перевод

Обработка естественного языка — это не только нейронные сети, а данные — это не только строки, числа и перечисления. Область работы с данными простирается намного дальше. К старту флагманского курса по Data Science представляем вашему вниманию перевод из блога разработчиков графовой базы данных neo4j о том, как при помощи SpaCy и Selenium извлечь из книги граф взаимоотношений героев. Подробности и код, как всегда, под катом.

+11

hedgehog_on_rainbow 14 авг 2021 в 12:00

Заглянем в будущее Python

12 мин

24K

Блог компании Конференции Олега Бунина (Онтико)ИнтервьюБудущее здесьКонференцииPython *

На конференции Russian Python Week 2020 мы пообщались с двумя людьми, от которых непосредственно зависит будущее Python.

На наши вопросы ответили Core-developer community on Google Cloud Дастин Инграм и Director at Python Software Foundation Кэрол Виллинг. Их ответы о том, чего не хватает языку и как он будет развиваться дальше, вы узнаете, заглянув под кат.

+39

cene655 14 авг 2021 в 11:45

Cross-Fold Generation или как генерировать длинные последовательности с ruGPT-3

11 мин

3.1K

Машинное обучение * Искусственный интеллектPython *

Из песочницы

RuGPT-3 - AI-модель для русского языка, которая умеет писать тексты. Она может генерировать истории, стихи и новости, которые люди не могут отличить от настоящих. Похожая модель лежит в основе Балаболы от Яндекса. В этой статье мы описываем способ генерации длинных текстов без потери смысла на примере модели ruGPT-3 Large. Мы назвали этот метод Cross-Fold Generation. С ним можно генерировать последовательности более 2000 токенов с сохранением идеи текста.

+11

kmoseenk 13 авг 2021 в 16:05

6 рекомендаций по определению метода init

4 мин

20K

Блог компании OTUSPython * Программирование *

Перевод

Основным краеугольным камнем Python как объектно-ориентированного языка программирования является определение связанных классов для управления и обработки данных. Когда мы создаем класс, первым методом, который определяем является метод инициализации __init__. Если вы примените следующие рекомендации, то тот, кто будет читать ваш код, лучше поймет механику работы всех объектов экземпляра класса. В этой статье я хочу рассказать вам о рекомендациях по определению метода __init__.

YurasovAlexey 13 авг 2021 в 09:11

3D моделирование в Python

21 мин

110K

3D-графика * Python * Программирование *

Из песочницы

Допустим, вам потребовалось на языке программирования python, построить трёхмерную модель некоторого объекта, затем визуализировать его, или подготовить файл для печати на 3D принтере. Существует несколько библиотек, помогающих в решении этих задач. Поговорим о том, как строить трёхмерные модели из точек, граней и примитивов в python. Как выполнять элементарные приемы 3D моделирования: перемещение, поворот, объединение, вычитание и другие.

+21

1_0 13 авг 2021 в 06:55

Не обижайте котиков и собачек, а ищите их среди… питонов

5 мин

1.3K

Python * Машинное обучение *

Некоторые размышления о сложностях машинного обучения, базирующиеся на практическом опыте и полёте фантазии

-5

stranger777 12 авг 2021 в 14:46

Как выглядит эффект бэггинга на смещение и дисперсию

12 мин

4.8K

Блог компании SkillfactoryНаучно-популярноеВизуализация данных * Математика * Python *

Перевод

Часто суть статей о бэггинге сводится к тому, что вы обучаете множество деревьев решений на различных частях данных и усредняете прогнозы, чтобы получить окончательный прогноз, который улучшается из-за того, что дисперсия случайного леса меньше дисперсии одного дерева решений. Тексты с таким заключением содержат отличные демонстрации, код и много других мыслей. Но криптоаналитику и дата-сайентисту, доктору Роберту Кюблеру, переводом статьи которого мы делимся сегодня, часто не хватает хороших выкладок о причине, почему бэггинг — хорошая идея, а ещё не хватает демонстраций уменьшения дисперсии на реальных данных. Восполняем этот пробел к старту нашего флагманского курса по Data Science.

X5Tech 12 авг 2021 в 12:58

Собеседование на позицию Data Engineer в Х5: чего ждать и как лучше подготовиться

4 мин

21K

Блог компании X5 TechData Engineering * Apache * SQL * Python *

В X5 Group активно развивают цифровые продукты, построенные на основе больших данных, использующие сложную аналитику и машинное обучение, такие как прогнозирование спроса, управление ассортиментной матрицей магазинов, предсказание отсутствия товаров на полках, динамическое ценообразования и т.п.

Для разработки продуктов формируются автономные, кросс-функциональные команды, которые имеют минимум внешних зависимостей и могут двигаться вперед с максимальной скоростью. Одной из ключевых ролей в таких командах является роль Data Engineer.

m31 12 авг 2021 в 11:30

DataScience Digest — 12.08.21

3 мин

1.9K

Искусственный интеллектМашинное обучение * Big Data * Алгоритмы * Python *

Приветствую всех!

Встречайте свежий выпуск дайджеста полезных материалов из мира Data Science & Machine Learning подготовленный командой Data Phoenix и не забывайте подписываться на наш Telegram-канал.

Напоминаю, что 17 августа буду проводить вебинар "The A-Z of Data: Introduction to MLOps". В его рамках мы рассмотрим, что такое MLOps, основные принципы и практики, лучшие инструменты и возможные архитектуры. Мы начнем с простого жизненного цикла разработки ML решений и закончим сложным, максимально автоматизированным, циклом, который нам позволяет реализовать MLOps. Детали и обязательная предварительная регистрация здесь.

rawoak 12 авг 2021 в 07:00

Парсинг Instagram в промышленных масштабах

28 мин

47K

Python * Data Mining * NoSQL * Базы данных * Облачные сервисы *

В декабре 2020 года, завершив работать в научном институте, я увлёкся задачей добычи данных из соцсетей, в частности из Инстаграма. Прежде я работал только с готовыми данными, поэтому мне всегда было интересно, как эти данные можно добывать. За несколько дней до Нового Года я написал достаточно базовую статью про то как парсить Инст. В первых числах января мне написал заказчик и попросил сделать для него масштабный парсер инстаграма, который был бы способен делать более 10.000 запросов в сутки.

С тех пор прошло уже больше полугода, за которые я набил всевозможные шишки в данной области и написал промышленный парсер, который способен делать сотни тысяч, если не миллионы запросов в сутки.

В рамках данной статьи я хочу рассказать про путь развития своего Pet-Project в потенциально мощный и серьёзный инструмент. Впереди вас ждёт увлекательное путешествие от хранения данных в простых Json-ах на жестком диске сервера, до облачной базы данных и автоматической инициализации cron расписания запуска процессов внутри докер контейнера, поехали!

Поехали!

+13

1 2 ...

270 271

272

273 274 ...

498 499

Python *

FineReader, Tesseract и EasyOCR или нужно ли срочно менять инструмент для OCR

Структура + предположения > ML? Моделирование продаж байесовскими методами

Люди python-сообщества: кто приедет на PyCon Russia

Трюки Pandas от RealPython

Functools – сила функций высшего порядка в Python

Как устроен Domain-Driven Design

В шоке от цен на авиабилеты по России: как летать дешевле

Как я боролся с анти-читом

Поиск адресов в «испорченных» данных

Владивосток, оползни и логистическая регрессия

Как превратить книгу о Гарри Поттере в граф знаний

Заглянем в будущее Python

Cross-Fold Generation или как генерировать длинные последовательности с ruGPT-3

Ближайшие события

6 рекомендаций по определению метода init

3D моделирование в Python

Не обижайте котиков и собачек, а ищите их среди… питонов

Как выглядит эффект бэггинга на смещение и дисперсию

Собеседование на позицию Data Engineer в Х5: чего ждать и как лучше подготовиться

DataScience Digest — 12.08.21

Парсинг Instagram в промышленных масштабах

Вклад авторов