Все потоки
Поиск
Написать публикацию
Обновить
428.93

Python *

Высокоуровневый язык программирования

Сначала показывать
Порог рейтинга
Уровень сложности

Формирование однородных групп для сплит-тестирования. Реализация на Python

Время на прочтение7 мин
Количество просмотров3.4K

Всем привет! Если перед вами стоит задача проведения А/Б тестирования, то я помогу вам понять, как с помощью python сформировать однородные группы с помощью алгоритмов сходства объектов на основе косинусного и взвешенного косинусного расстояния для его проведения.

Читать далее

Введение в графовые нейросети с механизмом самовнимания на примере PyTorch Geometric

Время на прочтение10 мин
Количество просмотров10K

К старту флагманского курса по Data Science реализуем и сравним свёрточную сеть и сеть с механизмом самовнимания. С помощью t-SNE покажем, что и каким образом изучается в графовой сети с механизмом самовнимания. За подробностями приглашаем под кат.

Читать далее

Этапы профессиональной карьеры разработчика: какие задачи решают junior, middle и senior

Время на прочтение8 мин
Количество просмотров43K

В своем блоге на Хабре мы уже не раз писали о Python. Хотя бы потому, что это один из наиболее популярных в мире языков программирования. В начале этого года по версии Tiobe он занял первое место. Популярность его объясняется достаточно просто - язык можно относительно быстро выучить на базовом уровне и начать двигаться к вершинам профессии. Но какие они, эти вершины? На что способен senior, какие задачи решает middle, а какие - junior? Об этом мы поговорили с Алексеем Некрасовым (@znbiz), лидером направления Python в МТС, программным директором направления Python и спикером профессии “Python-разработчик” в Skillbox.

Читать далее

Pycon Weekend 2022: как прошла конференция по python в горах

Время на прочтение2 мин
Количество просмотров2.9K

25-26 марта в Сочи прошла конференция для python-разработчиков Pycon Weekend. Мы были на курорте Красная Поляна, два дня слушали доклады, общались и катались на живописных горных склонах. Получилось, как всегда, очень душевно и полезно.

В программе конференции было 9 докладов, спикерам задавали очень много вопросов из зала. В кулуарах вопросы и обсуждения продолжались. Оба дня после официальной части нашей программы мы устраивали традиционные lightning talks, где за короткое время можно было рассказать о чем угодно: ребята рассказывали про свои проекты на питоне, про путешествия, про любимого питомца, а кто-то все отведенное время острил веселыми шуточками и веселил всех участников.

Сейчас мы готовим нашу следующую, самую большую и душевную конференцию для pythton-разработчиков Pycon Russia. Она пройдет 30-31 июля в Москве. Программный комитет уже ведет активную работу по формированию программы, успевайте подавать заявки на выступления до 15 мая, чтобы стать спикером. А билеты можно купить по ранней цене до 1 июня.

А пока мы готовим для вас Pycon Russia 2022, предлагаем вам посмотреть доклады с Pycon Weekend 2022.

? Василий Копытов (Avito, Москва): «Как и почему мы перешли от Python к Go в нашем основном сервисе рекомендаций»

Читать далее

Сравнение алгоритмов детекции лиц

Время на прочтение3 мин
Количество просмотров20K

Привет, Хабр! Очень часто я на просторах интернета натыкаюсь на такой вопрос: «А какое готовое решение по детекции лиц лучше всего использовать?» Так вот, я отобрал 5 решений с Github, которые показались мне хорошими, относительно новыми и лёгкими в использовании, и хотел бы сравнить их между собой. Всем, кому интересно, что из этого вышло, добро пожаловать под кат!

Читать далее

Уроки компьютерного зрения на Python + OpenCV с самых азов. Часть 5

Время на прочтение8 мин
Количество просмотров13K

На прошлом уроке я рассказал о том, как повысить контрастность изображения и как выделить на изображении особе точки. Затем мы попробовали работать с найденными особыми точками. В частности, превратили эти точки в список  координат и попытались объединить близкие точки в одну, так как у нас получилось очень много точек рядом. В статье был предложен следующий алгоритм: при составлении списка, перед добавлением в список очередной точки проверять, находится ли она близко от последней, если да, то добавлять в тот же список, если нет, то начинать новый список.  Только проблема в том, что обход точек был через развертку, и могло получиться так, что близкие точки попадают в разные списки. Поэтому объединение точек получилось «криво».  Сегодня мы исправим этот недочет.

Для начала, почему мы вообще начали все эти хитрости с алгоритмом? Дело в том, что если решать задачу «в лоб», то время работы алгоритма у нас будет пропорционально квадрату размера списка. Собственно, давайте сначала проверим, насколько критично будет время работы алгоритма «в лоб» при разных ситуациях. И так, нам нужно перебрать все точки и сравнить их расстояния со всеми точками:

Читать далее

Нейронная сеть считает лес кругляк и распознает автомобильные номера. Как это сделано?

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров17K

В статье покажем, как алгоритмы компьютерного зрения помогают решить задачу автоматического определения объема круглого леса в лесовозе по фотографии. Пройдем путь от идеи до прототипа. Расскажем, какие были выбраны решения и почему.

Необходимая подготовка читателя — должно быть общее представление о компьютерном зрении (computer vision) и нейронных сетях. Здесь не будет описаний, что такое сверточная нейронная сеть и т.п., статей по таким основам найдете много на хабре (вот хорошая Глубокое обучение для новичков: распознаем изображения с помощью сверточных сетей). В то же время, совсем новички могут получить представление, какие знания и компетенции нужны для решения подобных задач.

Читать далее

Подбор синонимов для терминов с использованием Викиданных (python)

Время на прочтение2 мин
Количество просмотров5.2K

Существует множество сервисов по подбору синонимов, но они редко справляются с терминами, которые содержат в себе более одного слова. Для подбора синонимов для более сложных выражений могут помочь Викиданные. Мало кто знает, что помимо стандартной Википедии существует дополнительная база данных Викиданные(Wikidata), которая представляет собой граф знаний фонда Викимедия. Сейчас она интегрирована в саму Википедию, поэтому для многих статей в левом меню можно найти пункт Элемент Викиданных. Викиданные представлены в модели rdf, то есть информация имеет вид триплетов, которые характеризуют сущность. Триплет выглядит, как утверждение субьект - предикат - обьект. Пример, для сущности Англия одним из таких информационных триплетов представлен: Англия - имеет столицу - Лондон. 

Один из предикатов(типов связи) это altLabel, подразумевающий под собой альтернативные названия, который как раз таки и поможет нам в поиске синонимов.

Сразу стоит учитывать, что Викиданные это очень обширная база знаний, но, тем не менее, не совершенная. Поэтому, для терминов, которые там не представлены, или представлены, но для их сущностей нет введенных альтернативных названий, синонимов найдено не будет.

Читать далее

Автоматическая суммаризация текстов с помощью трансформеров Hugging Face. Часть 1

Время на прочтение12 мин
Количество просмотров10K

В июле 2020 года компания OpenAI выпустила свою модель машинного обучения третьего поколения, GPT-3, ориентированную на генерирование текстов. Тогда я понял, что мир уже не будет прежним. Эта модель задела меня за живое. Те системы такого рода, что выходили раньше, у меня подобных ощущений не вызывали. И вот ещё неожиданность — о новой системе начали говорить мои друзья и коллеги, в принципе интересующиеся технологиями, но не особенно обращающие внимание на последние достижения машинного обучения (Machine Learning, ML) и искусственного интеллекта (Artificial Intelligence, AI). Об этом написала даже газета Guardian. А если точнее — статью написала сама модель, а в Guardian её лишь отредактировали и опубликовали. Совершенно очевидно то, что выход модели GPT-3 стал поворотным моментом в развитии искусственного интеллекта.

Сразу же после выхода модели начали появляться идеи по поводу вариантов её применения. В течение нескольких недель было создано множество впечатляющих демонстрационных проектов, которые можно найти на сайте GPT-3. Моё внимание привлёк один из способов применения GPT-3 — автоматическое реферирование текстов (text summarization): компьютер читает переданный ему текст и выдаёт краткое изложение этого текста. Это — одна из самых сложных задач, с которыми приходится сталкиваться компьютерам. Дело в том, что она совмещает в себе два навыка из сферы обработки естественных языков (Natural Language Processing, NLP). Это — понимание читаемых текстов и возможность писать тексты самостоятельно. Именно поэтому меня так впечатлили примеры использования GPT-3, демонстрирующие возможности системы по генерированию текстов.

Читать далее

«Тюрьма народов»: сколько, кто и за что сидит в США, России и Европе

Время на прочтение32 мин
Количество просмотров62K

Результат исследования данных из открытых источников по тюрьмам США, России и Европы. Статья расскажет вам о численности тюрем, заключённых, их распределению по возрасту, полу, совершённым преступлениям и о многом-многом другом... Каков процент наполнения тюрем в России и США? Каков уровень рецидивизма? За что сидит большинство заключённых? Сколько приходится заключённых на одного охранника? Сколько тратит правительство на уголовную систему?

Узнать ответы

KiCad: скругление дорожек и создание каплевидных падов

Время на прочтение11 мин
Количество просмотров14K

KiCad с годами стал намного лучше, но при этом ему по-прежнему недостаёт возможности рисовать плавные, закруглённые дорожки с каплевидными падами (teardrops). И хоть многие находят этот функционал не особо нужным, в его пользу существует ряд аргументов, которые и привели к реализации данного проекта, а именно двух плагинов — для скругления дорожек и формирования каплевидных подводов.
Читать дальше →

Анализ данных виртуальных велотренировок

Время на прочтение12 мин
Количество просмотров3.3K

В этой статье я расскажу как помощью python построить базовый график тренировки, произвести дополнительные расчеты и как определить похожие тренировки, а также о том какие бывают виртуальные велотренировки.

У вас на руках должен быть FIT-файлы тренировок, и установлены модули matplotlib, pandas, sklearn. В конце статьи ссылка на git с примерами.

Читать далее

ИИ для прогнозирования тренда стоимости Bitcoin на данных Twitter. ч.1

Время на прочтение9 мин
Количество просмотров15K

В этой статье я расскажу о первой серии экспериментов для проверки гипотезы влияния данных Twitter на тренд стоимости Bitcoin. Цель не угадать ценник, а предсказать рост, убывание или относительную неизменность цены

Читать далее

Ближайшие события

Звук в DIY проектах

Время на прочтение4 мин
Количество просмотров4.9K

Если ваше хобби/DIY, как и моё, связано с компьютером, то на каком то этапе вам захочется использовать звук. Предлагаю поговорить о звуке и обменяться опытом. Конкретно говорить будем, про запись и воспроизведение звука на компьютере. Возьмем компьютер под управлением Linux, но и под Windows должно работать. Язык для программирования предпочитаю Python.

Читать далее если интересно

Байесовская Сеть Доверия: Практика

Время на прочтение9 мин
Количество просмотров10K

Мы продолжаем нашу серию статей, связанных с байесовскими методами, один из которых — Байесовские Сети Доверия (БСД). Теоретическую основу БСД вы можете найти в этой статье.

В этой статье мы сначала вкратце вспомним теорию. Дальше будет, что называется, только хардкор: на примере данных “Титаника” мы будем строить БСД.

Читать далее

Ирина, голосовой помощник. Продолжение

Время на прочтение7 мин
Количество просмотров21K

— Слушай, она меня на кухне не слышит.
— Ну да, далековато. Давай дополнительный микрофон протянем.
<покупается 5 метров кабеля>
— О, классно!
— ...
— Теперь в комнате не работает.

Это продолжение статьи Ирина — опенсорс русский голосовой помощник. Offline-ready - про голосового помощника, не зависящего от крупных корпораций. Расскажу, что улучшилось за два месяца с момента прошлой статьи.

TL;DR> Отлажен клиент-сервер с несколькими микрофонами/машинами; можно командовать по всему дому. Сделан Телеграм-клиент. Несколько новых голосов (TTS). Обработка голоса в контексте (можно делать голосовые игры). Интеграция с Home Assistant. И ЕЩЁ больше плагинов и документации.

Ладно, рассказывай, что нового

Мечтают ли алгоритмы о финансовой отчётности: новый способ работы с ФО в ВТБ

Время на прочтение13 мин
Количество просмотров2.6K

Финансовая отчетность (ФО) — штука предельно ответственная. Получаемая от бизнеса ФО постоянно нужна банку для организации повседневной деятельности. Но процесс получения важной для нас отчётности омрачается тем, что работа с ФО — это монотонный неэффективный конвейер, на поддержание которого банковские служащие тратят тысячи человекочасов. ВТБ использует электронные инструменты получения ФО, такие как: ФНС, 1С, Коробочное решение распознавания. Это основные направления развития, но сегодня они не покрывают всю потребность в клиентской ФО. 

Меня зовут Андрей Ходяков, я работаю с неструктурированными данными в управлении моделирования КИБ СМБ в банке ВТБ. И в этом материале я расскажу, как мы искали и нашли собственное решение для борьбы с рутиной ФО.

Взглянуть на ФО под новым углом

Как мы кикшеринг взломали

Время на прочтение4 мин
Количество просмотров42K

В этой статье я поведаю вам кейс о взломе одного из крупнейших сервисов шеринга самокатов путем подмены TLS сертификатов и использования Python и mitmproxy.

Читать далее

Машинное обучение на службе урбанистики

Время на прочтение4 мин
Количество просмотров2.8K

Как театр начинается с вешалки, так анализ начинается с данных. Во многих науках существуют уже готовые датасеты, однако урбанистике с этим повезло меньше остальных. Современный человек утолил свой голод, излечился от болезней, познал тайны атомного ядра и вселенной - пора наверно и обустроить городское пространство вокруг себя? Но для начала его следует изучить.

Читать далее

Обзор некоторых возможностей Python 3.11

Время на прочтение4 мин
Количество просмотров12K

Согласно заявлению Python Software Foundation (PSF), Python 3.11 сейчас находится в альфа-ревизии и планируется к релизу в Октябре 2022.

Какие изменения ожидают нас в следующей версии?

Читать далее

Вклад авторов