Все потоки

Python *

Высокоуровневый язык программирования

659,51

Рейтинг

СтатьиПостыНовостиАвторыКомпании

DmitrySpb79 5 мар 2019 в 13:28

Хабрарейтинг: построение облака русскоязычных слов на примере заголовков Хабра

5 мин

6.3K

Python * Веб-аналитика * Социальные сетиСтатистика в IT

Привет, Хабр.

В последней части Хабрарейтинга был опубликован метод построения облака слов для англоязычных терминов. Разумеется, задача парсинга русских слов является гораздо более сложной, но как подсказали в комментариях, для этого существуют готовые библиотеки.

Разберемся, как строить такую картинку:

Также посмотрим облако статей Хабра за все годы.

Кому интересно, что получилось, прошу под кат.

Читать дальше →

+15

grigoryvp 4 мар 2019 в 13:46

Почему в «Тинькофф-журнале» выбирают Django

13 мин

11K

Блог компании Конференции Олега Бунина (Онтико)Django * Python * Программирование * Веб-разработка *

Мы в «Python Junior подкаст» — подкасте для тех, кто хочет лучше разбираться в Python — стараемся всячески способствовать стремлению учиться. Приглашаем экспертов, задаем каверзные вопросы, получаем советы, чему и как учиться начинающему Python-разработчику, или не начинающему, или не Python — всякое бывает.

Сегодня вашему вниманию предлагается текстовая версия нашей беседы с Арсением Габдуллиным, разработчиком Тинькофф-журнала, на тему его будущего доклада на Moscow Python Conf++, но без спойлеров.

Хоть я все время говорю, что на конференции ходят, не чтобы учиться, пользы на них много. Как и в нашем подкасте.

В беседе участвуют:

Григорий Петров, евангелист MoscowPython, руководитель программного комитета Moscow Python Conf ++;
Арсений Габдуллин, разработчик Тинькофф-журнала, докладчик MoscowPython Conf++;
Злата Обуховская, тимлид Nvidia, евангелист MoscowPython, член программного комитета Moscow Python Conf++;
Валентин Домбровский, соорганизатор и сооснователь MoscowPython,

Валентин Домбровский: Арсений, твой доклад без спойлеров — о чем ты нам расскажешь на конференции?

+23

alexyakovlev90 4 мар 2019 в 12:50

Как Tinkoff.ru автоматизирует аналитику с Zeppelin

6 мин

12K

Блог компании Т-БанкПроектирование API * Java * Python *

Tinkoff.ru разрабатывает множество сервисов на рынке финансовых услуг. У нас решают свои повседневные задачи аналитики, разработчики, технологи, менеджеры. Все мы ежедневно генерим идеи, анализируем, разрабатываем и делаем все, чтобы создавать лучший продукт на рынке.

Я работаю бекенд-программистом в отделе внутренней разработки. Мы помогаем запускать новые бизнес линии, автоматизируем рабочий процесс и пытаемся сэкономить банку денег там, где это возможно (например отказаться от покупки лицензии на какой нибудь дорогой софт). Рабочий процесс у нас весьма стандартный: менеджеры придумывают бизнес-фичи, технологи их формализуют и ставят задачи, аналитики анализируют данные, а разработчики уже решают поставленные перед ними задачи. В жизни все сложнее, но вы и так это знаете.

Читать дальше →

+23

iphysic 4 мар 2019 в 11:02

Знакомство с Neural ODE

20 мин

44K

Блог компании Open Data SciencePython * Алгоритмы * Математика * Машинное обучение *

Neural Ordinary Differential Equations

Значительная доля процессов описывается дифференциальными уравнениями, это могут быть эволюция физической системы во времени, медицинское состояние пациента, фундаментальные характеристики фондового рынка и т.д. Данные о таких процессах последовательны и непрерывны по своей природе, в том смысле, что наблюдения — это просто проявления какого-то непрерывно изменяющегося состояния.

Есть также и другой тип последовательных данных, это дискретные данные, например, данные NLP задач. Состояния в таких данных меняется дискретно: от одного символа или слова к другому.

Сейчас оба типа таких последовательных данных обычно обрабатываются рекуррентными сетями, несмотря на то, что они отличны по своей природе, и похоже, требуют различных подходов.

На последней NIPS-конференции была представлена одна очень интересная статья, которая может помочь решить эту проблему. Авторы предлагают подход, который они назвали Нейронные Обыкновенные Дифференциальные Уравнения (Neural ODE).

Здесь я постарался воспроизвести и кратко изложить результаты этой статьи, чтобы сделать знакомство с ее идеей чуть более простым. Мне кажется, что эта новая архитектура вполне может найти место в стандартном инструментарии дата-сайентиста наряду со сверточными и рекуррентными сетями.

Читать дальше →

+70

alter_fritz 2 мар 2019 в 06:01

Python и FPGA. Тестирование

7 мин

17K

Python * FPGA *

В продолжение к первой статье, хочу на примере показать вариант работы с FPGA (ПЛИС) на python. В данной статье затрону подробнее аспект тестирования. Если фреймворк MyHDL позволяет людям, работающим на python, используя знакомый синтаксис и экосистему, заглянуть в мир FPGA, то опытным разработчикам ПЛИС смысл использования python не ясен. Парадигмы описания аппаратуры для MyHDL и Verilog похожи, а выбор в пользу определенного языка вопрос привычки и вкуса. За Verilog/VHDL выступает то, что на этих языках давно пишут прошивки, и по факту они являются стандартными для описания цифровой аппаратуры. Python, как новичок в этой сфере, может конкурировать в области написания тестового окружения. Значительную часть времени у FPGA разработчика занимает тестирование своих дизайнов. Далее я хочу на примере продемонстрировать как это делается в python с MyHDL.

Допустим, есть задача описать на ПЛИС некое устройство, работающее с памятью. Для простоты возьму память, общающуюся с другими устройствами через параллельный интерфейс (а не через последовательный, например I2C). Такие микросхемы не всегда бывают практичны в виду того, что для работы с ними требуется много пинов, с другой стороны обеспечивается более быстрый и упрощенный обмен информации. Например отечественная 1645РУ1У и ее аналоги.

Читать дальше →

+25

DmitrySpb79 1 мар 2019 в 21:02

Хабрамегарейтинг: лучшие статьи и статистика Хабра за 12 лет. Часть 2/2

13 мин

18K

Python * Веб-аналитика * Исследования и прогнозы в IT * Социальные сетиСтатистика в IT

Привет, Хабр.

В первой части были рассмотрены некоторые закономерности развития такого интересного ресурса, как habrahabr. Материал получился длинный, так что продолжение здесь. В этой части мы заодно посмотрим как строить такие картинки, и наконец, завершим нашу статистику и рейтинг.

Кому интересны результаты, прошу под кат.

Читать дальше →

+40

DmitrySpb79 1 мар 2019 в 21:01

Хабрамегарейтинг: лучшие статьи и статистика Хабра за 12 лет. Часть 1/2

5 мин

12K

Python * Веб-аналитика * Исследования и прогнозы в IT * Социальные сетиСтатистика в IT

Привет Хабр.

После публикации рейтинга статей за 2017 и 2018 год, следующая идея была очевидна — собрать обобщенный рейтинг за все годы. Но просто собрать ссылки было бы банально (хотя и тоже полезно), поэтому было решено расширить обработку данных и собрать еще немного полезной информации.

Рейтинги, статистика и немного исходного кода на Python под катом.

Читать дальше →

+34

MaxRokatansky 1 мар 2019 в 12:00

Жизненный цикл кода на Python – модель выполнения CPython

11 мин

17K

Блог компании OTUSPython *

Перевод

Всем привет! Наступила весна, а это значит, что до запуска курса «Разработчик Python» остается меньше месяца. Именно этому курсу и будет посвящена наша сегодняшняя публикация.

Читать дальше →

+14

Tishka17 27 фев 2019 в 08:21

Введение в аннотации типов Python. Продолжение

4 мин

83K

Блог компании Lamoda TechPython *

Автор иллюстрации — Magdalena Tomczyk

В первой части статьи я описал основы использования аннотаций типов. Однако несколько важных моментов остались не рассмотрены. Во-первых, дженерики — важный механизм, во-вторых иногда может оказаться полезным узнать информацию об ожидаемых типах в рантайме. Но начать хотелось с более простых вещей

Читать дальше →

+25

winmasta 27 фев 2019 в 07:58

Создание Dataflow шаблона для стриминга данных из Pub/Sub в BigQuery на базе GCP с помощью Apache Beam SDK и Python

9 мин

9.4K

Python * Google Cloud Platform * DevOps *

Из песочницы

В данный момент занимаюсь задачей стриминга (и преобразования) данных. В некоторых кругах
такой процесс известен как ETL, т.е. извлечение, преобразование и загрузка информации.

Весь процесс включает в себя участие следующих сервисов Google Cloud Platform:

Pub/Sub — сервис для realtime стриминга данных
Dataflow — сервис для преобразования данных (может
работать как в realtime так и в batch режиме)
BigQuery — сервис для хранения данных в виде таблиц
(поддерживает SQL)

Читать дальше →

+10

xeonvs 26 фев 2019 в 19:23

Гадание на нейросетях: отметился ли в комментариях к посту сам автор

6 мин

7K

Python * Машинное обучение *

Из песочницы

Поделюсь рассказом о небольшом проекте: как найти в комментариях ответы автора, заведомо не зная кто автор поста.

Свой проект я начинал с минимальными знаниями по машинному обучению и думаю для специалистов тут не будет ничего нового. Этот материал в некотором смысле компиляция разных статей, в нем расскажу, как подходил к задаче, в коде можно найти полезные мелочи и приемы с обработкой естественного языка.

Читать дальше →

+31

b2broker 26 фев 2019 в 09:38

Как мы делали платежную систему для криптовалюты: пять основных проблем

6 мин

11K

Блог компании B2BrokerCMS * Python * КриптовалютыФинансы в IT

Привет, Хабр! На связи компания B2Broker, провайдер ликвидности и технологических решений для брокерской и биржевой индустрии. Один из наших продуктов — трейдинговая платформа B2BX.exchange. Когда летом 2017 года мы запускали платформу, то задумались о том, как принимать криптовалюты и какой процессинг использовать. Увы, никто на тот момент не был готов дать хоть какие-либо гарантии по уязвимости контракта, да и история с атакой платформы DAO была еще на слуху. Мы не хотели идти по стопам DAO. К тому же, у нас были некоторые наработки по приему платежей через блокчейн. Так что мы решили самостоятельно проработать весь цикл проведения блокчейн-платежей. В этом посте мы расскажем о том, что у нас получилось, и, что самое интересное, — о том, какие проблемы нам пришлось решить в процессе.

Источник: ripplecoinnews.com

Читать дальше →

+14

ru_vds 26 фев 2019 в 09:00

Управление памятью в Python

13 мин

61K

Блог компании RUVDS.comPython * Алгоритмы * Веб-разработка *

Туториал

Перевод

Задумывались ли вы когда-нибудь о том, как данные, с которыми вы работаете, выглядят в недрах Python? О том, как переменные создаются и хранятся в памяти? О том, как и когда они удаляются? Материал, перевод которого мы публикуем, посвящён исследованиям глубин Python, в ходе которых мы попытаемся выяснить особенности управления памятью в этом языке. Изучив эту статью, вы разберётесь с тем, как работают низкоуровневые механизмы компьютеров, в особенности те из них, которые связаны с памятью. Вы поймёте то, как Python абстрагирует низкоуровневые операции и познакомитесь с тем, как он управляет памятью.

Знание того, что происходит в Python, позволит вам лучше понимать некоторые особенности поведения этого языка. Это, хочется надеяться, даст вам возможность по достоинству оценить ту огромную работу, которая делается внутри используемой вами реализации этого языка для того, чтобы ваши программы работали именно так, как вам нужно.

Читать дальше →

+20

shulyndina 26 фев 2019 в 07:30

PyCon Russia 2019: ответы на главные вопросы

4 мин

3.6K

Блог компании IT-PeopleПрограммирование * Машинное обучение * Python * Django *

Седьмой PyConRu пройдёт 24-25 июня в отеле «Cronwell Яхонты Таруса» в 95 км от Москвы. Формат — двухдневная конференция на природе с российскими и иностранными докладчиками, мастер-классами, Lightning Talks и афтепати.

Если коротко ответить на все вопросы, то: регистрация открыта, до 1 мая принимаем заявки на доклады, к нам снова приедет Раймонд Хеттингер. Ниже все подробности.

Читать дальше →

+11

RadioRedFox 25 фев 2019 в 19:59

Автоматизация конвертирования word файлов в другие форматы

3 мин

19K

Туториал

Из песочницы

Некоторые гос. структуры формируют отчёты в doc файлах. Где-то это делается руками, а где-то автоматически. Представим, что вам поручено обработать тонну таких документов. Это может быть необходимо для вычленения какой-то конкретной информации или просто проверки содержимого. Нам нужно вынуть только неформатированный текст без графиков и картинок. К примеру, такие данные проще засовывать в нейронную сеть для дальнейшего анализа.

Вот некоторые варианты для самого обычного человека:

Ручками перебрать все файлы по одному. Уже после десятого документа к вам придёт мысль о том, что вы делаете что-то не так.
Попробовать найти в интернете специальную библиотеку (расширение) для работы с doc файлами на языке программирования, которым вы владеете. Потратить часок другой на понимание, как работать с этой библиотекой. Также вам ещё предстоит столкнуться с тем, что принципы работы с doc и docx слегка отличаются.
Попытаться автоматизированно пересохранить все документы в другой формат, с которым будет удобнее работать.

Как раз о последнем варианте и пойдёт речь.

И на помощь к нам спешит vbs скрипт. vbs скрипт можно вызвать из командной строки, что можно сделать в любом языке программирования.

Читать дальше →

+20

DmitrySpb79 22 фев 2019 в 21:25

Хабрарейтинг 2018: лучшие материалы за 2018 год

20 мин

24K

Python * Веб-аналитика * Программирование * Социальные сетиСтатистика в IT

Привет Хабр.

Данный пост является логическим завершением публикаций про жизненный цикл статьи на Хабре (первая и вторая части для тех кто интересуется технической стороной вопроса), в результате чего был сделан достаточно интересный инструмент для статистического анализа. Методика оказалась весьма полезной, и позволяет находить статьи по различным параметрам, например, статьи с самым высоким «качеством» (соотношением рейтинга к числу просмотров), самые «спорные» статьи, у которых больше всего полярных комментариев, самые комментируемые материалы, и пр.

Пора теперь извлечь из этого какую-то пользу, и составить статистический рейтинг статей за 2018 год. В идеале это хорошо было бы сделать к началу Нового Года, но умные мысли бывает, приходят с запозданием. Но лучше поздно чем никогда, это позволит перечитать какие-то полезные статьи тем, кто пропустил их в свое время. И небольшой «секретный бонус» в конце текста для тех, кто будет достаточно любопытен.

Тех, кому интересно что получилось, прошу под кат.

Читать дальше →

+40

kkirsanov2 22 фев 2019 в 11:30

Опыт построения инфраструктуры на микросервисной архитектуре

5 мин

18K

Микросервисы * Анализ и проектирование систем * Python * DevOps *

За последний год публикаций о микросервисах стало так много, что рассказывать что это и зачем нужно было бы пустой тратой времени, так что дальнейшее изложение будет сконцентрировано на вопросе — каким способом бы реализовали эту архитектуру и почему именно так и с какими проблемами столкнулись.

У нас в небольшом банке были большие проблемы: 3 python монолита связанных чудовищным количеством синхронных RPC взаимодействий с большим объемом legacy. Что бы хотя бы отчасти решить все возникающие при этом проблемы было принято решение перейти на микросервисную архитектуру. Но прежде чем решиться на такой шаг нужно ответить на 3 основных вопроса:

Как разбить монолит на микросервисы и какими критериями следует при этом руководствоваться.
Каким образом микросервисы будут взаимодействовать?
Как осуществлять мониторинг?

Собственно кратким ответам на эти вопросы и будет посвящена данная статья.

Читать дальше →

+18

karay 21 фев 2019 в 15:47

OpenAI Gym+ROS+Gazebo: обучение автономного робота в домашних условиях. Часть 1

6 мин

19K

Python * Машинное обучение * РобототехникаИскусственный интеллект

Из песочницы

За последние несколько лет мы стали свидетелями внедрения технологий искусственного интеллекта в нашу повседневной жизни — от роботов-пылесосов до беспилотных дронов. Все они, управляемые искусственным интеллектом, уже являются для нас обыденностью. Но несмотря на это, процесс разработки, от проектирования до реализации, занимает годы и обходится не дешево. Кроме того, алгоритмы машинного обучения требуют большие данные и нет никаких гарантий, что в конечном счете все сработает.

Рано или поздно каждый разработчик приходит к выводу, что перед созданием реального робота необходимо протестировать концепт в симуляции, отладить все системы и, в конце концов, понять, тот ли путь разработки был выбран.

Похожие мысли были и у доктора Эндрю Ховарда, когда он со своим учеником Нейтоном Кенигом в 2002 году приступил к разработке 3D симулятора Gazebo в Университете Южной Калифорнии. Концепция симулятора высокой точности возникал из-за необходимости тестировать роботов в различных сложных условиях вне помещений. На первых этапах разработки такой подход позволяет сэкономить время и средства на приобретении необходимого оборудования.

В этой серии статей я бы хотел поделиться своим опытом симуляции и обучения беспилотного автомобиля имея только одну обычную камеру в качестве сенсора.

Читать дальше →

+13

DmitrySpb79 20 фев 2019 в 20:03

Жизненный цикл статьи на Хабре: пишем хабрапарсер. Часть вторая

79 мин

4.3K

Python * Веб-аналитика * Программирование * Социальные сетиСтатистика в IT

Привет Хабр!

В первой части пятничного анализа была рассмотрена методика сбора некоторой статистики этого замечательного сайта. Изначально не было плана делать продолжение, но в комментариях возникли интересные мысли, которые захотелось проверить. Например, какие статьи имеют больше просмотров, опубликованные в будние или в выходные дни?

Попробуем ответить на этот и другие вопросы, также опубликуем свой чисто научный статистический мини-рейтинг. Как и в первой части, для сбора статистики воспользуемся Python, Pandas и Matplotlib.

Для тех кому интересно что получилось, продолжение под катом.

Читать дальше →

+19

greenwo1f 20 фев 2019 в 12:44

Как мы решали задачу продолжения плейлистов на RecSys Challenge и заняли 3 место

8 мин

18K

Блог компании AvitoTechPython * Алгоритмы * Математика * Машинное обучение *

В 2018 наша команда традиционно приняла участие в RecSys Challenge. Это ежегодный конкурс по рекомендательным системам, проводимый в рамках конференции RecSys. Он не такой масштабный, как конкурсы на Kaggle, но считается одним из самых престижных соревнований по рекомендательным системам. В этот раз задача была музыкальной — нужно было построить систему автоматического продолжения плейлистов. В этом посте я подробно рассказываю о нашем решении. Приглашаю под кат.

Читать дальше →

+30

1 2 ...

161

162 163 ...