Python *

Высокоуровневый язык программирования

СтатьиПостыНовостиАвторыКомпании

skillfactory_school 23 сен 2020 в 14:41

Масштабируемая классификация данных для безопасности и конфиденциальности

19 мин

2.5K

Блог компании SkillfactoryBig Data * Data Engineering * Python * Информационная безопасность *

Перевод

Классификация данных на основе контента — это открытая задача. Традиционные системы предотвращения потери данных (DLP) решают эту проблему путем снятия отпечатков с соответствующих данных и мониторинга конечных точек для снятия отпечатков. Учитывая большое количество постоянно меняющихся ресурсов данных в Facebook, этот подход не только не масштабируется, но и неэффективен для определения того, где находятся данные. Эта статья посвящена сквозной системе, построенной для обнаружения чувствительных семантических типов в Facebook в масштабе и автоматического обеспечения хранения данных и контроля доступа.

Описанный здесь подход — это наша первая сквозная система конфиденциальности, которая пытается решить эту проблему путем включения сигналов данных, машинного обучения и традиционных методов снятия отпечатков для отображения и классификации всех данных в Facebook. Описанная система эксплуатируется в производственной среде, достигая среднего балла F2 0,9+ по различным классам конфиденциальности при обработке большого количества ресурсов данных в десятках хранилищ. Представляем перевод публикации Facebook на ArXiv о масштабируемой классификации данных для обеспечения безопасности и конфиденциальности на основе машинного обучения.

Добро пожаловать

itmai 23 сен 2020 в 12:14

3D ML. Часть 4: дифференциальный рендеринг

15 мин

9.2K

Блог компании IT-центр МАИ3D-графика * Искусственный интеллектPython *

Туториал

В нескольких предыдущих заметках данной серии мы уже упоминали понятие дифференциального рендеринга. Сегодня пришло время разъяснить что это такое и с чем это едят.

Мы поговорим о том, почему традиционный пайплайн рендеринга не дифференцируем, зачем исследователям в области 3D ML потребовалось сделать его дифференцируемым и как это связано с нейронным рендерингом. Какие существуют подходы к конструированию таких систем, и рассмотрим конкретный пример — SoftRasterizer и его реализацию в PyTorch 3D. В конце, с помощью этой технологии, восстановим все пространственные характеристики “Моны Лизы” Леонардо Да Винчи так, если бы картина была не написана рукой мастера, а отрендерена с помощью компьютерной графики.

Читать дальше →

+14

egnodus 22 сен 2020 в 23:43

Фоновые задачи на Faust, Часть II: Агенты и Команды

9 мин

4.5K

Финансы в ITРаспределённые системы * Python * Высоконагруженные системы *

Часть II. Узнаем, как писать агентов, обрабатывающих стрим событий из kafka, а так же как написать команды (обёртка на click).

a-talentex 22 сен 2020 в 13:43

Напишем и поймем Decision Tree на Python с нуля! Часть 3. Библиотека для анализа данных Pandas

5 мин

4.6K

Программирование * Python *

Туториал

Перевод

Привет, Хабр! Представляю вашему вниманию перевод статьи "Pythonで0からディシジョンツリーを作って理解する　（3. データ分析ライブラリPandas編）".

Это третья статья из серии. Ссылки на предыдущие статьи: первая, вторая

В данной статье я объясню, как работать с библиотекой Pandas, чтобы создавать Decision Tree.

3.1 Импортируем библиотеку

# импортируем pandas и прописываем, что далее мы будем ее указывать как pd
import pandas as pd

3.2 Data frame и Series

В pandas используются такие структуры, как Data frame и Series.
Рассмотрим их на примере следующей таблицы, напоминающей Excel.

Одна строка данных называется Series, столбцы — атрибутами этих данных, а вся таблица целиком — Data frame-ом.

Читать дальше →

sowow359 22 сен 2020 в 08:01

Как мы оркестрируем процессы обработки данных с помощью Apache Airflow

19 мин

42K

Блог компании Lamoda TechBig Data * Data Engineering * Hadoop * Python *

Всем привет! Меня зовут Никита Василюк, я инженер по работе с данными в департаменте данных и аналитики компании Lamoda. В нашем департаменте Airflow играет роль оркестратора процессов обработки больших данных, с его помощью мы загружаем в Hadoop данные из внешних систем, обучаем ML модели, а также запускаем проверки качества данных, расчеты рекомендательных систем, различных метрик, А/Б-тестов и многое другое.

В этой статье я расскажу:

что за зверь этот Airflow, из каких компонентов состоит и как они между собой взаимодействуют
про основные сущности Airflow: пайплайны, которые называются DAG, Operator и еще про несколько вещей
как преуспеть в разработке на Airflow
как мы внедрили генерацию пайплайнов и так называемое «декларативное писание пайплайнов»
про плюсы и минусы использования Airflow

Читать дальше →

+20

art_pro 22 сен 2020 в 07:04

Лучшие инструменты с открытым исходным кодом и библиотеки для Deep Learning — ICLR 2020 Experience

13 мин

11K

Блог компании ГК ЛАНИТМашинное обучение * Python * Data Mining * Big Data *

Перевод

Сложно найти на Хабре человека, который не слышал бы про нейронные сети. Регулярные новости о свежих достижениях нейронных сетей заставляют удивляться широкую публику, а также привлекают новых энтузиастов и исследователей. Привлеченный поток специалистов способствует не только еще большим успехам нейронных моделей, но и приводит к развитию инструментов для более удобного использования Deep Learning подходов. Помимо всем известных фреймворков Tensorflow и PyTorch активно развиваются и другие библиотеки, нередко более гибкие, но менее известные.

Эта статья является переводом одного из постов neptune.ai и освещает самые интересные инструменты для глубокого обучения, представленные на конференции по машинному обучения ICLR 2020.

Читать дальше →

+30

skillfactory_school 21 сен 2020 в 13:19

Machine learning в анализе логов Netflix

6 мин

5.9K

Блог компании SkillfactoryМашинное обучение * Алгоритмы * Python *

Перевод

Представьте лог на 2,5 гигабайта после неудачной сборки. Это три миллиона строк. Вы ищете баг или регрессию, которая обнаруживается на миллионной строке. Вероятно, найти одну такую строку вручную просто невозможно. Один из вариантов — diff между последней успешной и упавшей сборкой в надежде на то, что баг пишет в журналы необычные строки. Решение Netflix быстрее и точнее LogReduce — под катом.

Добро пожаловать

egnodus 20 сен 2020 в 09:35

Фоновые задачи на Faust, Часть I: Введение

5 мин

7.3K

Python * Высоконагруженные системы * Распределённые системы * Финансы в IT

Часть I: Введение
Часть II: Агенты и Команды

Как я дошёл до жизни такой?

Не так давно мне пришлось работать над бэкендом высоко нагруженного проекта, в котором нужно было организовать регулярное выполнение большого количества фоновых задач со сложными вычислениями и запросами на сторонние сервисы. Проект асинхронный и до того, как я пришёл, в нём был простой механизм крон-запуска задач: цикл с проверкой текущего времени и запуск групп корутин через gather — такой подход оказался приемлем до момента, пока таких корутин были десятки и сотни, однако, когда их количество перевалило через две тысячи, пришлось думать об организации нормальной очереди задач с брокером, несколькими воркерами и прочим.

Читать дальше →

RalfHacker 19 сен 2020 в 16:01

HackTheBox. Прохождение Multimaster. Burp+Sqlmap. AD users from MSSQL. Уязвимость в VSCode. AMSI bypass и CVE ZeroLogon

7 мин

10K

Информационная безопасность * SQL * Python * CTF *

Туториал

Привет, с вами Ральф. Продолжаю публикацию решений, отправленных на дорешивание машин с площадки HackTheBox.

В данной статье очень много всего. Посмотрим как для удобства совместить Burp Suite и sqlmap, узнаем как получить пользователей домена имея доступ к MSSQL, эксплуатируем уязвимость в Visual Studio Code, блокируем AMSI, выполняем AS-REP Roasting для получения учетных данных и повышаем привилегии из группы Server Operators. А в качестве демонстрации новой уязвимости ZeroLogon, захватим эту же машину другим путем меньше чем за 5 минут.

Подключение к лаборатории осуществляется через VPN. Рекомендуется не подключаться с рабочего компьютера или с хоста, где имеются важные для вас данные, так как Вы попадаете в частную сеть с людьми, которые что-то да умеют в области ИБ.

Организационная информация

Чтобы вы могли узнавать о новых статьях, программном обеспечении и другой информации, я создал канал в Telegram и группу для обсуждения любых вопросов в области ИиКБ. Также ваши личные просьбы, вопросы, предложения и рекомендации рассмотрю лично и отвечу всем.

Читать дальше →

+16

geniyoctober 19 сен 2020 в 15:06

Опыт проведения городской школьной олимпиады по программированию

10 мин

12K

Python * Программирование * Визуальное программирование *

Recovery Mode

В этой статье я расскажу про опыт проведения городской школьной олимпиады по программированию.

Идея организовать местную олимпиаду возникла ещё на стадии запуска детской школы программирования. За два года работы стало ещё более очевидно, что счёт идёт на единицы различных соревнований в этом направлении, а значит мало возможностей для проверки учеников, вовлечения вне занятий, дополнительной мотивации результатами. Скажу даже так: в Иркутске нет соревновательных мероприятий для учеников по программированию на scratch, и только одна олимпиада в которой могут участвовать питонисты - “Играем в программистов”.

+22

ph_piter 19 сен 2020 в 09:28

Учимся обращаться к данным и запрашивать их при помощи Google BigQuery. С примерами на Python и R

4 мин

9.9K

Блог компании Издательский дом «Питер»Профессиональная литература * R * Python * Google Cloud Platform *

Перевод

Привет, Хабр!

Совсем недавно у нас вышла подробная книга о работе с хранилищем данных Google BigQuery. Сегодня мы решили вновь кратко затронуть эту тему и опубликовать небольшой кейс о выполнении запросов к данным BigQuery на Python и R.

Сообщите в комментариях, интересует ли публикация на тему машинного обучения с применением BigQuery

Читать дальше →

skillfactory_school 18 сен 2020 в 13:30

Pysa: как избежать проблем безопасности в коде Python

8 мин

6.6K

Блог компании SkillfactoryOpen source * Python * Веб-разработка *

Перевод

7 августа Facebook представил Pysa — ориентированный на безопасность статический анализатор с открытым исходным кодом, помогающий работать с миллионами строк в Instagram. Раскрыты ограничения, затронуты проектные решения и, конечно, средства, помогающие избегать ложных положительных срабатываний. Показана ситуация, когда Pysa наиболее полезен, и код, в котором анализатор неприменим. Подробности из блога Facebook Engineering под катом.

Добро пожаловать

+15

KzmnbrS 17 сен 2020 в 19:47

Многоканальные массовые рассылки на Redis

7 мин

4.7K

Анализ и проектирование систем * Python *

Из песочницы

Вводная

Привет, Хабр! Меня зовут Борис и в этом труде я поделюсь с тобой опытом проектирования и реализации сервиса массовых рассылок, как части объемлющей системы оповещения студентов преподавателями (далее также — Ада), которую тоже я осуществляю.

Ада

Нужна затем, чтобы свести на нет число прерываний учебного процесса по следующим причинам:

Преподаватели не хотят делиться личными контактными данными;
Студенты на самом деле тоже — у них просто выбора особо нет;
В силу специфики моей альма-матер, многие преподаватели вынуждены или предпочитают использовать мобильные устройства без доступа к сети Интернет;
Если передавать сообщения через старост групп, то в игру вступает эффект «испорченного телефона», а также фактор «ой, я забыл:(».

Работает примерно так:

Преподаватель через один из доступных ему каналов связи: СМС, Telegram, SPA-приложение — передает Аде текст сообщения и список адресатов;
Ада транслирует полученное сообщение всем заинтересованным* студентам по всевозможным каналам связи.

* Доступ к сервису предоставляется в добровольно-заявительном порядке.

Читать дальше →

-4

SuperHackerVk 17 сен 2020 в 14:37

Четыре способа получить аудио вк или «это не баг, а фича»

127 мин

78K

Python * Проектирование API *

Всем привет! Сегодня я расскажу вам о моем опыте с ВК, найденных багах, об отношении к пользователям и, собственно, как получить аудиозаписи вк, пользуясь "не багами а фичами", как меня заверяли сотрудники данной корпорации. Итак, приступим!

+61

wadik69 16 сен 2020 в 18:53

OpenCV в Python. Часть 1

4 мин

340K

Python * Обработка изображений *

Туториал

Привет, Хабр! Запускаю цикл статей по библиотеке OpenCV в Python. Кому интересно, добро пожаловать под кат!

my_logo

+11

MaxRokatansky 16 сен 2020 в 14:51

Как читать файлы конфигурации в тестах с Selenium на Python

10 мин

8.1K

Блог компании OTUSТестирование веб-сервисов * Python *

Перевод

Привет, хабр. В преддверии старта курса «Python QA Engineer» подготовили для вас еще один интересный перевод.

Руководство, описанное в этой статье, поможет вам в тестировании веб-интерфейсов. Мы создадим простое надежное решение для тестирования веб-интерфейса с помощью Python, pytest и Selenium WebDriver. Мы рассмотрим стратегии построения хороших тестов и паттерны написания правильных автоматизированных тестов. Конечно же, разработанный проект по тестированию сможет послужить хорошей основой для создания собственных тест-кейсов.

Читать дальше →

skillfactory_school 16 сен 2020 в 14:25

HDTree: настраиваемое дерево решений на Python

17 мин

13K

Блог компании SkillfactoryPython * Машинное обучение *

Перевод

Представляем настраиваемую и интерактивную структуру дерева решений, написанную на Python. Эта реализация подходит для извлечение знаний из данных, проверки интуитивного представления, улучшения понимание внутренней работы деревьев решений, а также изучение альтернативных причинно-следственных связей в отношении вашей проблемы обучения. Она может использоваться в качестве части более сложных алгоритмов, визуализации и отчётов, для любых исследовательских целей, а также как доступная платформа, чтобы легко проверить ваши идеи алгоритмов дерева решений.

Добро пожаловать под кат!

+17

zoldaten 15 сен 2020 в 08:31

Pikabu-dataset

6 мин

7.8K

Data Engineering * Python *

Туториал

Предлагается взглянуть на dataset постов с pikabu.ru c точки зрения датастатистики. Сам датасет в составе 450к штук собран лучшими круглосуточными парсерами, обработан отдушками, убирающими дубликаты статей, а также нашпигован дополнительными столбцами, смысл наличия которых доступен только посвященным. Здесь не столько интересен сам датасет, сколько подход к анализу подобных сайтов. В последующих постах попробуем применить элементы из maсhine learning для анализа.

Читать дальше →

priestgt 15 сен 2020 в 08:00

Система отложенного исполнения на RabbitMQ

5 мин

13K

Блог компании ДомкликPython * Анализ и проектирование систем * Программирование * Мессенджеры *

Всем привет!

Меня зовут Никита, и я курирую разработку нескольких проектов в ДомКлик. Сегодня я хочу продолжить тему «веселых картинок» в мире RabbitMQ. В своей статье Алексей Казаков рассматривал такой мощный инструмент, как отложенные очереди, и разные реализации стратегии Retry. А сегодня мы поговорим, как использовать RabbitMQ для планирования периодических задач.

Читать дальше →

+17

S0mbre 14 сен 2020 в 23:47

Преступления на почве расизма в США: статистический анализ

16 мин

13K

Big Data * Data Mining * Python * Открытые данные *

После моей недавней статьи (части 1, 2, 3) о криминале и полицейской стрельбе в США и их связи с расовой принадлежностью я решил продолжить эту тему и в таком же ключе проанализировать другие открытые данные — благо, таких еще достаточно благодаря программе криминальной отчетности ФБР.

Сегодня будем исследовать данные по преступлениям, совершенным на почве нетерпимости. Сначала посмотрим на всю статистику целиком, а затем подробно рассмотрим именно расовую нетерпимость и конкретно преступления, совершаемые белыми и черными на почве вражды к белым и черным.

Читать дальше →

+17

1 2 ...

302 303

304

305 306 ...

488 489

Python *

Масштабируемая классификация данных для безопасности и конфиденциальности

3D ML. Часть 4: дифференциальный рендеринг

Фоновые задачи на Faust, Часть II: Агенты и Команды

Напишем и поймем Decision Tree на Python с нуля! Часть 3. Библиотека для анализа данных Pandas

3.1 Импортируем библиотеку

3.2 Data frame и Series

Как мы оркестрируем процессы обработки данных с помощью Apache Airflow

Лучшие инструменты с открытым исходным кодом и библиотеки для Deep Learning — ICLR 2020 Experience

Machine learning в анализе логов Netflix

Фоновые задачи на Faust, Часть I: Введение

Как я дошёл до жизни такой?

HackTheBox. Прохождение Multimaster. Burp+Sqlmap. AD users from MSSQL. Уязвимость в VSCode. AMSI bypass и CVE ZeroLogon

Опыт проведения городской школьной олимпиады по программированию

Учимся обращаться к данным и запрашивать их при помощи Google BigQuery. С примерами на Python и R

Pysa: как избежать проблем безопасности в коде Python

Многоканальные массовые рассылки на Redis

Вводная

Ада

Ближайшие события

Четыре способа получить аудио вк или «это не баг, а фича»

OpenCV в Python. Часть 1

Как читать файлы конфигурации в тестах с Selenium на Python

HDTree: настраиваемое дерево решений на Python

Pikabu-dataset

Система отложенного исполнения на RabbitMQ

Преступления на почве расизма в США: статистический анализ

Вклад авторов