Pull to refresh
12
0

Data governance

Забываете передавать аргументы в функцию? Вам поможет contextvars

Reading time 14 min
Views 11K
Яндекс corporate blog Website development *Python *


Мы в Яндекс.Такси любим писать логи. Ещё больше мы любим, когда логи помогают нам расследовать проблемы в продакшене. При нагрузке в десятки тысяч RPS просто набора лог-записей мало. Хочется уметь фильтровать логи по пользователю, видеть последовательность вызовов клиентского API, а также углубляться в логи запроса.


Для реализации такого интерфейса каждая лог-запись в обработчике сопровождается метаинформацией: id заказа, пользователя, запроса. Однако иногда разработчики забывают добавить метаинформацию при логировании.

Читать дальше →
Total votes 18: ↑17 and ↓1 +16
Comments 4

KODI: собираем удобный и функциональный медиацентр для дома. Часть 1

Reading time 27 min
Views 307K
Configuring Linux *Working with video *IPTV *Video equipment DIY
Tutorial
Sandbox
✏️ Technotext 2021

Поговорим о том, как при наличии небольшого количества времени и навыков построить мультимедийный комбайн с дополнительными возможностями домашнего сервера на базе Kubuntu 20.04 и KODI, способного работать 24/7/365.

Читать дальше →
Total votes 70: ↑69 and ↓1 +68
Comments 189

Обзор инструментов качества данных

Reading time 24 min
Views 7.6K
Data Mining *Big Data *Data Engineering *
Translation

A survey of data quality tools (2005)

 Достаточно часто каждый аналитик сталкивается с ситуацией, когда загрузил данные в блок анализа, а в ответ – тишина, хотя в тестовом режиме все работает. Причина обычно в том, что данные недостаточно очищены, где в этой ситуации искать аналитику засаду и с чего начинать обычно задачка не из легких. Можно конечно использовать механизмы сглаживания, но каждый знает, что если из черного ящика с красными и зелеными шарами отсыпать килограмм шаров и вместо них вбросить килограмм белых, то в понимании распределения красных и зеленых это мало приблизит.

Когда находишься в ситуации «а с чего начать» помогает таксономия «грязных данных». Хотя в учебниках и дают список проблем, но он обычно неполный, вот постоянно искал исследования, которые рассматривают эту тему подробней. Попалась работа T.Gschwandtner, J.Gartner, W.Aigner, S.Miksch хотя они ее делали для рассмотрения способов очистки данных связанных с датами и временем но, на мой взгляд, это оказалось исключение, которое потребовало разобраться с правилами поглубже чем в учебниках. По собственному опыту знаю, что сопряжение дат и времени «вынос мозга» практически в прямом смысле и поэтому и зацепился за исследование этих авторов.

В своей работе они проанализировали несколько работ других авторов и составили мощный список «загрязнений данных» логика их анализа заслуживает уважения и, с другой стороны, дает возможность более «со стороны» посмотреть на любую задачу очистки данных. Все это видно когда сопоставляешь всю совокупность работ, по которым они делают сравнительный анализ. Поэтому и сделал перевод самых используемых ими 5 статей, список с ссылками на эти переводы ниже.

Это шестая статья из цикла

 1. Таксономия форматов времени и дат в неочищенных данных, 2012 г.

2. Очистка данных: проблемы и современные подходы 2000 г.

3. Таксономия «грязных данных» 2003 г.

4. Проблемы, методы и вызовы комплексной очистки данных 2003 г.

5. Формульное определение проблем качества данных 2005 г.

6. Обзор инструментов качества данных 2005 г.

Читать далее
Total votes 3: ↑3 and ↓0 +3
Comments 4

Как работает память в Python

Reading time 7 min
Views 49K
Домклик corporate blog Python *Programming *

Ни одна компьютерная программа не может работать без данных. А данные, чтобы программа имела к ним доступ, должны располагаться в оперативной памяти вашего компьютера. Но что такое оперативная память на самом деле? Когда произносишь это словосочетание, многие сразу представляют «железную» плашку, вставленную в материнскую плату, на которой написано что-то типа 16Gb DDR4 2666MHz. И они, разумеется, правы — это действительно физический блок оперативной памяти, в котором, в итоге, все данные и оказываются. Но прежде, чем стать доступной внутри вашей программы, на память (как и на всё остальное аппаратное обеспечение) накладывается куча абстракций.

Читать далее
Total votes 65: ↑63 and ↓2 +61
Comments 10

Модели угроз в дифференциальной приватности

Reading time 6 min
Views 2.5K
Домклик corporate blog Information Security *Big Data *Data Engineering *
Translation


Это перевод второй статьи из серии публикаций по дифференциальной приватности.

На прошлой неделе, в первой статье цикла — «Дифференциальная приватность — анализ данных с сохранением конфиденциальности (введение в серию)» — мы рассмотрели базовые концепции и случаи применения дифференциальной приватности. Сегодня же мы рассмотрим возможные варианты построения систем в зависимости от ожидаемой модели угроз.
Читать дальше →
Total votes 23: ↑23 and ↓0 +23
Comments 0

Реверс-инжиниринг антиблокировщика рекламы BlockAdBlock

Reading time 18 min
Views 37K
Information Security *JavaScript *Browser extensions Reverse engineering *Browsers
Translation
Если вы пользуетесь блокировщиками рекламы, то могли встречать BlockAdBlock. Этот скрипт обнаруживает ваш блокировщик и не пускает на сайт, пока вы его не отключите. Но мне стало интересно, как он работает. Как антиблокировщик обнаруживает блокировщики? А как на это реагируют блокировщики и как они блокируют антиблокировщики?

История реверс-инжиниринга


Первым делом я взглянул на их сайт. BlockAdBlock предлагает конфигуратор с настройками: интервал ожидания и как будет выглядеть предупреждение, генерируя разные версии скрипта.

Это натолкнуло меня на мысль о версиях. А что, если мог посмотреть не на одну версию, а на все сразу? Так я и сделал. Я вернулся назад во времени с помощью Wayback Machine. После этого скачал все версии BlockAdBlock и хэшировал их.
Читать дальше →
Total votes 82: ↑82 and ↓0 +82
Comments 83

Управляемая акустическая левитация: еще один пример

Reading time 1 min
Views 45K
Sound


В октябре на Хабре публиковался пост об управляемой акустической левитации: «полета» объекта посредством использования энергии звуковых волн. Тогда демонстрировался интересный пример, записанный на видео. Сегодня предлагаю посмотреть еще один вариант, где специалисты добились возможности управления передвижения небольшого объекта по осям, плюс ко всему, объекту можно придавать планированное вращение.

Собственно, вот само видео, где все это наглядно показано.



А вот и научная работа авторов видео, где весьма детально объясняется процесс управляемой акустической левитации. Работа, само собой, на английском языке.
Total votes 95: ↑88 and ↓7 +81
Comments 46

Аркадный автомат из хлама

Reading time 4 min
Views 101K
DIY
На хабре последнее время стали появляться посты о хакерспейсах, в том числе о нашем местном. Непременным атрибутом многих хакерспейсов является аркадный автомат. Служит для развлечения, иногда для отвлечения мыслей, да и вообще штука во всех отношениях прикольная. Я обещал рассказать про наш аркадный автомат:

Он далеко не идеален, сделан из подручного хлама, но играть за ним весело). Кому интересно посмотреть как мы его делали — добро пожаловать под кат.
Читать дальше →
Total votes 113: ↑109 and ↓4 +105
Comments 25

Почему программисты работают по ночам

Reading time 3 min
Views 105K
GTD *
Translation
Мозг шимпанзе в лондонском музее наукиСогласно поговорке, программисты — это устройства, преобразующие кофеин в код.

Если спросить первого попавшегося программиста, когда он наиболее продуктивен, — скорее всего, он назовёт ночь. Кто-то пораньше, кто-то попозже. Популярен вариант встать в 4 утра и сделать работу до начала дневной суматохи. А некоторые предпочитают ложиться в 4 утра.

Цель всего этого — избавиться от отвлекающих факторов. Но можно было бы просто закрыть дверь… Что же такого особенного в ночи?

Я думаю, что всё сводится к трём вещам: расписанию творца, сонному мозгу, и яркому экрану компьютера.

Читать дальше →
Total votes 300: ↑270 and ↓30 +240
Comments 287

Будьте добры к программистам

Reading time 2 min
Views 110K
Programming *
Translation
— Тебе так повезло, что ты программист. Хотел бы я быть программистом.
— А почему ты не научишься?
— Я пытался, заходил на codeacademy и другие сайты, но это не моё.
— Да, программирование, действительно, не для всех.
— Тебе хорошо платят и ты можешь создавать разные вещи. Почти каждый день к тебе поступают сумасшедшие предложения минимум на 100 тысяч долларов.
— Да, это очень лестно. Немножко сносит крышу, если честно.
— Ты получаешь свою долю в компании, все уважают инженеров. Ты можешь воплотить любую идею в приложение и стать богатым. И тебе не нужно для этого никого нанимать.
— Вообще-то программирование делает меня несчастным.
Читать дальше →
Total votes 320: ↑251 and ↓69 +182
Comments 152

Советы по правильной настройке телевизора

Reading time 6 min
Views 896K
DIY
Sandbox
Для начала, что есть «правильная настройка». Если вы хотя бы раз были в магазине электроники, то наверняка замечали, что все выставленные телевизоры показывают по-разному. С чем это связано? Какой из них лучше? Давайте разберемся.

Я думаю, вы согласитесь, что телевизор должен не просто показывать какую-то картинку, но и вносить как можно меньше искажений в исходный контент. Сам контент всегда создается с оглядкой на стандарты и рекомендации индустрии, и главная цель любого телевизора — донести до вас именно то изображение, которое вам хотели показать. Тут важно всё: и оттенок кожи у актера, и цвет неба на закате, и какие детали изображения должны быть видны, а какие спрятаны. Существуют международные стандарты, описывающие каким должно быть изображение на экране вашего телевизора. Все вы, наверняка, встречали аббревиатуры PAL, NTSC, или HDTV, вот за этими буквами и скрываются свойства видеосигнала и различные параметры изображения. С приходом HDTV в нашу жизнь, большая часть стандартов сразу же устарела, и, фактически, наиболее актуальным сейчас является стандарт REC709, который используется в телевидении высокой четкости (HD) и в Blu-Ray видео.
Читать дальше →
Total votes 184: ↑171 and ↓13 +158
Comments 127

MATLAB и быстрое преобразование Фурье

Reading time 7 min
Views 214K
Algorithms *Matlab *
Sandbox
По работе неоднократно сталкивался с необходимостью быстро определить наличие в сигнале гармонических составляющих. Часто для примерной оценки достаточно воспользоваться алгоритмом быстрого преобразования Фурье. Тем более, что его реализации есть практически во всех математических пакетах и библиотеках, да и собственноручно реализовать не составит особого труда. Между тем, опыт показывает, что, при всей своей простоте, метод начинает вызывать некоторые вопросы, когда возникает необходимость не просто посмотреть наличие дискреток в сигнале, но и выяснить их абсолютные значения, т.е. нормализовать полученный результат.

В этой статье я постараюсь объяснить, что же все-таки выдает в качестве результата fft (Fast Fourier transform) на примере MATLAB (и в качестве бонуса проведу небольшой ликбез по этому весьма полезному, на мой взгляд, языку).
Читать дальше →
Total votes 41: ↑33 and ↓8 +25
Comments 52

Information

Rating
Does not participate
Works in
Registered
Activity