Статьи / Закладки / Профиль fralik / Хабр

Vadim Frolov @fralik

Data Scientist

Профиль Публикации 11Комментарии 148Закладки 833

32bit_me 6 янв 2020 в 21:14

Введение в ELF-файлы в Linux: понимание и анализ

11 мин

97K

Анализ и проектирование систем*Программирование*Системное программирование*

Перевод

Есть в мире вещи, которые мы принимаем как нечто само собой разумеющееся, хотя они являются истинными шедеврами. Одними из таких вещей являются утилиты Linux, такие, как ls и ps. Хотя они обычно воспринимаются как простые, это оказывается далеко не так, если мы заглянем внутрь. И таким же оказывается ELF, Executable and Linkable Format. Формат файлов, который используется повсеместно, но мало кто его понимает. Это краткое руководство поможет вам достичь понимания.

Прочтя это руководство, вы изучите:

Зачем нужен формат ELF и для каких типов файлов он используется
Структуру файла ELF и детали его формата
Как читать и анализировать бинарное содержимое файла ELF
Какие инструменты используются для анализа бинарных файлов

Читать дальше →

+33

jirfag 2 янв 2020 в 13:03

Как я чуть не выкинул 150к на ветер или история установки приточной вентиляции в квартире

19 мин

653K

Здоровье

Как я пришел к покупке приточной вентиляции для квартиры с готовым ремонтом. Как купил ее за 150к и чуть не потратил деньги зря. Статья будет полезна тем, кто планирует купить очиститель воздуха, бризер или приточку.

Читать дальше →

+365

595

LinearLeopard 28 дек 2019 в 22:16

Реализация строкового типа в CPython

9 мин

9.4K

Программирование*Python*

Продолжу неспешный разбор реализации базовых типов в CPython, ранее были рассмотрены словари и целые числа. Тем, кто думает, что в их реализации не может быть ничего интересного и хитрого, рекомендуется приобщиться к данным статьям. Те, же, кто уже их прочёл, знают, что CPython хранит в себе множество интересностей и особенностей реализации. Их может быть полезно знать при написании своих скриптов, так и в качестве пособия по архитектурным и алгоритмическим решениям. Не являются исключением здесь и строки.

Читать дальше →

+37

MaxRokatansky 26 дек 2019 в 14:05

10 практических рекомендаций по безопасности образов Docker. Часть 2

6 мин

7.4K

Блог компании OTUSИнформационная безопасность*

Перевод

Перевод статьи подготовлен специально для студентов курса «Безопасность Linux».

Читать первую часть

5. Не оставляйте чувствительные данные в образах Docker

Иногда при создании приложения внутри образа Docker вам нужны такие секретные данные, как приватный SSH-ключ для извлечения кода из приватного репозитория или токены для установки закрытых пакетов. Если вы копируете их в промежуточный контейнер Docker, они кэшируются в том слое, к которому они были добавлены, даже если вы удалите их позже. Эти токены и ключи должны храниться вне Dockerfile.

Читать дальше →

+15

ru_vds 12 ноя 2019 в 12:38

Использование strict-модулей в крупномасштабных Python-проектах: опыт Instagram. Часть 1

5 мин

5.2K

Блог компании RUVDS.comВеб-разработка*Python*

Перевод

Публикуем первую часть перевода очередного материала из серии, посвящённой тому, как в Instagram работают с Python. В первом материале этой серии речь шла об особенностях серверного кода Instagram, о том, что он представляет собой монолит, который часто меняется, и о том, как статические средства проверки типов помогают этим монолитом управлять. Второй материал посвящён типизации HTTP-API. Здесь речь пойдёт о подходах к решению некоторых проблем, с которыми столкнулись в Instagram, используя Python в своём проекте. Автор материала надеется на то, что опыт Instagram пригодится тем, кто может столкнуться с похожими проблемами.

Читать дальше →

+30

kababok 14 мар 2019 в 17:05

Современное автомобилестроение. Электромобили — срыв покровов

9 мин

38K

Анализ и проектирование систем*Инженерные системы*ТранспортУрбанизмЭнергия и элементы питания

Recovery Mode

«Какой компонент электропривода в современных электромобилях имеет наивысшую плотность в виде количества ноу-хау на единицу объёма?»

Если задать этот вопрос, то с очень высокой вероятностью одна часть отвечающих назовёт таким компонентом силовую батарею. Оставшаяся часть в качестве ответа приведёт электродвигатель.

И обе стороны окажутся неправы.

Разрыв шаблонов и фоточки голых моделей - под катом

+44

476

Milfgard 6 дек 2019 в 10:33

Венеция: дикий профит на паре голых скал

13 мин

40K

Блог компании Туту.руУрбанизм

В посте про транспортную систему Венеции я обещал чуть больше рассказать про сам город и острова. Поэтому ниже — минутка пятничного урбанизма.

Примерно в 452 году зажиточные крестьяне убегали от варваров под предводительством Аттилы, бродящих толпами по материку. Лагуна мелкая, но для переправы нужны лодки, потому что проплыть 6 километров на коне как-то сложно. Ну и Аттила законно подозревал, что десантирование на острова — далеко не его основной бизнес.

Место оказалось внезапно удачным. Венеция находится в лагуне, которую образует куча рек, впадающих в море. Они несут песок и прочие штуки и лепят из этого острова. Вот по карте хорошо видно этот процесс:

^{Эту картинку NASA открыла для Вики, а я добавил выделение Венеции}

Как видите, Венеция в центре лагуны, куда ведут только несколько проходов. Много позже их защитили фортами, но пока важно то, что лагуна мелкая, и надо быть нереально хорошим лоцманом, чтобы провести что-то с осадкой больше метра до высадки и не сесть на мель.

Оставалась только одна проблема — вокруг был тотальный голяк. То есть можно было рыбачить, но зажиточные крестьяне всё же хотели большего. Ну и дальше пошла история Серениссимы, Светлейшей республики. Одной из самых странных стран в истории человечества: фактически, без территорий, но зато с обширными морскими владениями.

Читать дальше →

+132

onikiychuka 13 ноя 2019 в 18:37

Data Mesh: как работать с данными без монолита

6 мин

15K

Блог компании Dodo EngineeringХранение данных*IT-инфраструктура*Data Engineering*Big Data*

Привет, Хабр! Мы в Dodo Pizza Engineering очень любим данные (а кто их сейчас не любит?). Сейчас будет история о том, как накопить все данные мира Dodo Pizza и дать любому сотруднику компании удобный доступ к этому массиву данных. Задача под звёздочкой: сохранить нервы команды Data Engineering.

Дисклеймер: на момент написания статьи мы думали так, но время расставило всё по своим местам. Сейчас всё иначе. Если хотите узнать, как именно, — приходите к нам на собеседование на позицию дата-инженера.

Читать дальше →

+15

psmolkin 25 сен 2019 в 12:35

Теория и практика стандартизации Docker-сервисов

17 мин

6.8K

Блог компании «Антиплагиат».NET*DevOps*

Информации на тему микросервисной архитектуры приложений, успевшей уже набить оскомину, сегодня вполне достаточно для того, чтобы определиться, подходит она вашему продукту или нет. И совершенно не секрет, что компаниям, решившим выбрать этот путь, предстоит принять множество инженерных и культурных вызовов. Одним из источников проблем является множащийся всюду оверхед, и это в равной степени касается и рутины, связанной с производственными процессами.

_{Источник изображения:}

Как можно догадаться, Антиплагиат – как раз такая компания, где постепенно пришло понимание, что нам с микросервисами по пути. Но прежде чем начать есть кактус, мы решили его почистить и приготовить. А так как все единственно верные и правильные решения для каждого уникальны, то вместо универсальных DevOps-слайдов с красивыми стрелками мы решили просто поделиться собственным опытом и рассказать, как мы уже прошли немалую часть нашего особого пути к, я надеюсь, успеху.

Читать дальше →

+18

Alex_Shcherbackov 28 сен 2019 в 10:49

this и ScopeChain в EcmaScript

7 мин

11K

JavaScript*

Привет, Хабр!

В предыдущей статье мы рассматривали общую теории ООП в применении к EcmaScript и популярное заблуждение начинающих разработчиков относительно отличия ООП в JS и классических языках.

Сегодня мы поговорим о двух других не менее важных концепциях EcmaScript, а именно связи сущности с контекстом исполнения (this и есть эта самая связь) и связи сущности с порождающим контекстом(ScopeChain).

Итак, начнём!

this

На собеседованиях в ответ на вопрос: «Расскажите подробнее про this.». Начинающие разработчики, как правило, дают очень туманные ответы: "this – это объект «перед точкой», который использовался для вызова метода", "this — контекст, в котором был вызвана функция" и т.д.…

На самом деле, ситуация с этим центральным для EcmaScript языков понятием обстоит несколько сложнее. Разберёмся по порядку.

Допустим, у нас есть программа на языке JavaScript, в которой есть переменные объявленные глобально; глобальные функции; локальные функции(объявленные внутри других функций), функции, возвращаемые из функций.

Читать дальше →

+12

gansior_al 15 сен 2019 в 18:22

CQM — другой взгляд в глубоком обучении для оптимизации поиска на естественном языке

3 мин

2.7K

Big Data*Data Mining*

CQM — другой взгляд в глубоком обучении для оптимизации поиска на естественном языке

Краткое описание: Calibrated Quantum Mesh (CQM)— это следующий шаг от RNN / LSTM (Рекуррентные нейронные сети RNN (Recurrent Neural Networks) / Долгая краткосрочная память (Long short-term memory; LSTM) ). Появился новый алгоритм, называемый Calibrated Quantum Mesh (CQM), который обещает повысить точность поиска на естественном языке без использования размеченных данных обучения.

iggisv9t 4 сен 2019 в 14:04

Визуализация больших графов для самых маленьких

12 мин

57K

Блог компании Open Data ScienceData Mining*Визуализация данных*Искусственный интеллектМашинное обучение*

Что делать, если вам нужно нарисовать граф, но попавшиеся под руку инструменты рисуют какой-то комок волос или вовсе пожирают всю оперативную память и вешают систему? За последние пару лет работы с большими графами (сотни миллионов вершин и рёбер) я испробовал много инструментов и подходов, и почти не находил достойных обзоров. Поэтому теперь пишу такой обзор сам.

Читать дальше →

+93

SLY_G 20 авг 2019 в 10:00

Тайная история интернета в политике конфиденциальности от Google, состоящей из 4000 слов

11 мин

13K

Законодательство в IT

Перевод

Конец 1990-х был простым периодом для Google. Нарождающаяся компания представляла собой всего лишь поисковую систему, а такие сервисы, как Gmail, Android и YouTube в лучшем случае были лишь блеском в глазах стартаперов. И первая политика конфиденциальности отражала эту простоту. Она была краткой и честной, милым, старым, добрым артефактом иных времён Кремниевой долины, когда Google всего в 600 словах объясняла, как она собирает и использует вашу личную информацию.

Того варианта интернета (и Google) уже нет с нами. За последние 20 лет та самая политика конфиденциальности переписана в раздувшийся документ из 4000 слов, описывающих то, как компания обращается с вашими данными.

Эта эволюция, шедшая два десятилетия и познавшая 30 вариантов, представляет собой историю трансформации интернета в глазах одной из наиболее важной его сущностей. Сегодня веб ужасно сложный, и политика конфиденциальности от Google соответствует этому.

Читать дальше →

+33

RGrimov 29 мая 2019 в 13:57

Нейронные сети предпочитают текстуры и как с этим бороться

7 мин

32K

Блог компании Open Data ScienceОбработка изображений*МозгМашинное обучение*Искусственный интеллект

В последнее время вышло несколько статей с критикой ImageNet, пожалуй самого известного набора изображений, использующегося для обучения нейронных сетей.

В первой статье Approximating CNNs with bag-of-local features models works surprisingly well on ImageNet авторы берут модель, похожую на bag-of-words, и в качестве "слов" используют фрагменты из изображения. Эти фрагменты могут быть вплоть до 9х9 пикселей. И при этом, на такой модели, где полностью отсутствует какая-либо информация о пространственном расположении этих фрагментов, авторы получают точность от 70 до 86% (для примера, точность обычной ResNet-50 составляет ~93%).

Во второй статье ImageNet-trained CNNs are biased towards texture авторы приходят к выводу, что виной всему сам набор данных ImageNet и то, как изображения воспринимают люди и нейронные сети, и предлагают использовать новый датасет – Stylized-ImageNet.

Более подробно о том, что на картинках видят люди, а что нейронные сети

Читать дальше →

+100

Dilemma 3 авг 2019 в 09:38

Статистика на службе у бизнеса. Методология расчёта множественных экспериментов

8 мин

3.1K

Аналитика мобильных приложений*Python*Data Mining*Big Data*

Добрый день!

Как и было обещано в предыдущей статье, сегодня мы продолжим разговор о методологиях, применяемых в A/B-тестировании и рассмотрим методы оценки результатов множественных экспериментов. Мы увидим, что методологии довольно просты, и математическая статистика не так страшна, а первооснова всего — аналитическое мышление и здравый смысл. Однако предварительно хотелось бы сказать пару слов о том, какие же бизнес-задачи помогают решать строгие математические методы, нужны ли они Вам на данном этапе развития Вашей компании и какие pros and cons существуют в Большой аналитике.

Читать дальше →

+14

kurtgn 26 июл 2019 в 18:33

Управление зависимостями в Python: сравнение подходов

12 мин

27K

Python*ООП*Совершенный код*

Из песочницы

Я пишу на питоне лет пять, из них последние три года — развиваю собственный проект. Большую часть этого пути мне помогает в этом моя команда. И с каждым релизом, с каждой новой фичей у нас все больше усилий уходит на то, чтобы проект не превращался в месиво из неподдерживаемого кода; мы боремся с циклическими импортами, взаимными зависимостями, выделяем переиспользуемые модули, перестраиваем структуру.

К сожалению, в Python-сообществе нет универсального понятия «хорошей архитектуры», есть только понятие «питоничности», поэтому архитектуру приходится придумывать самим. Под катом — лонгрид с размышлениями об архитектуре и в первую очередь — об управлении зависимостями применимо к Python.

Читать дальше →

+17

DmitryKoterov 22 июл 2019 в 20:23

Ликбез по передаче параметров по значению в конструкторы и сеттеры (современный C++, примеры)

4 мин

20K

Программирование*Системное программирование*

Судя по комментам habr.com/ru/post/460831/#comment_20416435 в соседнем посте и развернувшейся там дискуссии, на Хабре не помешает статья, как правильно передавать аргументы в конструктор или сеттер. На StackOverflow подобного материала полно, но тут что-то я не припомню.

Потому что пример в той статье полностью корректен, и автор статьи абсолютно прав. Вот этот пример:

// Хорошо.
struct person {
  person(std::string first_name, std::string last_name)
    : first_name{std::move(first_name)} // верно
    , last_name{std::move(last_name)} // std::move здесь СУЩЕСТВЕНЕН!
  {}
private:
  std::string first_name;
  std::string last_name;
};

Такой код позволяет покрыть все (ну ладно, почти все) возможные варианты использования класса:

Читать дальше →

+44

SemyonSinchenko 24 июн 2019 в 17:03

Microsoft ML Spark: расширение Spark, делающее SparkML человечнее, и LightGBM как бонус

14 мин

6.3K

Блог компании Райффайзен БанкМашинное обучение*Scala*Big Data*

Туториал

Многие, кто работал с Spark ML, знают, что некоторые вещи там сделаны "не совсем удачно"
или не сделаны вообще. Позиция разработчиков Spark в том, что SparkML — это базовая платформа, а все расширения должны быть отдельными пакетами. Но это не всегда удобно, ведь Data Scientist и аналитики хотят работать с привычными инструментами (Jupter, Zeppelin), где есть большая часть того, что нужно. Они не хотят собирать при помощи maven-assembly JAR-файлы на 500 мегабайт или руками скачивать зависимости и добавлять в параметры запуска Spark. А более тонкая работа с системами сборки JVM-проектов может потребовать от привыкшых к Jupyter/Zeppelin аналитиков и DataScientist-ов много дополнительных усилий. Просить же DevOps-ов и администраторов кластера ставить кучу пакетов на вычислительные ноды — явно плохая идея. Тот, кто писал расширения для SparkML самостоятельно, знает, сколько там скрытых трудностей с важными классами и методами (которые почему-то private[ml]), ограничениями на типы сохраняемых параметров и т.д.

И кажется, что теперь, с библиотекой MMLSpark, жизнь станет немного проще, а порог вхождения в масштабируемое машинное обучение со SparkML и Scala чуть ниже.

Читать дальше →

+19

ru_vds 14 июн 2019 в 12:30

Обзор Python-пакета Datatable

8 мин

19K

Блог компании RUVDS.comPython*Веб-разработка*

Перевод

«Пять экзабайт информации создано человечеством с момента зарождения цивилизации до 2003 года, но столько же сейчас создаётся каждые два дня». Эрик Шмидт

Datatable — это Python-библиотека для выполнения эффективной многопоточной обработки данных. Datatable поддерживает наборы данных, которые не помещаются в памяти.

Если вы пишете на R, то вы, вероятно, уже используете пакет data.table. Data.table — это расширение R-пакета data.frame. Кроме того, без этого пакета не обойтись тем, кто пользуется R для быстрой агрегации больших наборов данных (речь идёт, в частности, о 100 Гб данных в RAM).

Пакет data.table для R весьма гибок и производителен. Пользоваться им легко и удобно, программы, в которых он применяется, пишутся довольно быстро. Этот пакет широко известен в кругах R-программистов. Его загружают более 400 тысяч раз в месяц, он используется в почти 650 CRAN и Bioconductor-пакетах (источник).

Какая от всего этого польза для тех, кто занимается анализом данных на Python? Всё дело в том, что существует Python-пакет datatable, являющийся аналогом data.table из мира R. Пакет datatable чётко ориентирован на обработку больших наборов данных. Он отличается высокой производительностью — как при работе с данными, которые полностью помещаются в оперативной памяти, так и при работе с данными, размер которых превышает объём доступной RAM. Он поддерживает и многопоточную обработку данных. В целом, пакет datatable вполне можно назвать младшим братом data.table.

Читать дальше →

+39

devpony 3 июн 2019 в 11:37

Рекомендации в Okko: как заработать сотни миллионов, перемножив пару матриц

20 мин

34K

Блог компании OkkoPython*Алгоритмы*Искусственный интеллектМашинное обучение*

Rekko — персональные рекомендации в онлайн-кинотеатре Okko

Знакома ли вам ситуация, когда на выбор фильма вы тратите гигантское количество времени, сопоставимое со временем самого просмотра? Для пользователей онлайн-кинотеатров это частая проблема, а для самих кинотеатров — упущенная прибыль.

К счастью, у нас есть Rekko — система персональных рекомендаций, которая уже год успешно помогает пользователям Okko выбирать фильмы и сериалы из более чем десяти тысяч единиц контента. В статье я расскажу вам как она устроена с алгоритмической и технической точек зрения, как мы подходим к её разработке и как оцениваем результаты. Ну и про сами результаты годового A/B теста тоже расскажу.

Рекомендую вам прочитать эту статью

+52

1 2

4 5 ...

41 42