Статьи / Закладки / Профиль Eth

Игорь Моисеев @Eth_Moses

Experimentation Analysis Team Lead, Ozon Tech

Профиль Публикации 2Комментарии 9Закладки 147

mr-pickles 5 авг в 14:27

Толстые хвосты распределений — это загадочно и странно

Средний

13 мин

4.4K

Программирование*Математика*Блог компании Wunder FundСтатистика в IT

Перевод

Если вы посещали занятия по статистике — вы, возможно, проходили тему «общая теория меры». Там могла идти речь о мере и об интеграле Лебега, а так же — об их связи с другими способами интегрирования. Если на ваших занятиях много внимания уделялось математике (так было у меня), то на них вы вполне могли познакомиться с теоремой Каратеодори о продолжении меры и даже с основами теории операторов на гильбертовых пространствах, а так же — с преобразованиями Фурье и много с чем ещё. Большинство этих математических конструкций нацелено на доказательство одной из самых важных теорем, на которой основана огромная часть статистики. Речь идёт о центральной предельной теореме (ЦПТ).

ЦПТ утверждает, что для широкого класса того, что мы называем в математике «случайными величинами» (которые представляют собой результаты проведения некоего эксперимента, включающего в себя элемент случайности), до тех пор, пока они удовлетворяют определённым условиям (как может показаться — простым), их среднее значение сходится к случайной величине определённого типа, который называют «нормальным» или «Гауссовым».

+38

Catx2 26 июл в 17:20

Lockheed F-117 Nighthawk – «Сэр, приказ есть приказ, но я в это не полезу»

9 мин

30K

Научно-популярное

Вообще я был удивлен, что, после поиска, я нашел довольно мало материалов по этому самолету в сети. С одной стороны, этот факт объясняется тем, что самолет обладает невиданной славой, и представлять его почти никому не надо, однако с другой стороны я даже среди людей, имеющих определенный опыт в сфере авиации, наблюдаю поразительное количество мифов в голове про эту F-ундерфавлю.

Итак, все мы слышали про этот самолет. F-117 Nighthawk, он же ночной ястреб, он же STEALTH fighter, он же стелс, он же груда обломков в Югославии. Многие считают, что это «величайшее достижение американских ученых и инженеров и на его фоне Советский Союз развалился сам по себе от страха», а многие другие считают что наоборот: «этот обломок металла из Звездных войн еле-еле в воздух себя поднимает. Вон в Югославии его сбили, как нехрен делать, кому тогда вообще ваш стелс нужен» - обе эти точки зрения я видел, причем не только среди наших соотечественников, но и среди заморских представителей интернета. Не мне судить этих людей, не мне судить и самолет, однако обе точки зрения являются глубокими заблуждениями, которые я сейчас и хочу развеять, хотя бы частично.

+130

158

xufana 16 мая в 14:07

Бутстрап временных рядов

19 мин

5.6K

Python*Математика*Статистика в ITБлог компании X5 Tech

Обзор

Всем привет! Как и во многих других компаниях, в X5 существует огромное количество данных, зависящих от времени. Такие данные принято называть временными рядами (time-series). Это могут быть данные о продажах в магазинах, об остатках на складах или об удовлетворенности клиентов. Используя эти данные, мы хотим искать инсайты и приносить пользу бизнесу.

Бутстрап является ценным инструментом — он позволяет генерировать множество синтетических выборок из исходных данных, на основе которых мы можем оценить распределение интересующей нас статистики и построить доверительные интервалы. Например, если нужно определить доверительный интервал для медианы или какого-то другого квантиля предсказаний, бутстрап позволяет это сделать, даже когда прямое аналитическое вычисление невозможно.

Для временных рядов бывает полезно оценить границы, в которых находятся параметры модели, из которой получен ряд. Кроме того, часто необходимо посчитать доверительный интервал, в котором находятся предсказания для объекта с использованием моделей машинного обучения. Однако обычные методы бутстрапа не подойдут для временных рядов, так как они не учитывают структуру таких данных.

В нашем обзоре мы рассмотрим, как различные модификации метода бутстрапа учитывают структурные особенности и зависимости в данных временных рядов. Особое внимание будет уделено объяснению, почему нельзя применять стандартный подход бутстрапа к временным рядам без учёта их структуры. Затем мы перейдем к обзору методов, которые позволяют эффективно решить эту проблему.

+10

ru_vds 5 июн в 16:00

Выживание самых богатых: пузырь ядерных убежищ времён Холодной войны

Простой

9 мин

12K

Блог компании RUVDS.comНаучно-популярноеФизика

Кейс

Перевод

Угроза ядерного нападения во времена Холодной войны заставила американцев делать потребительский выбор, доведённый до крайней степени: покупай или умри. Сегодня ситуация не сильно изменилась.

Брошюры и полностраничные газетные объявления Лео Хоега распространялись по США осенью 1961 года, разя всех с силой ударной волны ядерного взрыва. «ПРОТИВОРАДИАЦИОННЫЕ УБЕЖИЩА МОГУТ СПАСТИ ЖИЗНИ 70 МИЛЛИОНОВ АМЕРИКАНЦЕВ».

За пару месяцев до этого, 25 июля, президент Джон Ф. Кеннеди ввёл американцев в курс Берлинского кризиса. Он предупредил о возможности ядерных ударов по территории США и впервые указал на важность противорадиационных убежищ (fallout shelter). Но он не донёс в подробностях, каким образом они появятся в стране, поэтому бизнесмены наподобие Хоега сами начали заполнять пробелы.

В рекламе Хоега говорилось: «вывод заключается в том, что убежища необходимы повсюду».

В качестве решения проблемы предлагалось убежище работодателя Хоега, Wonder Building Corporation. Он рекомендовал американцам немедленно купить его для установки в подвале или на заднем дворе: «мистер Хрущёв… может совершить ошибку уже завтра», поэтому не стоит рисковать, пока правительство США предложит налоговые льготы или финансирование программы производства убежищ.

Семейное убежище было мудрым вложением средств. «Страховкой для выживания», как говорил Хоег.

Читать дальше →

+67

Exosphere 29 мая в 12:48

Хабру — 18

11 мин

4.7K

HabrБлог компании ХабрИстория ITIT-компании

Хабру — 18 лет. Выросли в читателей и авторов те, кто родился с ним в один день и даже позже. Выросли сотрудники, которые работают 18, 15, 10, 5 лет. Да, многие в Хабре работают долго, потому что он не отпускает. Изменился интерфейс, редактор публикаций, пережили ужесточения и послабления правил, неоднократно менялась структура контента. Да что там говорить: Хабр успел разделиться на три сайта и собраться обратно в единый журнал об IT и около IT.

Но самое главное, что ежемесячно наши пользователи, читатели, посетители заходят, чтобы найти что-то по работе или учёбе, почитать статьи и новости, убить время на научпоп, написать комментарий или рассказать в статье о своём опыте, новой технологии и многом другом. Чтобы все — и читатели, и авторы, — сошлись в одной точке общего интереса. И в этом весь важный и в то же время простой смысл Хабра.

Мы собрали несколько историй авторов и коллег (мы не просили, они сами) о том, что Хабр изменил в их жизни. Много хорошего, есть и критика — всё как всегда. Главное, что лампово и уютно.

+91

vladislav_shevchenko 7 ноя 2023 в 13:53

Подбираем параметры сессии в Apache Spark, чтобы не стоять в очереди

Средний

14 мин

9.8K

Apache*Big Data*Блог компании Альфа-БанкDevOps*Data Engineering*

Туториал

Бывало у вас так, что некоторые аналитики запрашивают побольше вычислительных ядер и оперативной памяти для своих Jupyter-ноутбуков, а у вас в это время ничего не работает? У меня бывало, ведь недостаточно уметь разрабатывать код на Spark — еще нужно уметь его настраивать, правильно инициализировать сеансы работы и эффективно управлять доступом к вычислительным ресурсам. Если отдать настройку на волю случая, Spark может (и будет) потреблять ресурсы всего кластера, а другие приложения будут стоять в очереди.

Меня зовут Владислав, я работаю Дата инженером в Альфа-Банке, и в этой статье мы поговорим о том, как правильно подобрать необходимое количество параметров и не положить кластер на коленочки.

+19

nezhibitskiy 27 апр в 10:59

Остаться в живых (keepalive) feat. HTTP/2, Go & gRPC-Go

Простой

7 мин

7.5K

Программирование*Сетевые технологии*Go*Распределённые системы*Блог компании Ozon Tech

Привет, Хабр!) Меня зовут Ильяс. В этой статье мы разберём известную идею — keepalive в межсервисном взаимодействии, которая спасла уже не одну компанию в трудное время :). Но чтобы добавить интереса, мы разберём, какие проблемы в keepalive принесли современные технологии (ведь что может пойти не так с этой простой идеей?). Поэтому в статье мы рассмотрим механизмы, которые позволяют проверять стабильность соединения между клиентом и сервером в случае, когда обычные TCP keepalive из-за сложности архитектуры не могут определить состояние сервера.

Остаться в живых

+128

Exosphere 28 мая в 22:22

Люди с золотой клавиатурой: победители конкурса «Технотекст 2023»

13 мин

12K

HabrБлог компании ХабрКонтент и копирайтинг*

Ян Флеминг, автор романов о Джеймсе Бонде, отпраздновал завершение книги «Казино Рояль» покупкой позолоченной печатной машинки — именно такая могла быть у супергероя, чтобы после спасения мира набивать мемуары. Ум, ирония и крутой нрав — в одном знаковом поступке.

В этом году мы получили 1022 заявки на конкурс «Технотекст 2023» и, как ни удивительно, кроме дикой усталости и суток с протоколами напролёт, они принесли нам огромное удовольствие от творчества и полёта мысли людей с очевидно золотыми клавиатурами. Многих авторов мы знаем, кого‑то когда‑то сами выпустили из песочницы и самое удивительное вот что: почти все авторы — не профессиональные писатели, а люди, которые сели и написали крутой, полезный, нужный и востребованный материал. Люди, которые поделились знаниями, умениями или просто скрасили трудовые будни сотен тысяч хабровчан классным текстом. Такой вот скрытый удивительный талант, который нашёл свою реализацию. В общем, вам бы книги писать, да IT не отпускает.

+141

it_union 24 мая в 09:00

Памятка наемного айтишника

2 мин

90K

Карьера в IT-индустрии

Взаимоотношения между работником и работодателем строятся на деловой основе. Приятная атмосфера в коллективе и дружеские отношения с руководством, безусловно, важны. Но не стоит забывать, что это коммерческие отношения, цель которых — обмен труда на вознаграждение.

В этой заметке перечислим, о чём важно помнить, работая по найму.

+198

495

Exosphere 15 мая в 10:30

Шорт-листы «Технотекста 2023»: достойные из достойных

27 мин

11K

Блог компании ХабрКонтент и копирайтинг*

Дайджест

Мы получили 1022 заявки, приняли из них 918, в шорт‑листы попало более 300 статей. Точной цифры по шорт‑листам нет неслучайно: поскольку наш естественный интеллект ~~это вам не ChatGPT~~ склонен уставать и ошибаться, несколько статей могут попасть в шорты, но, скорее всего, выпадут из них — так, во время подготовки этой статьи выяснилось, что из финала выбыли двое участников, скрывшие свои публикации в черновики.

Вообще, такого «Технотекста», как в этот раз, ещё не было: обычно мы сравнительно легко отсеивали участников и выбирали финалистов, разница в уровне материалов была очевидной. В этот раз номинанты сильные — и многие статьи не вышли в финал не потому, что они какие-то не такие, а потому что они объективно слабее лучших из лучших — но очевидно, что сильнее большей части статей на Хабре. Хотя участники «Технотекста» из года в год находят отличные способы добить нервную систему модераторов конкурса 😃

+122

sowow359 22 сен 2020 в 11:01

Как мы оркестрируем процессы обработки данных с помощью Apache Airflow

19 мин

30K

Python*Big Data*Hadoop*Блог компании Lamoda TechData Engineering*

Всем привет! Меня зовут Никита Василюк, я инженер по работе с данными в департаменте данных и аналитики компании Lamoda. В нашем департаменте Airflow играет роль оркестратора процессов обработки больших данных, с его помощью мы загружаем в Hadoop данные из внешних систем, обучаем ML модели, а также запускаем проверки качества данных, расчеты рекомендательных систем, различных метрик, А/Б-тестов и многое другое.

В этой статье я расскажу:

что за зверь этот Airflow, из каких компонентов состоит и как они между собой взаимодействуют
про основные сущности Airflow: пайплайны, которые называются DAG, Operator и еще про несколько вещей
как преуспеть в разработке на Airflow
как мы внедрили генерацию пайплайнов и так называемое «декларативное писание пайплайнов»
про плюсы и минусы использования Airflow

Читать дальше →

+23

andbul 7 мая в 11:03

Рулим запуском Spark-приложений в Airflow с помощью самописного оператора

Сложный

16 мин

3.5K

Python*Big Data*Hadoop*Блог компании Lamoda TechData Engineering*

Кейс

Airflow в Lamoda Tech играет роль оркестратора процессов обработки данных. Ежедневно с его помощью мы запускаем 1 800+ тасок на проде, примерно половина из которых являются Spark-приложениями.

Все Spark-приложения сабмитятся из Docker-контейнеров. И здесь сталкиваемся с проблемой: в нашем случае не существует готовых решений для запуска Spark-приложений, позволяющих легко править конфигурацию и следить за количеством потребляемых ресурсов.

Меня зовут Андрей Булгаков, я лид команды разработчиков Big Data в Lamoda Tech. Вместе с разработчиком Иваном Васенковым в этой статье мы поделимся историей создания Airflow-оператора для запуска Spark-приложений.

+20

valexv 18 сен 2021 в 01:29

Apache Spark: оптимизация производительности на реальных примерах

13 мин

25K

Apache*Big Data*Хранилища данных*Блог компании NeoflexData Engineering*

Из песочницы

Apache Spark – фреймворк для обработки больших данных, который давно уже стал одним из самых популярных и часто встречаемых во всевозможных проектах, связанных с Big Data. Он удачно сочетает в себе скорость работы и простоту выражения своих мыслей разработчиком.

Разработчик работает с данными на достаточно высоком уровне и, кажется, что нет ничего сложного в том, чтобы, например, соединить два набора данных, написав всего одну строку кода. Но только задумайтесь: что происходит в кластере при соединении двух наборов данных, которые могут и не находится целиком на каком-либо из узлов кластера? Обычно Spark со всем справляется быстро, но иногда, а особенно, если данных действительно много, необходимо все-таки понимать – что происходит уровнем ниже и использовать это знание, чтобы помочь Spark работать в полную силу.

+18

SacredDiablo 22 июн 2023 в 14:33

Спиливаем spill-ы

9 мин

Высокая производительность*Scala*Big Data*DevOps*Блог компании билайн

Туториал

Привет!

Меня зовут Александр Маркачев, я 3,5 года работаю на позиции Data Engineer в билайне и люблю открывать для себя что-то новое и интересное в работе. Так случилось и с темой, которой я сегодня хочу с вами поделиться — со spill-ами.

Под катом мы поговорим о том, что такое Spill-ы в контексте Spark, и почему именно для Spark это не такая уж сильно плохая штука. Рассмотрим, из-за чего Spill-ы в принципе возникают, разберем несколько видов Spill-ов (и даже вызовем их намеренно), а затем будем решать эту проблему.

Что такое spill-ы в Spark

Вообще, Spill — это термин для обозначения процесса перемещения данных из памяти на диск, а затем снова обратно в память. По крайней мере, именно так гласит официальная трактовка. Если проще, то дело вот в чем — когда у Spark не хватает ресурсов для обработки, он перемещает данные на диск.

В процессе обработки существуют разные участки — есть Executor Memory, есть Storage Memory, и когда эти участки оба целиком заполнены, то они начинают переполняться и вызывать утечку данных. Причем в отличие от утечки в C, Java или еще где-то, в Spark это преднамеренное действие для того, чтобы ваша задача не падала. Собственно, именно поэтому при нехватке ресурсов данные и «проливаются».

Можно ещё сильнее упростить аналогию.

+26

re9ulus 19 мар в 10:00

Quantization Deep Dive, или Введение в современную квантизацию

Средний

16 мин

18K

Программирование*Блог компании ЯндексАлгоритмы*Машинное обучение*Искусственный интеллект

✏️ Технотекст 2023

Привет! Меня зовут Василий Землянов, я занимаюсь разработкой ML-инфраструктуры. Несколько лет я проработал в команде, которая делает споттер — специальную маленькую нейросетевую модельку, которая живёт в умных колонках Яндекса и ждёт от пользователя слова «Алиса». Одной из моих задач в этой команде была квантизация моделей. На пользовательских устройствах мало ресурсов, и мы решили, что за счёт квантизации сможем их сэкономить — так в итоге и вышло.

Потом я перешёл в команду YandexGPT. Вместо маленьких моделей я стал работать с очень крупными. Мне стало интересно, как устроена квантизация больших языковых моделей (LLM). Ещё меня очень впечатляли истории, где люди берут гигантские нейросети, квантизируют в 4 бита и умудряются запускать их на ноутбуках. Я решил разобраться, как это делается, и собрал материал на доклад для коллег и друзей. А потом пришла мысль поделиться знаниями с более широкой аудиторией, оформив их в статью. Так я и оказался на Хабре :)

Надеюсь, погружение в тему квантизации будет интересно как специалистам, так и энтузиастам в сфере обучения нейросетей. Я постарался написать статью, которую хотел бы прочитать сам, когда только начинал изучать, как заставить модели работать эффективнее. В ней мы подробно разберём, зачем нужна квантизация и в какой момент лучше всего квантизовать модель, а ещё рассмотрим разные типы данных и современные методы квантизации.

+81

Sber 4 апр в 11:46

Как перезапускать PySpark-приложение и зачем это может понадобиться

Сложный

15 мин

2.7K

Высокая производительность*Python*Блог компании СберApache*

Кейс

Сегодня все крупные компании сохраняют и обрабатывают большие объёмы информации, причём стремятся делать это максимально эффективным для бизнеса способом. Меня зовут Мазаев Роман и я работаю в проекте загрузки данных на платформу SberData. Мы используем PySpark, который позволяет очень быстро распределённо обрабатывать данные в оперативной памяти узлов нашего кластера на базе Hadoop. Я поделюсь способом, с помощью которого можно снизить потребление ресурсов кластера за счёт перезапуска PySpark-приложений между выполняемыми Spark-задачами, и расскажу, как это делать правильно.

+19

david_khoperiya 3 апр в 11:59

Мониторинг Apache Airflow. Оценка «прожорливости» тасок

10 мин

3.9K

Python*Apache*Data Engineering*Блог компании Ozon Банк

Туториал

Всем привет! Случались ли у вас ситуации, когда количество DAG’ов в вашем Airflow переваливает за 800 и увеличивается на 10-20 DAG’ов в неделю? Согласен, звучит страшно, чувствуешь себя тем героем из Subway Surfers… А теперь представьте, что эта платформа является единой точкой входа для всех аналитиков из различных команд и DAG’и пишут более 50 различных специалистов. Подкосились ноги, холодный пот и желание уйти из IT?

Не спешите паниковать, под катом я расскажу о том, как контролировать потребление ресурсов DAG’ов Airflow для предупреждения неоптимально написанных DAG’ов и борьбы с ними.

Меня зовут Давид Хоперия, я Data Engineer в департаменте данных Ozon.Fintech и моим основным инструментом является Apache Airflow, поэтому настало время углубиться в детали его работы.

Поехали

+16

GeeksCat 30 мар в 17:01

«Робокоп» — рыцарь нашего времени

Простой

13 мин

10K

Работа с видео*Блог компании Timeweb CloudЧитальный залНаучно-популярноеНаучная фантастика

Ретроспектива

Порой, когда смотришь на путь создания того или иного художественного произведения, просто дух захватывает от понимания того, сколько звёзд должно было сойтись, чтобы оно смогло увидеть свет в том виде, в каком мы его знаем и ценим. А если речь идёт о большом и претендующем на культовый статус боевике, то там целый парад планет должен выстроиться, не иначе. Поэтому меня не перестают удивлять истории создания кинолент, на которых мы с вами выросли. Об одной из них, а именно о «Робокопе» 1987-го года за авторством Пола Верховена, мы сегодня и поговорим.

Читать дальше →

+71

RetailRocket 20 мар в 13:19

«Подземные камни» А/Б-тестирования в e-commerce

Средний

17 мин

1.7K

Блог компании Retail RocketИнтернет-маркетинг*Управление e-commerce*Управление продуктом*Статистика в IT

Любой полезный бизнесу продукт меняется со временем: появляются новые функции, улучшаются старые. Возникает потребность оценить влияние таких изменений на пользователей продукта. Необходимо проверить, нет ли ошибок в реализации новой функциональности и справляется ли она с поставленными задачами.

Первое, что хочется сделать — сравнить показатели работы продукта до внесения изменений и после. Но в таком случае нельзя утверждать, что разница в показателях обусловлена только новой функциональностью, так как на состояние продукта в любой момент времени может повлиять любой внешний фактор. Поэтому принято прибегать к контролируемым рандомизированным экспериментам, которые также называют А/Б-тестами. В том числе и для товарных рекомендаций в e-commerce.

Dudarion 6 мар в 17:47

Самое понятное объяснение Специальной теории относительности

Средний

13 мин

113K

Программирование*Научно-популярноеКосмонавтикаФизикаАстрономия

Лучший Техноавтор 2023

Специальная теория относительности - удивительная теория, которая опровергла многие представления о мире, в которых человечество не сомневалось всю историю своего существования.

Многие слышали про волшебства вроде замедления времени, сокращения длины, относительности одновременности, парадокса близнецов и т.д., но мало кто понимает почему так происходит.

В этой статье я хочу наглядно показать, что все это проще, чем кажется на первый взгляд.

Для иллюстраций я написал интерактивный визуализатор СТО, работающий в браузере. Ссылка на него и исходники проекта в конце статьи.

+383

391

2 3 ...

7 8