Articles / Bookmarks / Profile of atepaevm / Habr

How to become an author

Михаил Атепаев @atepaevm

Любопытствующий

Profile Publications 1Comments 31Bookmarks 56

patnashev Aug 22 at 08:06

Большие простые числа: преобразование Фурье

10 min

12K

Mathematics*Popular science

В одной из предыдущих статей я рассказал о математических алгоритмах, позволяющих проверить простоту очень большого числа. Но в основе всех тех алгоритмов лежит одна базовая операция — перемножение двух больших чисел. Именно операции длинного умножения занимают 99,9% времени выполнения любого теста простоты. Как же умножение реализуется на практике? Говорят, что при помощи быстрого преобразования Фурье. Но беглое прочтение Википедии вызывает недоумение. Какое отношение преобразование Фурье имеет к умножению целых чисел? Давайте разбираться.

Читать далее

+52

Andrevich Aug 13 at 23:51

Решаем проблему блокировок (и YouTube) за 5 минут на роутере с OpenWRT

Easy

5 min

116K

Configuring Linux*Information Security*System administration*Network technologies*Network hardware

Tutorial

Будем возвращать доступ к YouTube (а заодно и к другим заблокированным ресурсам) с помощью роутера на OpenWRT и Shadowsocks (Outline) и клиента bird2 (сервиса Antifilter.download)

Читать далее

+41

nkha Aug 3 at 17:35

Чиним замедление YouTube на уровне роутера

Medium

6 min

626K

Configuring Linux*GadgetsComputer hardwareIOTLifehacks for geeks

Tutorial

Всех категорический приветствую. Буквально первого августа, прямо в ночь, стал у меня жутко лагать YouTube. Естественно, мне это сильно не понравилось. Ну, что же, давайте разбираться, почему и как это исправить в условиях моей личной сети.

Что случилось?

Хорошо описано произошедшее здесь, на Хабре. Если совсем кратко, своими словами - во время установки SSL соединения в открытом виде домен передается к которому мы подключаемся(так называемое SNI). И если это googlevideo.com то начинают твориться "интересные вещи". Можно проверить это локально коммандами из статьи.

$ curl https://speedtest.selectel.ru/100MB -o/dev/null

Читать далее

+412

SeekerOfTruth Feb 10 2023 at 11:04

Как девять женщин могут родить ребёнка за месяц

Medium

7 min

14K

Домклик corporate blogPersonnel Management*Project management*Development Management*System Analysis and Design*

Retrospective

2022 год научил нас быстро менять приоритеты для оперативного реагирования на внешние факторы. В наших целях была зафиксирована ключевая задача по отказу от софта вендора в пользу собственных решений, разработанных на основе микросервисной архитектуры. Стоял вполне комфортный срок: полностью завершить переход до конца года, и команды планомерно шли к этой цели, наряду с разработкой менее масштабных, но тоже важных фич. Но в связи со вполне реальными рисками преждевременного ухода вендора из РФ сроки доработок сократились с полугода до одного месяца (почти как в известной шутке про невозможность родить ребёнка ранее, чем через 9 месяцев, сколько людей для этого процесса не привлекай). Ниже я опишу наш опыт мобилизации и решения поставленных задач в нереалистичные сроки.

Читать далее

+29

alextokarev Feb 8 2023 at 11:08

Платформа данных в Леруа Мерлен — как мы победили масштабирование

10 min

7.3K

Леруа Мерлен corporate blogBig Data*Data storage*Data Engineering*

Case

Всем привет! Меня зовут Александр Токарев, я технический архитектор домена «Управление данными» в «Леруа Мерлен». Год назад мы уже делали обзор нашей Платформы данных, сейчас же я расскажу про её развитие за последний год и про задачи, которые нам удалось решить.

Мы столкнулись с необходимостью масштабировать наш подход, когда количество источников, интегрированных в платформу, стало больше 150. Всего же мы планируем интегрировать данные из более чем 800 систем. Однако ETL-инструменты, которые мы использовали на первых этапах развития дата платформы, не позволяли добиться эффективного масштабирования. Кроме того, сам процесс интеграции источников был достаточно трудоемким. Поэтому возник запрос на рефакторинг архитектуры процесса поставки данных, который, с одной стороны, позволил бы эффективно горизонтально масштабироваться, а с другой стороны, упростил бы сам процесс интеграции. В результате мы пришли к следующей схеме процесса.

Читать далее

+9

Physics-for-Humanities Feb 8 2023 at 20:55

Нобелевская премия по физике 2022

11 min

33K

Popular sciencePhysicsQuantum technologies

4 октября 2022 года Шведская королевская академия наук решила присудить Нобелевскую премию по физике 2022 года Алену Аспекту
из Парижа, Джону Ф. Клаузеру из Калифорнии и Антону Цейлингеру из
Вены «за эксперименты с запутанными фотонами, установление нарушения неравенства Белла и новаторскую квантовую информатику».

У вопроса, на который отвечали ученые богатая история. Обрисуем ее крупными мазками.

Читать далее

+65

Anna_sokol22 Jan 31 2023 at 13:38

Как легко пройти собеседование по Kubernetes в 2023 году?

7 min

21K

Слёрм corporate blogIT Infrastructure*Kubernetes*IT careerDevOps*

Translation

Сегодня одним из самых популярных в использовании инструментов в стеке техкомпаний является Kubernetes. С момента своего выхода K8s получил массовое распространение, расширив свою экосистему и увеличив количество пользователей. В 2021 году CNCF (Cloud Native Computing Foundation) провел опрос, который показал, что 96% организаций (которые приняли в нём участие) используют или уже пробуют Kubernetes в своем технологическом стеке.

Читать далее

+9

kmoseenk Jan 31 2023 at 16:48

Скучный Python: повышаем качество кода

17 min

23K

OTUS corporate blogPython*

Tutorial

Translation

В статье хочу поговорить на тему качества кода — а именно об инструментах, которые помогают выявлять потенциальные ошибки и другие проблемы как можно раньше, в идеале еще до того, как они попадут в кодовую базу, не говоря уже о попадании в релиз.

Читать далее

+26

boygenius Jan 31 2023 at 14:29

Теория вероятностей в машинном обучении. Часть 1: модель регрессии

28 min

26K

Open Data Science corporate blogStatistics in ITMachine learning*Mathematics*Artificial Intelligence

В данной статье мы подробно рассмотрим вероятностную постановку задачи машинного обучения: что такое распределение данных, дискриминативная модель, i.i.d.-гипотеза и метод максимизации правдоподобия, что такое регрессия Пуассона и регрессия с оценкой уверенности, и как нормальное распределение связано с минимизацией среднеквадратичного отклонения.

В следующей части рассмотрим метод максимизации правдоподобия в классификации: в чем роль кроссэнтропии, функций сигмоиды и softmax и как кроссэнтропия связана с "расстоянием" между распределениями вероятностей и почему модель регрессии тоже обучается через минимизацию кроссэнтропии. Затем перейдем от метода максимизации правдоподобия к байесовскому выводу и его различным приближениям.

Данная серия статей не является введением в машинное обучение и предполагает знакомство читателя с основными понятиями. Задача статей - рассмотреть машинное обучение с точки зрения теории вероятностей, что позволит по новому взглянуть на проблему, понять связь машинного обучения со статистикой и лучше понимать формулы из научных статей. Также на описанном материале строятся более сложные темы, такие как вариационные автокодировщики (Kingma and Welling, 2013), нейробайесовские методы (Müller et al., 2021) и даже некоторые теории сознания (Friston et al., 2022).

Читать далее

+23

tgaychenkova Dec 29 2022 at 13:29

Чтобы не терять деньги: оповещения о падениях продуктовых метрик

9 min

11K

VK corporate blogSoftwareMachine learning*Algorithms*

Retrospective

Пытаясь уследить за всем многообразием метрик и срезов на дашбордах, можно легко упустить из виду важное изменение метрик, сигнализирующее о проблеме. И если вовремя не отреагировать, то можно лишиться аудитории или выручки. Расскажем, как мы автоматизировали оповещения о падениях (или нездоровых взлётах) продуктовых метрик, чтобы сразу оценивать масштаб проблемы в деньгах, и что это дало продукту. Наш опыт будет полезен в первую очередь аналитикам и руководителям продуктов.

Читать далее

+44

fedortyurin Jan 23 2023 at 12:21

Как в Учи.ру построили платформу для анализа A/B-тестов на ClickHouse

6 min

2.5K

Учи.ру team corporate blogSQL*IT Infrastructure*Big Data*

Case

Привет, Хабр! Меня зовут Федор Тюрин, я руководитель команды продуктовой аналитики в Учи.ру. Мы проводим очень много А/Б-тестов (десятки запусков в неделю и сотни в течение года). В таких условиях очень важна автоматизация процесса анализа и подведения итогов теста.

Читать далее

+2

Makoomaky Jun 30 2022 at 17:35

Контекстные многорукие бандиты для рекомендации контента, или Не Бернулли единым

17 min

11K

VK corporate blogMachine learning*Mathematics*Algorithms*Data Mining*

Tutorial

Technotext Winner 2022

Привет, Хабр! Меня зовут Александр Сухочев, я занимаюсь машинным обучением и руковожу командой рекомендаций и развития сервисов ВКонтакте. Сегодня хочу поделиться нашим опытом и результатами внедрения контекстуальных многоруких бандитов для рекомендации контента на примере игр и стикеров.

Статья состоит из четырёх частей, переходите сразу ко второй или третьей, если знакомы с проблематикой, или читайте по порядку, чтобы составить полную картину:

Введение расскажет о том, какие бывают подходы к построению рекомендательных систем и при чём здесь многорукие бандиты — это раздел для тех, кто раньше не был знаком с данным подходом.

Основные алгоритмы решения задачи многорукого бандита: эпсилон-жадный подход, сэмплирование Томпсона, Upper Confidence Bound.

Алгоритм контекстных многоруких бандитов — о контекстных многоруких бандитах и способе их обучения в частном случае, который мы использовали в нашем решении.

Заметки о практической реализации — о тонкостях внедрения, бизнес-требованиях и результатах на примере сервиса рекомендации игр и стикеров.

Читать далее

+55

Dimon2022 Dec 27 2022 at 09:38

Сделайте это и бегать будет легче, чем ходить. Упражнение для тренировки летящего бега, получите удовольствие от бега

2 min

75K

Entertaining tasksComputer Animation*Popular scienceBiotechnologiesHealth

Целевая аудитория этой статьи - люди с лишним весом и недовольные своим малоподвижным образом жизни, неудачно пытавшиеся в прошлом начать бегать, но бросившие тренировки из-за того, что было слишком тяжело бегать и бег не доставлял удовольствия.

Серия моих предыдущих статей о здоровье и его компьютерном анализе и просто о ЗОЖ и фитнесе-физкультуре:

Бег в 2023 г. С пятки или с носка? Измеряем ударные нагрузки. Android и акселерометр
https://habr.com/ru/post/714698/

Как быстро бег уничтожает колени. Опрос любителей и мнение профессионалов
https://habr.com/ru/post/709182/

Программист с гаджетами в тренажерном зале
https://habr.com/ru/post/648421/

Читать далее

+10

lelyakuznetsova Oct 21 2022 at 13:30

Что можно будет узнать о тестировании на Heisenbug 2022 Autumn

12 min

1.5K

JUG Ru Group corporate blogConferencesMobile applications testing*Web services testing*IT systems testing*

Конференция Heisenbug («по тестированию, но не только для тестировщиков») близится: программа уже готова, и пришло время поделиться с Хабром всеми подробностями.

Во-первых, напоминаем формат. Конференция будет проходить три дня. Первые два — полностью онлайновые. А вот в третий всё на выбор участников: можно приехать на конференцию в Москве, чтобы как следует пообщаться лично, или подключиться удалённо из любой точки планеты.

Во-вторых, публикуем полную программу. В ней не только доклады-монологи: будут и воркшопы с мастер-классами, где можно научиться чему-то на практике, и круглые столы с тематическими обсуждениями. Среди прочего будут звучать слова «SRE», «Kaspresso», «бенчмаркинг», «TestOps» и не только. Но обо всём по порядку.

Читать далее

+21

alex_golubev13 Oct 14 2022 at 12:08

Realtime-матчинг: находим матчи за считанные минуты вместо 24 часов

11 min

12K

Ozon Tech corporate blogNatural Language Processing*Machine learning*Image processing*Python*

Technotext 2022

Задача матчинга в последнее время набирает всё большую популярность и используется во многих сферах: банки матчат транзакции, маркетплейсы – товары, а Google и другие IT-гиганты проводят соревнования по решению таких задач на Kaggle.

Для маркетплейса матчинг – очень важный процесс, который решает сразу несколько задач:

1. При поисковом ранжировании из множества товаров показывать сначала самые выгодные предложения.

2. Объединять множество товаров в одну сущность и показывать предложения одного и того же товара от разных селлеров.

3. Понимать, как предложения селлеров выглядят относительно друг друга, и поощрять их дополнительными бонусами.

Сегодня мы поговорим не только о решении этой задачи, но и о способах её реализации: offline (batch) vs online (realtime). Также обсудим, как и зачем переходить от первого ко второму.

Читать далее

+42

NewTechAudit Oct 22 2021 at 09:26

Генерация признаков из временных рядов

8 min

12K

Machine learning*Programming*Python*

Заглянуть в будущее

Когда мы хотим рассчитать количество звонков в колл-центр через час, поставить в пятничную смену достаточно курьеров или предсказать потребление электроэнергии небольшим городком через 5 лет, мы обращаемся к теме обработки временных рядов. На тему обработки timeseries (временной ряд, англ.) написано множество статей и создано несчетное количество часов видео. Но попробуйте задать поисковой системе вопрос: как работать с временными рядами. Уверен, вы закопаетесь в многообразии ссылок, похожих по смыслу и содержанию. Однако, ни одна из них не ответит на вопрос полностью. Авторы выдают два или три метода обработки как панацею от всех проблем в работе со временем.

Мы попробуем собрать в одной статье все классические и современные методы обработки даты и времени.

Разберем случай, когда в нашем распоряжении имеются только даты с количеством завершенных событий. В ежедневных задачах прогнозирования мы можем подгрузить дополнительные данные или иметь в своем распоряжении сразу несколько показателей для временного периода. Мы же будем извлекать максимум данных из даты и единичного значения целевого события.

TL:DR

Основная цель статьи – создание новых признаков из временных периодов для решения бизнес-задач. Информация будет полезна новичкам и специалистам, которые редко работают со временными рядами. К тексту прилагается заметка на kaggle. Вы можете изучать статью и одновременно выполнять код. Мы не будем строить графики и рассматривать особенности временных рядов.

Ничего личного – просто бизнес

Читать далее

+3

VBDUnit Aug 12 2022 at 08:46

ТВ вместо монитора: HDR, 120 Гц и вот это всё

Easy

20 min

90K

GadgetsMonitors and TVDesktop PC'sGames and game consolesElectronics for beginners

Tutorial

Разбираемся, зачем экранам 500 Гц, почему телевизор не монитор, за сколько часов выгорит OLED и как вообще это всё работает.

Читать далее

+170

Aleron75 Aug 3 2022 at 12:00

Feature Engineering или стероиды для ML моделей

6 min

16K

RUVDS.com corporate blogPython*Data Engineering*Big Data*

Привет, чемпион!

Часто при построении ML моделей мало просто взять сильную модель. Оказывается, иногда грамотная предобработка данных существенно важнее. Сегодня речь пойдёт про feature engineering.

Рассмотрим несколько кейсов на эту тему более подробно. Данные будут упрощённые, но обещаю, от этого примеры не станут менее интересными ?.

Читать дальше →

+38

WhalekitStudio Jul 15 2022 at 14:58

Семейство тестов хи-квадрат: что у них под капотом и какие выбрать для сравнения воронок

32 min

19K

MY.GAMES corporate blogGame development*Games monetization*Mobile App Analytics*

Всем привет, меня зовут Вячеслав Зотов, я аналитик в студии Whalekit. В этом тексте я расскажу про статистические тесты и сравнение воронок, а также мы попробуем разобраться, что объединяет χ²-тесты, какова область их применения и подробно исследуем применимость χ²-тестов к анализу воронок. И все это с примерами на Python.

Тест χ² — очень полезный аналитический инструмент, который тем не менее часто вызывает у аналитиков недопонимание и путаницу. Прежде всего это происходит из-за того, что существует целое семейство тестов χ², имеющих разные области применения. Дополнительную путаницу создает то, что тесты χ² часто рекомендуют применять для анализа продуктовых и маркетинговых воронок, а это обычно приводит к ошибочному использованию тестов.

Читать далее

+44

greck Jul 8 2022 at 13:41

ML для оптимизации цен на основе эластичности по цене

25 min

20K

Development for e-commerce*Machine learning*E-commerce management*Sales management*

Tutorial

Кривая эластичности спроса по цене – это то, как продажи зависят от цены.Чем меньше цена, тем больше продаж и наоборот.

В этой статье рассказывается про ML методы получения кривых спроса сразу для сотен тысяч товаров (нейросети, pyTorch), а также как, имея кривые спроса, решать бизнес задачу про баланс оборота и прибыли – в этом нам поможет метод множителей Лагранжа. Что первично – ограничение на прибыль или множитель Лагранжа? Как инженерам объяснить, что такое kvi-товары и товары-герои? Это и многое другое

Читать далее

+7

1