Статьи / Закладки / Профиль atepaevm / Хабр

Как стать автором

Михаил Атепаев @atepaevm

Любопытствующий

Профиль Публикации 1Комментарии 32Закладки 56

patnashev 22 авг в 08:06

Большие простые числа: преобразование Фурье

10 мин

12K

Математика*Научно-популярное

В одной из предыдущих статей я рассказал о математических алгоритмах, позволяющих проверить простоту очень большого числа. Но в основе всех тех алгоритмов лежит одна базовая операция — перемножение двух больших чисел. Именно операции длинного умножения занимают 99,9% времени выполнения любого теста простоты. Как же умножение реализуется на практике? Говорят, что при помощи быстрого преобразования Фурье. Но беглое прочтение Википедии вызывает недоумение. Какое отношение преобразование Фурье имеет к умножению целых чисел? Давайте разбираться.

Читать далее

+52

Andrevich 13 авг в 23:51

Решаем проблему блокировок (и YouTube) за 5 минут на роутере с OpenWRT

Простой

5 мин

132K

Настройка Linux*Информационная безопасность*Системное администрирование*Сетевые технологии*Сетевое оборудование

Туториал

Будем возвращать доступ к YouTube (а заодно и к другим заблокированным ресурсам) с помощью роутера на OpenWRT и Shadowsocks (Outline) и клиента bird2 (сервиса Antifilter.download)

Читать далее

+41

nkha 3 авг в 17:35

Чиним замедление YouTube на уровне роутера

Средний

6 мин

648K

Настройка Linux*ГаджетыКомпьютерное железоИнтернет вещейЛайфхаки для гиков

Туториал

Всех категорический приветствую. Буквально первого августа, прямо в ночь, стал у меня жутко лагать YouTube. Естественно, мне это сильно не понравилось. Ну, что же, давайте разбираться, почему и как это исправить в условиях моей личной сети.

Что случилось?

Хорошо описано произошедшее здесь, на Хабре. Если совсем кратко, своими словами - во время установки SSL соединения в открытом виде домен передается к которому мы подключаемся(так называемое SNI). И если это googlevideo.com то начинают твориться "интересные вещи". Можно проверить это локально коммандами из статьи.

$ curl https://speedtest.selectel.ru/100MB -o/dev/null

Читать далее

+412

SeekerOfTruth 10 фев 2023 в 11:04

Как девять женщин могут родить ребёнка за месяц

Средний

7 мин

14K

Блог компании ДомкликАнализ и проектирование систем*Управление разработкой*Управление проектами*Управление персоналом*

Ретроспектива

2022 год научил нас быстро менять приоритеты для оперативного реагирования на внешние факторы. В наших целях была зафиксирована ключевая задача по отказу от софта вендора в пользу собственных решений, разработанных на основе микросервисной архитектуры. Стоял вполне комфортный срок: полностью завершить переход до конца года, и команды планомерно шли к этой цели, наряду с разработкой менее масштабных, но тоже важных фич. Но в связи со вполне реальными рисками преждевременного ухода вендора из РФ сроки доработок сократились с полугода до одного месяца (почти как в известной шутке про невозможность родить ребёнка ранее, чем через 9 месяцев, сколько людей для этого процесса не привлекай). Ниже я опишу наш опыт мобилизации и решения поставленных задач в нереалистичные сроки.

Читать далее

+29

alextokarev 8 фев 2023 в 11:08

Платформа данных в Леруа Мерлен — как мы победили масштабирование

10 мин

7.5K

Блог компании Леруа МерленBig Data*Хранение данных*Data Engineering*

Кейс

Всем привет! Меня зовут Александр Токарев, я технический архитектор домена «Управление данными» в «Леруа Мерлен». Год назад мы уже делали обзор нашей Платформы данных, сейчас же я расскажу про её развитие за последний год и про задачи, которые нам удалось решить.

Мы столкнулись с необходимостью масштабировать наш подход, когда количество источников, интегрированных в платформу, стало больше 150. Всего же мы планируем интегрировать данные из более чем 800 систем. Однако ETL-инструменты, которые мы использовали на первых этапах развития дата платформы, не позволяли добиться эффективного масштабирования. Кроме того, сам процесс интеграции источников был достаточно трудоемким. Поэтому возник запрос на рефакторинг архитектуры процесса поставки данных, который, с одной стороны, позволил бы эффективно горизонтально масштабироваться, а с другой стороны, упростил бы сам процесс интеграции. В результате мы пришли к следующей схеме процесса.

Читать далее

+9

Physics-for-Humanities 8 фев 2023 в 20:55

Нобелевская премия по физике 2022

11 мин

33K

Научно-популярноеФизикаКвантовые технологии

4 октября 2022 года Шведская королевская академия наук решила присудить Нобелевскую премию по физике 2022 года Алену Аспекту
из Парижа, Джону Ф. Клаузеру из Калифорнии и Антону Цейлингеру из
Вены «за эксперименты с запутанными фотонами, установление нарушения неравенства Белла и новаторскую квантовую информатику».

У вопроса, на который отвечали ученые богатая история. Обрисуем ее крупными мазками.

Читать далее

+65

Anna_sokol22 31 янв 2023 в 13:38

Как легко пройти собеседование по Kubernetes в 2023 году?

7 мин

21K

Блог компании СлёрмКарьера в IT-индустрииKubernetes*IT-инфраструктура*DevOps*

Перевод

Сегодня одним из самых популярных в использовании инструментов в стеке техкомпаний является Kubernetes. С момента своего выхода K8s получил массовое распространение, расширив свою экосистему и увеличив количество пользователей. В 2021 году CNCF (Cloud Native Computing Foundation) провел опрос, который показал, что 96% организаций (которые приняли в нём участие) используют или уже пробуют Kubernetes в своем технологическом стеке.

Читать далее

+9

kmoseenk 31 янв 2023 в 16:48

Скучный Python: повышаем качество кода

17 мин

24K

Блог компании OTUSPython*

Туториал

Перевод

В статье хочу поговорить на тему качества кода — а именно об инструментах, которые помогают выявлять потенциальные ошибки и другие проблемы как можно раньше, в идеале еще до того, как они попадут в кодовую базу, не говоря уже о попадании в релиз.

Читать далее

+26

boygenius 31 янв 2023 в 14:29

Теория вероятностей в машинном обучении. Часть 1: модель регрессии

28 мин

27K

Блог компании Open Data ScienceИскусственный интеллектСтатистика в ITМашинное обучение*Математика*

В данной статье мы подробно рассмотрим вероятностную постановку задачи машинного обучения: что такое распределение данных, дискриминативная модель, i.i.d.-гипотеза и метод максимизации правдоподобия, что такое регрессия Пуассона и регрессия с оценкой уверенности, и как нормальное распределение связано с минимизацией среднеквадратичного отклонения.

В следующей части рассмотрим метод максимизации правдоподобия в классификации: в чем роль кроссэнтропии, функций сигмоиды и softmax и как кроссэнтропия связана с "расстоянием" между распределениями вероятностей и почему модель регрессии тоже обучается через минимизацию кроссэнтропии. Затем перейдем от метода максимизации правдоподобия к байесовскому выводу и его различным приближениям.

Данная серия статей не является введением в машинное обучение и предполагает знакомство читателя с основными понятиями. Задача статей - рассмотреть машинное обучение с точки зрения теории вероятностей, что позволит по новому взглянуть на проблему, понять связь машинного обучения со статистикой и лучше понимать формулы из научных статей. Также на описанном материале строятся более сложные темы, такие как вариационные автокодировщики (Kingma and Welling, 2013), нейробайесовские методы (Müller et al., 2021) и даже некоторые теории сознания (Friston et al., 2022).

Читать далее

+23

tgaychenkova 29 дек 2022 в 13:29

Чтобы не терять деньги: оповещения о падениях продуктовых метрик

9 мин

11K

Блог компании VKСофтМашинное обучение*Алгоритмы*

Ретроспектива

Пытаясь уследить за всем многообразием метрик и срезов на дашбордах, можно легко упустить из виду важное изменение метрик, сигнализирующее о проблеме. И если вовремя не отреагировать, то можно лишиться аудитории или выручки. Расскажем, как мы автоматизировали оповещения о падениях (или нездоровых взлётах) продуктовых метрик, чтобы сразу оценивать масштаб проблемы в деньгах, и что это дало продукту. Наш опыт будет полезен в первую очередь аналитикам и руководителям продуктов.

Читать далее

+44

fedortyurin 23 янв 2023 в 12:21

Как в Учи.ру построили платформу для анализа A/B-тестов на ClickHouse

6 мин

2.5K

Блог компании Учи.ру teamSQL*IT-инфраструктура*Big Data*

Кейс

Привет, Хабр! Меня зовут Федор Тюрин, я руководитель команды продуктовой аналитики в Учи.ру. Мы проводим очень много А/Б-тестов (десятки запусков в неделю и сотни в течение года). В таких условиях очень важна автоматизация процесса анализа и подведения итогов теста.

Читать далее

+2

Makoomaky 30 июн 2022 в 17:35

Контекстные многорукие бандиты для рекомендации контента, или Не Бернулли единым

17 мин

11K

Блог компании VKМашинное обучение*Математика*Алгоритмы*Data Mining*

Туториал

Победитель Технотекст 2022

Привет, Хабр! Меня зовут Александр Сухочев, я занимаюсь машинным обучением и руковожу командой рекомендаций и развития сервисов ВКонтакте. Сегодня хочу поделиться нашим опытом и результатами внедрения контекстуальных многоруких бандитов для рекомендации контента на примере игр и стикеров.

Статья состоит из четырёх частей, переходите сразу ко второй или третьей, если знакомы с проблематикой, или читайте по порядку, чтобы составить полную картину:

Введение расскажет о том, какие бывают подходы к построению рекомендательных систем и при чём здесь многорукие бандиты — это раздел для тех, кто раньше не был знаком с данным подходом.

Основные алгоритмы решения задачи многорукого бандита: эпсилон-жадный подход, сэмплирование Томпсона, Upper Confidence Bound.

Алгоритм контекстных многоруких бандитов — о контекстных многоруких бандитах и способе их обучения в частном случае, который мы использовали в нашем решении.

Заметки о практической реализации — о тонкостях внедрения, бизнес-требованиях и результатах на примере сервиса рекомендации игр и стикеров.

Читать далее

+55

Dimon2022 27 дек 2022 в 09:38

Сделайте это и бегать будет легче, чем ходить. Упражнение для тренировки летящего бега, получите удовольствие от бега

2 мин

75K

ЗдоровьеБиотехнологииНаучно-популярноеКомпьютерная анимация*Занимательные задачки

Целевая аудитория этой статьи - люди с лишним весом и недовольные своим малоподвижным образом жизни, неудачно пытавшиеся в прошлом начать бегать, но бросившие тренировки из-за того, что было слишком тяжело бегать и бег не доставлял удовольствия.

Серия моих предыдущих статей о здоровье и его компьютерном анализе и просто о ЗОЖ и фитнесе-физкультуре:

Бег в 2023 г. С пятки или с носка? Измеряем ударные нагрузки. Android и акселерометр
https://habr.com/ru/post/714698/

Как быстро бег уничтожает колени. Опрос любителей и мнение профессионалов
https://habr.com/ru/post/709182/

Программист с гаджетами в тренажерном зале
https://habr.com/ru/post/648421/

Читать далее

+10

lelyakuznetsova 21 окт 2022 в 13:30

Что можно будет узнать о тестировании на Heisenbug 2022 Autumn

12 мин

1.5K

Блог компании JUG Ru GroupКонференцииТестирование мобильных приложений*Тестирование веб-сервисов*Тестирование IT-систем*

Конференция Heisenbug («по тестированию, но не только для тестировщиков») близится: программа уже готова, и пришло время поделиться с Хабром всеми подробностями.

Во-первых, напоминаем формат. Конференция будет проходить три дня. Первые два — полностью онлайновые. А вот в третий всё на выбор участников: можно приехать на конференцию в Москве, чтобы как следует пообщаться лично, или подключиться удалённо из любой точки планеты.

Во-вторых, публикуем полную программу. В ней не только доклады-монологи: будут и воркшопы с мастер-классами, где можно научиться чему-то на практике, и круглые столы с тематическими обсуждениями. Среди прочего будут звучать слова «SRE», «Kaspresso», «бенчмаркинг», «TestOps» и не только. Но обо всём по порядку.

Читать далее

+21

alex_golubev13 14 окт 2022 в 12:08

Realtime-матчинг: находим матчи за считанные минуты вместо 24 часов

11 мин

12K

Блог компании Ozon TechNatural Language Processing*Машинное обучение*Обработка изображений*Python*

Технотекст 2022

Задача матчинга в последнее время набирает всё большую популярность и используется во многих сферах: банки матчат транзакции, маркетплейсы – товары, а Google и другие IT-гиганты проводят соревнования по решению таких задач на Kaggle.

Для маркетплейса матчинг – очень важный процесс, который решает сразу несколько задач:

1. При поисковом ранжировании из множества товаров показывать сначала самые выгодные предложения.

2. Объединять множество товаров в одну сущность и показывать предложения одного и того же товара от разных селлеров.

3. Понимать, как предложения селлеров выглядят относительно друг друга, и поощрять их дополнительными бонусами.

Сегодня мы поговорим не только о решении этой задачи, но и о способах её реализации: offline (batch) vs online (realtime). Также обсудим, как и зачем переходить от первого ко второму.

Читать далее

+42

NewTechAudit 22 окт 2021 в 09:26

Генерация признаков из временных рядов

8 мин

12K

Машинное обучение*Программирование*Python*

Заглянуть в будущее

Когда мы хотим рассчитать количество звонков в колл-центр через час, поставить в пятничную смену достаточно курьеров или предсказать потребление электроэнергии небольшим городком через 5 лет, мы обращаемся к теме обработки временных рядов. На тему обработки timeseries (временной ряд, англ.) написано множество статей и создано несчетное количество часов видео. Но попробуйте задать поисковой системе вопрос: как работать с временными рядами. Уверен, вы закопаетесь в многообразии ссылок, похожих по смыслу и содержанию. Однако, ни одна из них не ответит на вопрос полностью. Авторы выдают два или три метода обработки как панацею от всех проблем в работе со временем.

Мы попробуем собрать в одной статье все классические и современные методы обработки даты и времени.

Разберем случай, когда в нашем распоряжении имеются только даты с количеством завершенных событий. В ежедневных задачах прогнозирования мы можем подгрузить дополнительные данные или иметь в своем распоряжении сразу несколько показателей для временного периода. Мы же будем извлекать максимум данных из даты и единичного значения целевого события.

TL:DR

Основная цель статьи – создание новых признаков из временных периодов для решения бизнес-задач. Информация будет полезна новичкам и специалистам, которые редко работают со временными рядами. К тексту прилагается заметка на kaggle. Вы можете изучать статью и одновременно выполнять код. Мы не будем строить графики и рассматривать особенности временных рядов.

Ничего личного – просто бизнес

Читать далее

+3

VBDUnit 12 авг 2022 в 08:46

ТВ вместо монитора: HDR, 120 Гц и вот это всё

Простой

20 мин

91K

ГаджетыМониторы и ТВНастольные компьютерыИгры и игровые консолиЭлектроника для начинающих

Туториал

Разбираемся, зачем экранам 500 Гц, почему телевизор не монитор, за сколько часов выгорит OLED и как вообще это всё работает.

Читать далее

+170

Aleron75 3 авг 2022 в 12:00

Feature Engineering или стероиды для ML моделей

6 мин

17K

Блог компании RUVDS.comBig Data*Data Engineering*Python*

Привет, чемпион!

Часто при построении ML моделей мало просто взять сильную модель. Оказывается, иногда грамотная предобработка данных существенно важнее. Сегодня речь пойдёт про feature engineering.

Рассмотрим несколько кейсов на эту тему более подробно. Данные будут упрощённые, но обещаю, от этого примеры не станут менее интересными ?.

Читать дальше →

+38

WhalekitStudio 15 июл 2022 в 14:58

Семейство тестов хи-квадрат: что у них под капотом и какие выбрать для сравнения воронок

32 мин

21K

Блог компании MY.GAMESРазработка игр*Монетизация игр*Аналитика мобильных приложений*

Всем привет, меня зовут Вячеслав Зотов, я аналитик в студии Whalekit. В этом тексте я расскажу про статистические тесты и сравнение воронок, а также мы попробуем разобраться, что объединяет χ²-тесты, какова область их применения и подробно исследуем применимость χ²-тестов к анализу воронок. И все это с примерами на Python.

Тест χ² — очень полезный аналитический инструмент, который тем не менее часто вызывает у аналитиков недопонимание и путаницу. Прежде всего это происходит из-за того, что существует целое семейство тестов χ², имеющих разные области применения. Дополнительную путаницу создает то, что тесты χ² часто рекомендуют применять для анализа продуктовых и маркетинговых воронок, а это обычно приводит к ошибочному использованию тестов.

Читать далее

+44

greck 8 июл 2022 в 13:41

ML для оптимизации цен на основе эластичности по цене

25 мин

21K

Управление продажами*Управление e-commerce*Машинное обучение*Разработка под e-commerce*

Туториал

Кривая эластичности спроса по цене – это то, как продажи зависят от цены.Чем меньше цена, тем больше продаж и наоборот.

В этой статье рассказывается про ML методы получения кривых спроса сразу для сотен тысяч товаров (нейросети, pyTorch), а также как, имея кривые спроса, решать бизнес задачу про баланс оборота и прибыли – в этом нам поможет метод множителей Лагранжа. Что первично – ограничение на прибыль или множитель Лагранжа? Как инженерам объяснить, что такое kvi-товары и товары-герои? Это и многое другое

Читать далее

+7

1