Articles / Bookmarks / Profile of resetme / Habr

@resetme^{read⁠-⁠only}

Скромный пастух нулей и единиц…

ProfileComments196Bookmarks884

badcasedaily1 Feb 15 2024 at 07:12

Как подобрать уровень значимости α и мощность для A/B теста

Easy

6 min

5.7K

OTUS corporate blogSystem Analysis and Design*

Opinion

Привет, Хабр!

Когда то я думал, выбор правильного уровня значимости α и мощности для A/B теста — это ~~простое дело~~, пока не столкнулся с этой проблемой на практике. Сидишь, анализируешь результаты, думаешь, что все идет по плану, а потом вдруг выясняется, что твои выводы сомнительны из-за неправильно выбранных параметров тестирования.

Цель A/B теста — не просто узнать, какой вариант лучше, а получить достоверные результаты, на основе которых можно принимать обоснованные решения.

В этой статье рассмотрим как подобрать уровень значимости α.

justnikobird Feb 14 2024 at 16:38

Работа с DEB-пакетами

Medium

9 min

16K

Configuring Linux**nix*Server Administration*DevOps*System administration*

Tutorial

Данные инструкции написаны для серии статей под названием «Проект юного DevOps»:

Сборка Deb-пакета

Пересборка Deb-пакета

badcasedaily1 Feb 14 2024 at 12:51

Z-test

Easy

5 min

19K

OTUS corporate blogStatistics in ITData visualization*

Review

Привет, Хабр!

Z-тест, известный также как z-критерий Фишера, представляет собой набор статистических методов для проверки гипотез, которые базируются на предположении о нормальном распределении данных. Эти методы используются для анализа, являются ли средние значения двух наборов данных одинаковыми, при условии, что дисперсия генеральной совокупности известна. Еще они применяются для анализа стандартизированных выборочных средних. Расчёт Z-статистики производится путём деления разности между анализируемой случайной величиной и её математическим ожиданием на стандартную ошибку этой величины.

В этой статье рассмотрим, что такое Z-тест, чем он полезен и сравним его с t-тестом.

+13

Leonid0_0 Feb 14 2024 at 11:31

Нейронные сети и dataset IRIS

Easy

11 min

8.1K

TensorFlow*Machine learning*Artificial IntelligencePython*

From sandbox

Исследовательская работа по dataset IRIS и библиотеке для машинного обучения и построения нейронных сетей tensorflow.

axelmaker Feb 13 2024 at 14:29

Как работает сеть в контейнерах: Docker Bridge с нуля

Medium

21 min

62K

Configuring Linux*Network technologies*DevOps*

Tutorial

Translation

В этой статье мы собираемся разобраться со следующими вопросами:

* Как виртуализировать сетевые ресурсы, чтобы контейнеры думали, что у них есть отдельные сетевые среды?

* Как превратить контейнеры в дружелюбных соседей и научить общаться друг с другом?

* Как выйти во внешний мир (например, в Интернет) изнутри контейнера?

* Как связаться с контейнерами, работающими на хосте Linux, из внешнего мира?

* Как реализовать публикацию портов, подобную Docker?

+71

anikengur Feb 11 2024 at 20:23

Шпаргалка по рекомендательным системам

Medium

7 min

8.8K

Machine learning*Artificial Intelligence

Рекомендательные системы стали неотъемлемой частью нашей жизни, помогая нам легко находить новые фильмы, музыку, книги, товары и многое другое. Цель этой шпаргалки - дать краткий обзор основных методов: коллаборативная фильтрация, матричная факторизация и некоторые нейросетевые методы.

Надеюсь, что эта шпаргалка станет полезным ресурсом для вас, помогая разобраться в мире рекомендательных систем и использовать их потенциал для улучшения пользовательского опыта.

alexprozoroff Feb 2 2024 at 07:00

Нейропанорамы для любой точки Земли: как «осмотреться» на спутниковом снимке

Medium

9 min

3.2K

Python*Geoinformation services*Machine learning*

Как получить изображение местности, если единственным источником знаний о ней является спутниковый снимок. Сколько нейронных сетей для этого потребуется, легко ли собрать набор данных для обучения и зачем вообще это может быть кому-то нужно — в небольшой статье.

Генерировать далее

SofiaSazonova Jan 29 2024 at 16:33

Python Multiprocessing. Обмен данными между процессами. Передача объектов пользовательских классов

Hard

15 min

35K

Concurrent computing*Python*

Tutorial

Параллельное программирование — сложный, но очень полезный навык для программиста. Оно позволяет эффективно использовать мощности современных компьютеров с несколькими ядрами и процессорами. Это особенно важно при решении сложных задач, например, в инженерных расчетах, обработке мультимедийных данных, обучении нейросетей и многом другом.

Модуль Multiprocessing позволяет использовать так называемый истинный параллелизм, то есть создавать процессы, которые выполняются полностью независимо друг от друга.

В этом случае процессы не имеют общей памяти и не могут просто так читать и изменять одни и те же переменные. Конечно же, в модуле multiprocessing реализован нативный способ передавать данные между процессами, и даже не один. Однако как только мы отходим от встроенных типов данных, то готовые решения уже не работают.

О том, как с этим обходиться, я и расскажу в этой статье.

+19

seasadm Jan 29 2024 at 08:15

Kubernetes: шпаргалка для собеседования часть 2

Medium

11 min

21K

Газпромбанк corporate blogSystem administration*Kubernetes*

Всем привет! Это снова Олег. Как и обещал, публикую вторую часть текста, посвященную вопросам, которые могут быть заданы на собеседовании по Kubernetes.

Чтобы было понятно о чем речь, коротко: я работаю исполнительным директором по разработке в Газпромбанке, собеседую инженеров DevOps и системных администраторов. Делюсь вопросами (и ответами, конечно), которые могут быть заданы на собеседовании. Первую часть можно найти здесь. Итак, поехали.

Ехать далее

+10

alizar Jan 29 2024 at 09:00

Бесплатные векторные карты на своём хостинге

Medium

6 min

24K

RUVDS.com corporate blogGeoinformation services*Website development*OpenStreetMap*Open source*

Review

Векторные карты Protomaps на базе OSM

Каждый веб-разработчик знает о OpenStreetMap (OSM), свободной альтернативе Google Maps. Несмотря на всеобщую известность OSM, у некоторых всё-таки возникают вопросы: как сделать веб-карту с открытыми данными OSM, как самостоятельно публиковать карты?

На эту тему есть популярные руководства, в том числе по работе с базами PostGIS и запуску тайлсерверов для реализации бесшовных карт OSM. Но есть принципиально иной подход — векторные карты Protomaps, которые обеспечивают более высокое разрешение, настройку внешнего вида и наложение произвольных меток. Они изначально предполагают максимальную простоту в создании своих карт. А главное, что разместить тайлы можно на своём хостинге или в облаке.

Читать дальше →

+83

alexwortega Jan 23 2024 at 05:43

Вихрь — семейство переведенных русскоязычных LLM

Medium

5 min

32K

Natural Language Processing*

Case

Мы русифицировали Mistral и он работает лучше(по бенчмаркам) чем закрытые русскоязычные LLM. Как мы это сделали, ссылки на модели и бенчмарки - в статье.

+36

NewTechAudit Jan 18 2024 at 05:56

Простое внедрение аннотаций статистической значимости

Easy

6 min

2.4K

Python*Data visualization*

Tutorial

Привет, Хабр!

Сегодня с вами участница профессионального сообщества NTA Яруллина Ляйсян.

В современном мире визуализация данных используется повсеместно. Она позволяет в сжатые сроки предоставить изображение или видео, описывающее колоссальное количество информации, что делает визуализацию незаменимой в анализе данных.

Но не менее важной в указанном вопросе является статистика. Она позволяет провести качественную обработку данных и сделать выводы на ее основе — без статистической базы графическое представление данных не несет особой ценности. И в наше время океана неподтвержденной информации это куда более серьезная проблема, чем могло бы показаться изначально. Поэтому важно уметь быстро внедрять аннотации статистической значимости в полученную визуализацию и уметь ее расшифровывать.

В последние годы создаются специальные статистические пакеты, которые позволяют реализовать вышеизложенное в жизнь быстро и просто. Например, специально для библиотеки Seaborn, используемой для построения статистических графиков, был создан пакет Statannotations. Он позволяет проводить дополнительные вычисления статистических тестов и добавлять их результаты в виде аннотаций к графикам. Рассмотрю его подробнее и для примера загляну в глубины мозга.

Узнать больше

velon Jan 10 2024 at 10:58

Геоданные без регистрации и СМС

12 min

6.2K

Data Engineering*SoftwareData storage*Geoinformation services*OpenStreetMap*

Tutorial

Здравствуй, дорогой читатель.

Спешу поделиться тем, как на самом деле найти геоданные без регистрации и СМС. По чесноку. Без всяких-яких. И даже “подписывайтесь на телеграмм канал” - не будет, у меня его и нет…

И речь пойдёт про инструмент Osmosis.

Никому не сообщайте код из СМС

+12

exc3pti0n Jan 8 2024 at 09:27

Галопом по Европам: Легитимные процессы Windows на пальцах

Easy

12 min

31K

Information Security*Operating systems

В этой статье моей целью будет быстро и понятно внести памятку о легитимных процессах Windows. Немного расскажу, какой процесс за что отвечает, какие нормальные свойства имеют процессы, и приправлю это все небольшим количеством краткой, но полезной информации.

+59

ru_vds Jan 8 2024 at 13:00

Собираем автономную игру на C# в 2 килобайтах

Medium

11 min

22K

RUVDS.com corporate blogProgramming*Compilers*Client optimization*C#*

Tutorial

Translation

Моё детство пришлось на эпоху 1,44-мегабайтных дискет и 56-килобитных модемов, поэтому я всегда любил маленькие программы. Раньше можно было записать на дискету кучу мелких игр и таскать её с собой. Если программа не помещалась на дискету, я задумывался, почему — в ней много графики? Есть музыка? Возможно, она выполняет много сложных операций? Или она просто раздута?

В наши дни дисковое пространство стало настолько дешёвым, что люди отказались от оптимизации по размеру.

Размер важен только при передаче: если вы передаёте программу по проводам, мегабайты равны секундам. По быстрому соединению на 100 Мбит в лучшем случае можно передать 12 МБ в секунду. Если на другом конце провода находится человек, ожидающий завершения скачивания, то разница между пятью и одной секундой может существенно повлиять на его ощущения.

Человек может зависеть от времени передачи как напрямую (пользователь, скачивающий программу по сети), так и косвенно (serverless-сервис, отвечающий на веб-запрос).

Люди обычно воспринимают всё, что длится меньше 0,1 секунды, как мгновенное, 3 секунды — это примерно тот предел, после которого прерывается состояние потока пользователя; а уж 10 секунд удержать внимание пользователя очень сложно.

Хотя уменьшение сегодня уже необязательно, оно всё равно лучше.

Эта статья задумывалась как эксперимент, позволяющий выяснить, каким может быть минимальный размер полезного автономного исполняемого файла C#. Могут ли приложения на C# достичь размеров, при которых пользователи будут ощущать их скачивание как мгновенное? Позволит ли это использовать C# там, где он не используется сейчас?

Читать дальше →

+126

Squirrelfm Jan 9 2024 at 06:07

Как объяснить функции активации вашему коту: простое руководство

Easy

8 min

29K

Raft corporate blogNatural Language Processing*Artificial IntelligenceMachine learning*

Tutorial

Итак, функции активации. Что мы знаем о них помимо загадочной тайны ужасных соглашений о наименованиях (о чем поговорим позже ?) и зачем они нам нужны (если вас это вообще интересно)?

Идея, собственно, настолько проста, что даже ваш кот может разобраться в этом. Прежде всего, что-то похожее есть в наших головах. Для этого давайте взглянем на упрощенный нейрон (органический и искусственный):

+32

pasha-cement Dec 28 2023 at 13:41

Биномиальный тест

Hard

11 min

9.2K

Mathematics*Statistics in IT

Roadmap

From sandbox

Вы когда-нибудь задавались вопросом, как узнать, насколько хорошо работает ваша рекламная кампания, ваш новый продукт или ваша стратегия игры? Например, если вы запустили рекламу на сайте и хотите узнать, увеличилась ли конверсия клиентов после этого. Или если вы выпустили новый вкус чипсов и хотите узнать, нравится ли он покупателям больше, чем старый. Или если вы играете в монетку и хотите узнать, не жульничает ли ваш соперник, подбрасывая монету с двумя орлами. Для всех этих ситуаций вам может пригодиться биномиальный тест!

Биномиальный тест - это статистический метод, который позволяет сравнить долю успехов в двух группах и проверить, есть ли между ними значимая разница. Успехом может быть любое событие, которое имеет два исхода: да или нет, купил или не купил, орел или решка и т.д.

Liloon21 Dec 28 2023 at 09:22

Что происходит, когда вы создаёте Pod в Kubernetes?

Easy

2 min

15K

Слёрм corporate blogIT Infrastructure*DevOps*Kubernetes*

Translation

Создание Pod в Kubernetes — простая задача. Но под капотом скрывается сложный рабочий процесс, который затрагивает несколько компонентов кластера. Делимся переводом статьи, где автор рассказывает, что в этот момент происходит в кластере. Статья будет полезна тем, кто изучает Kubernetes, знакомится с его компонентами и абстракциями.

maratyv Dec 16 2023 at 18:24

АБ тесты и подводные камни при их автоматизации

Medium

14 min

10K

Big Data*Python*Statistics in ITMobile App Analytics*

From sandbox

Задача оценки нововведений в онлайн и мобильных приложениях возникает повсеместно. Один из наиболее надёжных и популярных способов решения этой задачи - двойной слепой рандомизированный эксперимент, также известный как АБ-тест.

На тему АБ-тестирования доступны как статьи на Хабре, так и целые книги (неполный список литературы в конце). В основе АБ-теста лежит следующая идея - случайно разделить пользователей на две или более группы, в одной из которых исследуемая функциональность выключена, а в других - включена. Затем можно сравнить метрики и сделать выводы.

hipnosis Dec 20 2023 at 16:09

Как прогнозировать время выполнения задач

Hard

20 min

47K

Т-Банк corporate blogProject management*Research and forecasts in IT*

Analytics

Technotext Winner 2023

Привет! Меня зовут Павел Ахметчанов, я руководитель направления улучшения процессов разработки. В статье расскажу про часто используемые методики оценок задач и есть ли в них ошибки. Посмотрим, как правильно ставить вопросы при оценке. Узнаем, что собой представляет время решения задач, а это далеко не очевидная вещь. Попробуем изменить свое мышление и получим рецепт для определения времени решения задач.

Если спросить любого начинающего исследователя этой темы «А зачем нам оценка?», он скажет, что постоянно задают вопрос «Когда вы выполните эту задачу?», на который и надо ответить с помощью этой оценки. А что, если сам вопрос задан неверно?

+67

1 2 ...

13 14

16 17 ...

43 44