Статьи / Закладки / Профиль gnarus / Хабр

@gnarus

Пользователь

Профиль Публикации Комментарии 2Закладки 22

nnazarov 11 сен в 12:52

А/Б тестирование: множественная проверка гипотез

10 мин

3.8K

Блог компании X5 TechPython*Математика*Статистика в IT

Хабр, привет! Сегодня обсудим, как проверять много гипотез в одном эксперименте. Разберёмся, почему растут вероятности ошибок. Познакомимся с метриками множественного тестирования и поправками, которые позволяют их контролировать. Узнаем, как оценить необходимый размер групп и повысить чувствительность.

Atlamos 22 ноя 2023 в 10:21

База: айсберг A/B-тестов

Средний

11 мин

10K

Блог компании КуперУправление продуктом*Статистика в IT

Если вы по кусочкам и фрагментарно изучаете разные аспекты и тонкости A/B-тестирования, но большое множество концепций и идей не ложатся в единую систему, то это статья для вас.

Предлагаю разобрать структуру A/B-тестов сверху вниз. Пройдем по основным этапам от наблюдаемой разницы в целевой метрике до матрицы ошибок. Формализуем, систематизируем и идейно свяжем те концепции, которые стоят за экспериментами. Постараемся сформировать цельное представление об этой процедуре, обозначим, что эксперименты делают, чего не делают, как делают, в каком представлении работают с данными и метриками.

+11

nrsharip 11 апр в 16:06

Индуктивная статистика: доверительные интервалы, предельные ошибки, размер выборки и проверка гипотез

Средний

15 мин

11K

Python*Алгоритмы*Математика*Статистика в ITИнфографика

Одной из самых распространённых задач аналитики является формирование суждений о большой совокупности (например, о миллионах пользователей приложения), опираясь на данные лишь небольшой части этой совокупности - выборке. Можно ли сделать вывод о миллионной аудитории крупного мобильного приложения, собрав данные 100 пользователей? Или стоит собрать данные о 1000 пользователях? Какую вероятность ошибиться при анализе мы можем допустить: 5% или 1%? Относятся ли две выборки к одной совокупности, или между ними есть ощутимая значимая разница и они относятся к разным совокупностям? Точность прогноза и вероятность ошибки при ответе на эти и другие вопросы поддаются вполне конкретным расчётам и могут корректироваться в зависимости от потребностей продукта и бизнеса на этапе планирования и подготовки эксперимента. Рассмотрим подробнее, как параметры эксперимента и статистические критерии оказывают влияние на результаты анализа и выводы обо всей совокупности, а для этого смоделируем тысячу A/A, A/B и A/B/C/D тестов.

+25

badcasedaily1 24 авг 2023 в 12:55

Статистические тесты и проверка гипотез в R

15 мин

8.1K

Блог компании OTUSR*

Современный мир насыщен данными, анализ информации становится критически важным инструментом для принятия обоснованных решений. Однако просто иметь данные не достаточно – необходимо извлечь из них ценную информацию. В этом процессе статистические тесты и проверка гипотез играют важнейшую роль. Они позволяют нам сделать выводы на основе данных, опираясь на строгие методы анализа, и тем самым способствуют принятию обоснованных решений.

Статистические тесты – это мощный инструмент, который позволяет провести объективную оценку данных и проверить гипотезы, основанные на этой информации. Они позволяют определить, насколько вероятно, что наблюдаемые различия или закономерности случайны, а не реально существующие в популяции. Статистические тесты позволяют избежать ошибок и предоставляют научно обоснованный подход к анализу данных.

+11

badcasedaily1 8 апр в 08:21

Как выбрать правильный стат тест для разных метрик

Простой

6 мин

6.2K

Блог компании OTUSУправление продуктом*

Обзор

Привет, Хабр!

Статистические тесты позволяют анализировать большие объемы информации, выявлять закономерности, которые могут быть неочевидны на первый взгляд, и проверять гипотезы, делая выводы на основе данных. Они также помогают минимизировать ошибки, связанные с выборкой и измерениями, позволяя проводить корректные исследования и делать выводы, основанные на объективных фактах.

В этой статье мы рассмотрим, как правильно выбрать статистический тест для анализа разнообразных метрик.

paveltro 30 окт 2018 в 14:02

Как интерпретировать предсказания моделей в SHAP

5 мин

45K

Big Data*Машинное обучение*

Туториал

Одной из важнейших задач в сфере data science является не только построение модели, способной делать качественные предсказания, но и умение интерпретировать такие предсказания.

Если мы не просто знаем, что клиент склонен купить товар, но так же понимаем, что влияет на его покупку, мы сможем в будущем выстраивать стратегию компанию, направленную на повышение эффективности продаж.

Читать дальше →

makovich 22 фев в 12:34

Рашид. Создаем нейронную сеть (конспект стоящей книги)

Простой

4 мин

7.2K

Машинное обучение*Читальный зал

Обзор

Делюсь своим конспектом одной из лучших книг для того, чтобы разобраться в принципах работы нейросетей: от понятно объяснённой математики до пошаговой практики разработки собственной сети на Python.

tujhhh 22 фев в 09:30

Где посмотреть ретро-девайсы в Москве

Простой

4 мин

2.5K

Старое железоИгры и игровые консолиНаучно-популярное

Из песочницы

Ниже – список музеев и текущих выставок в Москве, где можно посмотреть на старые компьютеры, консоли и игровые автоматы. Что-то похожее последний раз составлялось 3-5 лет назад. C того времени многое изменилось. Кроме того, мы с соратниками обошли все эти площадки. Так что новый список может быть полезным.

+19

Squirrelfm 22 янв в 08:30

Теория игр за 15 минут

Простой

15 мин

63K

Блог компании RaftМатематика*Научно-популярноеЛогические игры

Туториал

Многие из вас, я уверен, слышали о теории игр в какой-то момент своей жизни. Если вы хотите выглядеть умным и произвести впечатление на свою девушку — просто упомяните «игру с нулевой суммой» или «эволюционную стратегию», и ваши шансы отвести её домой сегодня вечером только что подскочили на 50%. Или вы можете использовать теорию игр, чтобы принимать решения в инвестировании своих денег (чтобы их полностью потерять и разориться) или, например решая, на какой девушке жениться (что также очень вероятно вас разорит). Как видите, это очень полезная теория.

Чтобы казаться умным - достаточно выучить эти пару выражений, но чтобы на самом деле что-то понимать - придется разобраться. Оказывается, это не так уж сложно и довольно интересно. Давайте посмотрим.

+103

PPR 18 янв в 12:39

Векторизация изображений. Как создать алгоритм поиска похожих изображений на Python

Средний

8 мин

13K

Блог компании Программный ПродуктPython*Алгоритмы*

Туториал

✏️ Технотекст 2023

Многочисленные исследования ученых доказывают, что около 90% информации человек воспринимает через зрение. Изображения являются одним из самых богатых источников информации, которую можно использовать для разнообразных задач, включая классификацию, детекцию объектов, ранжирование изображений, поиск по изображениям и генерацию текстовых описаний.

Все перечисленные выше задачи сегодня реализуются с применением машинного и глубокого обучения. Однако для эффективной обработки изображений необходимо иметь их числовое представление, так как модели машинного обучения способны воспринимать только его.

В мире есть много вещей, которые интуитивно понятны и очевидны для нас. Например, если перед нами два похожих цветка, мы можем определить их принадлежность одному виду, даже не зная названий этих растений. Этот навык позволяет нам распознавать объекты и определять их в группы. Разумеется, подобные алгоритмы уже давно существуют в современных поисковиках Google, Яндекс и прочих. Но что, если вы проектируете обособленную систему с собственной базой изображений одной или нескольких конкретных тематик и вам необходим функционал поиска похожих изображений?

В этой статье мы сосредоточим ваше внимание на том, как построить подобный алгоритм на Python, а также расскажем о компьютерном зрении и эмбеддинге изображения.

+10

AlexeySanko 29 окт 2015 в 12:15

PyTest

24 мин

376K

Тестирование IT-систем*Python*

Из песочницы

Предисловие

По историческому призванию я SQL-щик. Однако судьба занесла меня на BigData и после этого понесла кривая — я освоил и Java, и Python, и функциональное программирование (изучение Scala стоит в списке). Собственно на одном из кусков проекта встала необходимость тестирования кода на Python. Ребята из QA посоветовали для этих целей PyTest, но даже они затруднились толком ответить чем этот зверь хорош. К сожалению, в русскоязычном сегменте информации по данному вопросу не так уж и много: как это используют в Yandex да и все по-хорошему. При этом описанное в этой статье выглядит достаточно сложно для человека начинающего путешествие по этой стезе. Не говоря уже об официальной документации — она приобрела для меня смысл лишь после того, как я разобрался с самим модулем по другим источникам. Не спорю, там написаны интересные вещи, но, к сожалению, совсем не для старта.

Юнит-тестирование Python

Что это и для чего рассказывать смысла не вижу — Википедия все равно знает больше. По поводу существующих модулей для Python хорошо описано на Хабре.

Вводная по необходимым знаниям

На описываемый момент знания Python у меня были достаточно поверхностны — я писал кое-какие несложные модули и знал стандартные вещи. Но при столкновении с PyTest мне пришлось пополнять багаж знаний декораторами тут и тут и конструкцией yield.

Преимущества и недостатки PyTest

1) Независимость от API (no boilerplate). Как код выглядит в том же unittest:

Код

import unittest

class TestUtilDate(unittest.TestCase):
    def setUp(self):
        #init_something()
        pass
        
    def tearDown(self):
        #teardown_something()
        pass
        
    def test_upper(self):
        self.assertEqual('foo'.upper(), 'FOO')
        
    def test_isupper(self):
        self.assertTrue('FOO'.isupper())
        
    def test_failed_upper(self):
        self.assertEqual('foo'.upper(), 'FOo')
        
if __name__ == '__main__':
    suite = unittest.TestLoader().loadTestsFromTestCase(TestUtilDate)
    unittest.TextTestRunner(verbosity=2).run(suite)

То же самое в PyTest:

Код

import pytest

def setup_module(module):
    #init_something()
    pass

def teardown_module(module):
    #teardown_something()
    pass

def test_upper():
    assert 'foo'.upper() == 'FOO'
    
def test_isupper():
    assert 'FOO'.isupper()
    
def test_failed_upper():
    assert 'foo'.upper() == 'FOo'

2) Подробный отчет. В том числе выгрузка в JUnitXML (для интеграции с Jenkins). Сам вид отчета может изменяться (включая цвета) дополнительными модулями (о них будет позднее отдельно). Ну и вообще цветной отчет в консоли выглядит удобнее — красные FAILED видны сразу.

3) Удобный assert (стандартный из Python). Не приходится держать в голове всю кучу различных assert'ов.

4) Динамические фикстуры всех уровней, которые могут вызываться как автоматически, так и для конкретных тестов.

5) Дополнительные возможности фикстур (возвращаемое значение, финализаторы, область видимости, объект request, автоиспользование, вложенные фикстуры)

6) Параметризация тестов, то есть запуск одного и того же теста с разными наборами параметров. Вообще это относится к пункту 5 «Дополнительные возможности фикстур», но возможность настолько хороша, что достойна отдельного пункта.

7) Метки (marks), позволяющие пропустить любой тест, пометить тест, как падающий (и это его ожидаемое поведение, что полезно при разработке) или просто именовать набор тестов, чтобы можно было запускать только его по имени.

8) Плагины. Данный модуль имеет достаточно большой список дополнительных модулей, которые можно установить отдельно.

9) Возможность запуска тестов написанных на unittest и nose, то есть полная обратная совместимость с ними.

Про недостатки, пусть их и не много, могу сказать следующее:

1) Отсутствие дополнительного уровня вложенности: Для модулей, классов, методов, функций в тестах есть соответствующий уровень. Но логика требует наличие дополнительного уровня testcase, когда та же одна функция может иметь несколько testcase'ов (например, проверка возращаемых значений и ошибок). Это частично компенсируется дополнительным модулем (плагином) pytest-describe, но там встает проблема отсутствия соответствующего уровня фикстуры (scope = “describe”). С этим конечно можно жить, но в некоторых ситуациях может нарушать главный принцип PyTest — «все для простоты и удобства».

2) Необходимость отдельной установки модуля, в том числе в продакшене. Все-таки unittest и doctest входят в базовый инструментарий Python и не требуют дополнительных телодвижений.

3) Для использования PyTest требуется немного больше знаний Python, чем для того же unittest (см. «Вводная по необходимым знаниям»).

Подробное описание модуля и его возможностей под катом.

Читать дальше →

+20

freetonik 20 сен 2016 в 11:37

Полное практическое руководство по Docker: с нуля до кластера на AWS

39 мин

1.7M

Веб-разработка*Amazon Web Services*

Перевод

Содержание

Вопросы и ответы
Введение
- Пре-реквизиты
- Настройка компьютера
1.0 Играем с Busybox
- 1.1 Docker Run
- 1.2 Терминология
2.0 Веб-приложения и Докер
3.0 Многоконтейнерные окружения
4.0 Заключение
- 4.1 Следующие шаги
- 4.2 Фидбек автору

Вопросы и ответы

Что такое Докер?

Определение Докера в Википедии звучит так:

программное обеспечение для автоматизации развёртывания и управления приложениями в среде виртуализации на уровне операционной системы; позволяет «упаковать» приложение со всем его окружением и зависимостями в контейнер, а также предоставляет среду по управлению контейнерами.

Ого! Как много информации.

Читать дальше →

+123

visualcomments 18 янв в 08:30

Делаем обучающие датасеты для больших языковых моделей

Простой

12 мин

8.4K

Машинное обучение*

Кейс

Дообучение больших языковых моделей на кастомных датасетах делает модели гораздо сообразительнее. Есть история успеха датасета alpaca. Он творит чудеса с моделями, которые сначала если и умели что-то делать, то делали это очень плохо. Мы решили понять, как это делается, а главное - какие проблемы есть на этом пути и могут ли новички вроде нас разобраться в этом. История взлетов и падений - под катом.

+13

SladFermer 16 янв в 14:00

Как добыть свечи по всем акциям Мосбиржи

Простой

4 мин

4.9K

Python*Алгоритмы*Финансы в IT

В конце прошлого года я писал о том, как с помощью Algopack можно вытащить справочную информацию о всех акциях Мосбиржи. Приводил пример моего первого скрипта на python, использующего библиотеку moexalgo для Algopack и обозначил планы дописать его с целью добычи всех исторических данных.

haqreu 14 янв в 19:43

Компилятор за выходные: синтаксические деревья

Средний

11 мин

27K

Математика*Компиляторы*Алгоритмы*Программирование*Python*

Туториал

Вам когда-нибудь приходилось задаваться вопросом, как работает компилятор, но так руки и не дошли разобраться? Тогда этот текст для вас. Мне тоже не доводилось заглядывать под капот, но тут так случилось, что мне нужно прочитать курс лекций о компиляторах местным третьекурсникам. Кто встречался с некомпетентными преподавателями? Здравствуйте, это я :)

Итак, чтобы самому разобраться в теме, я собираюсь написать транслятор с эзотерического языка программирования wend (сокращение от week-end), который я только что сам придумал, в обычный ассемблер. Задача уложиться в несколько сотен строк питоновского кода. Основной репозиторий живёт на гитхабе (не забудьте заглянуть в мой профиль и посмотреть другие tiny* репозитории).

+74

MaxRokatansky 24 дек 2019 в 15:34

Юнит-тесты на Python: Быстрый старт

4 мин

119K

Блог компании OTUSPython*Тестирование веб-сервисов*

Туториал

Перевод

Перевод статьи подготовлен специально для студентов курса «Python QA Engineer».

Юнит-тестирование кода является неотъемлемой частью жизненного цикла разработки программного обеспечения. Юнит-тесты также формируют основу для проведения регрессионного тестирования, то есть они гарантируют, что система будет вести себя согласно сценарию, когда добавятся новые функциональные возможности или изменятся существующие.

В этой статье я продемонстрирую основную идею юнит-тестирования на одном классе. На практике вам придется писать множество тестовых случаев, добавлять их в тестовый набор и запускать все вместе. Управление тест-кейсами мы рассмотрим в следующей статье.

Читать дальше →

+10

AlekSandrDr 20 апр 2019 в 17:09

Python Testing с pytest. Начало работы с pytest, Глава 1

24 мин

214K

Python*

Туториал

Перевод

Вернуться Дальше

Я обнаружил, что Python Testing с pytest является чрезвычайно полезным вводным руководством к среде тестирования pytest. Это уже приносит мне дивиденды в моей компании.

Chris Shaver
VP of Product, Uprising Technology

Читать дальше →

+13

lebron32rus 29 сен 2023 в 15:16

Многопоточность в Python: очевидное и невероятное

Средний

4 мин

36K

Python*Программирование*Параллельное программирование*

Из песочницы

В данной статье я покажу на практическом примере как устроена многопоточность в Python, расскажу про потоки, примитивы синхронизации и о том зачем они нужны.

Изначально я планировал что это будет простая и короткая заметка, но пока готовил и тестировал код нашел интересный неочевидный момент связанных с внутренностями CPython, так что не спешите закрывать вкладку, даже если вы уверены что вы знаете о потоках в Python всё :)

+38

RPAconsultant 22 июл 2021 в 13:53

Гайд: как создавать собственные активности для RPA-платформ

11 мин

2.5K

Блог компании UiPathIT-инфраструктура*Исследования и прогнозы в IT*IT-компании

Платформы для роботизированной автоматизации имеют широкий спектр возможностей и позволяют использовать множество готовых действий без программирования. Однако, бизнес-пользователям часто не хватает тех активностей, которые предоставляют RPA-платформы. В таких случаях весь проект роботизации уходит к программистам, которые могут написать любую программу.

Но есть проблема – они плохо понимают настоящие бизнес процессы, а на то, чтобы в них разобраться, уходит время. В этом посте рассказываем, как программисты могут разработать свои активности для бизнес-пользователей, чтобы те продолжали роботизировать свои задачи без передачи всего проекта программистам.

Статья написана при поддержке технического эксперта UiPath: Валентина Драздова.

solovevva 3 янв в 19:03

Алгоритмы в помощь: как делегировать рутину системам ИИ

7 мин

8.4K

Блог компании Первая грузовая компания (ПГК)СофтПрезентации

Мнение

Привет, Хабр! Я Виктор Соловьев, бизнес-аналитик продукта «Цифровой вагон» в Первой грузовой компании. Не так давно мы в блоге обсуждали, почему страх, что «ИИ отнимет у вас работу» — в первую очередь поп-культурный феномен. А сегодня я хочу перевести эту тему в практическую плоскость и рассказать о том, чем ИИ-системы, наоборот, помогут и какие рутинные задачи можно уже сейчас делегировать алгоритмам. Я отобрал несколько ИИ-инструментов (как популярных, так и не очень широко известных) и сгруппировал их по типам задач.

А/Б тестирование: множественная проверка гипотез

База: айсберг A/B-тестов

Индуктивная статистика: доверительные интервалы, предельные ошибки, размер выборки и проверка гипотез

Статистические тесты и проверка гипотез в R

Как выбрать правильный стат тест для разных метрик

Как интерпретировать предсказания моделей в SHAP

Рашид. Создаем нейронную сеть (конспект стоящей книги)

Где посмотреть ретро-девайсы в Москве

Теория игр за 15 минут

Векторизация изображений. Как создать алгоритм поиска похожих изображений на Python

PyTest

Предисловие

Юнит-тестирование Python

Вводная по необходимым знаниям

Преимущества и недостатки PyTest

Полное практическое руководство по Docker: с нуля до кластера на AWS

Содержание

Вопросы и ответы

Что такое Докер?

Делаем обучающие датасеты для больших языковых моделей

Как добыть свечи по всем акциям Мосбиржи

Компилятор за выходные: синтаксические деревья

Юнит-тесты на Python: Быстрый старт

Python Testing с pytest. Начало работы с pytest, Глава 1

Многопоточность в Python: очевидное и невероятное

Гайд: как создавать собственные активности для RPA-платформ

Алгоритмы в помощь: как делегировать рутину системам ИИ

Информация

Специализация