Все потоки
Поиск
Написать публикацию
Обновить
19.64

Data Mining *

Глубинный анализ данных

Сначала показывать
Порог рейтинга

❓100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_10

?Вопрос_10: Что такок Tarantool и как он устроен ? (Часть_2)

  1. Replication: Tarantool предлагает механизм репликации, который позволяет создавать реплики базы данных для обеспечения отказоустойчивости и масштабируемости. Репликация Tarantool основана на механизме репликации мастер-слейв (master-slave) и поддерживает асинхронное и синхронное реплицирование.

  2. Sharding: Tarantool поддерживает горизонтальное масштабирование с помощью шардинга данных. Шардинг позволяет распределить данные по нескольким узлам-серверам, что позволяет обрабатывать большие объемы данных и повышает производительность.

  3. Индексы: Tarantool предоставляет различные типы индексов для оптимизации запросов и обеспечения быстрого доступа к данным. Включая хеш-индексы, деревья и индексы, основанные на отсортированных списках.

    t.me/DenoiseLAB (Еесли вы хотите быть в курсе всех последних новостей и знаний в области анализа данных);

Теги:
Рейтинг0
Комментарии0

❓100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_3

?Вопрос_3: Что такое преобразование Бокса-Кокса?

Преобразование Бокса-Кокса (Box-Cox transformation) - это преобразование, которое преобразует "ненормальные" зависимые переменные в нормальные переменные, так как нормальность является наиболее распространенным предположением при использовании многих статистических методов. Оно было предложено Георгом Боксом и Дэвидом Коксом в 1964 году.

Преображование Бокса-Кокса (Общий вид)
Преображование Бокса-Кокса (Общий вид)

Оно имеет параметр лямбда, который при значении "0" означает, что это преобразование эквивалентно лог-трансформации. Оно используется для стабилизации дисперсии, а также для нормализации распределения. Выбор оптимального значения параметра (лямбда) при использовании преобразования Бокса-Кокса может быть выполнен с использованием различных методов:

  1. Метод максимального правдоподобия: В этом подходе подбирается значение (лямбда), которое максимизирует правдоподобие модели. Это можно сделать с помощью численных методов оптимизации, таких как метод Ньютона-Рафсона или метод Брента;

  2. Критерии информационного критерия: можно использовать информационные критерии, такие как критерий Акаике (AIC) или критерий Шварца (BIC);

  3. Кросс-валидация: При этом данные разбиваются на обучающую и проверочную выборки, и производится оценка преобразования Бокса-Кокса для различных значений (лямбда) на обучающей выборке. Затем оцениваются результаты на проверочной выборке и выбирается лучшее значение.

    https://t.me/DenoiseLAB

Теги:
Рейтинг0
Комментарии0

❓100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_2

?Вопрос_2: Объясните, что такое One-hot encoding и Label Encoding. Как они влияют на размерность заданного набора данных ?

✔️Ответ:

One-hot encoding - это представление категориальных переменных в виде двоичных векторов, при котором каждая уникальная категория переменной преобразуется в новый бинарный столбец, называемый "фиктивной переменной". В этом новом столбце значение 1 указывает на принадлежность к соответствующей категории, а значение 0 - на принадлежность к другим категориям. Таким образом, каждая уникальная категория представлена отдельным столбцом. Это позволяет алгоритмам машинного обучения интерпретировать категориальные значения и использовать их в расчетах. Не создает ложного упорядочения или отношения между значениями категориальных переменных и помогает избежать проблемы ложной корреляции между категориями переменных. Однако, использование one-hot encoding увеличивает размерность набора данных ("проклятие размерности").

Label Encoding - это процесс преобразования каждого значения категориальной переменной в целочисленный код. Каждой уникальной категории присваивается уникальное число. Label Encoding не добавляет новые столбцы к набору данных и не увеличивает размерность. Однако, важно понимать, что числовые значения, присвоенные категориям, могут создать ложное упорядочение или отношение между ними. 

#work #coding #testing #optimization #ml #learning

Телеграмм: https://t.me/DenoiseLAB

Теги:
Всего голосов 2: ↑2 и ↓0+2
Комментарии0

❓100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_1

?Вопрос_1: Чем ковариация и корреляция отличаются друг от друга?

✔️Ответ:

Ковариация и корреляция - это два статистических показателя, которые используются для определения связи между двумя случайными величинами.

Ковариация измеряет степень, в которой две переменные меняются вместе, тогда как корреляция измеряет не только степень, но и направление отношения между двумя переменными.

Ковариация подразумевает, что две величины меняются в одном направлении: если одна увеличивается, то вторая тоже увеличивается, или если одна уменьшается, то другая тоже уменьшается. Однако, ковариация не учитывает, насколько сильно или слабо эти переменные меняются.

Корреляция, с другой стороны, учитывает не только направление, но и силу отношения между двумя переменными. Коэффициент корреляции может принимать значения от -1 до 1. Значение +1 для корреляции означает, что две переменные имеют прямую связь и полностью коррелируют. Значение -1 для корреляции означает, что две переменные находятся в обратной пропорциональной связи. Значение 0 для корреляции означает, что между двумя переменными нет связи.

#work #coding #testing #optimization #ml #learning

Телеграмм: https://t.me/DenoiseLAB

Теги:
Всего голосов 2: ↑1 и ↓10
Комментарии0

Сколько раз звонить, чтобы дозвониться. Наша странная реальность и теория вероятности. Является ли попытка дозвониться аналогом подбрасывания монеты

Бывают ситуации когда надо дозвониться до какой-то организации или человека, но телефон адресата то занят, то не отвечает, то вне зоны доступа и т.д. Мне попались любопытные данные внутренней статистики от одного из провинциальных операторов связи. Получается оптимальное количество попыток 4..7, а больше 15 раз делать попыток дозвониться теряет смысл, вероятность дозвона сильно уменьшается. И всё-таки это не подбрасывание монетки.

Теги:
Всего голосов 6: ↑4 и ↓2+2
Комментарии1

25 мая 2023 года в офлайн + онлайн формате состоится Дата Саммит «Вселенная Ваших данных». Это мероприятие, посвященное вопросам цифровой трансформации и управления данными. На Дата Саммите вы сможете узнать, как предсказывать появление «черных лебедей», как с помощью данных оперативно принимать эффективные решения. #CloudMTS — официальный партнер мероприятия.

Участие бесплатное.

На саммите вы сможете:

  • из первых рук узнать о лучших практиках российских компаний на базе отечественных технологий;

  • услышать мнение экспертов о перспективах российской цифровой трансформации на основе данных;

  • посетить демо-зону решений по управлению данными и выставку технологических партнеров.

Регистрация по ссылке.

Всего голосов 7: ↑6 и ↓1+5
Комментарии0
2