Статьи / Закладки / Профиль ease / Хабр

Все потоки

@ease^{read⁠-⁠only}

Пользователь

ПрофильЗакладки27

ragequit 22 окт 2020 в 08:20

Защита Linux-сервера. Что сделать в первую очередь

7 мин

116K

Блог компании VDSina.ruИнформационная безопасность * Серверное администрирование * Системное администрирование * Хостинг

_{Habib M’henni / Wikimedia Commons, CC BY-SA}

В наше время поднять сервер на хостинге — дело пары минут и нескольких щелчков мыши. Но сразу после запуска он попадает во враждебную среду, потому что открыт для всего интернета как невинная девушка на рокерской дискотеке. Его быстро нащупают сканеры и обнаружат тысячи автоматически скриптовых ботов, которые рыскают по сети в поисках уязвимостей и неправильных конфигураций. Есть несколько вещей, которые следует сделать сразу после запуска, чтобы обеспечить базовую защиту.

Читать дальше →

+49

Svilly 30 ноя 2020 в 06:29

Vulnhub. Прохождение Sunset: 1

3 мин

12K

Блог компании Перспективный мониторингCTF * Информационная безопасность *

Туториал

HackTheBox — популярная площадка среди специалистов информационной безопасности, проводящих тестирование на проникновение. Однако существуют не менее интересные CTF площадки для проверки и тренировки своих навыков, которые подойдут как начинающим, так и опытным пентестерам.

Одной из таких площадок как раз является Vulnhub. Правда, на этом ресурсе выкладывают только виртуальные машины, и там можно найти целые серии виртуальных машин. Сегодня мы поговорим о серии Sunset и рассмотрим первую ВМ (sunset: 1).

Читать дальше →

+10

Timeweb_Cloud 25 ноя 2020 в 16:08

Кража персональных данных пользователя (PII) с помощью вызова API напрямую

4 мин

3.3K

Блог компании Timeweb CloudИнформационная безопасность * Тестирование веб-сервисов *

Перевод

Сегодня решили обсудить тему информационной безопасности. Публикуем перевод статьи Kunal pandey, обнаруживаем уязвимости и работаем на опережение!

Введение

Кража персональных данных (PII) пользователя стала для нас обыденным явлением. Злоумышленники находят множество способов получить персональные данные, например, используя XSS- и IDOR-уязвимости, раскрытие конечных точек API (API endpoint) и другое.

Сценарий, который описан в этой статье, мы можем протестировать, просто наблюдая за поведением конечной точки API. В приведенном ниже примере, вызвав API, персональные данные любого пользователя могут быть сохранены в других конечных точках API.

Читать дальше →

+1

MaxRokatansky 13 ноя 2020 в 15:41

Web Security SQL Injection 2020

6 мин

15K

Блог компании OTUSИнформационная безопасность * Веб-разработка * SQL *

Статья расскажет, как использовать SQLmap и похожих инструментов для автоматизации решений заданий по sql injection на одном из популярных CTF ресурсов. В статье зайдем немного дальше, чем просто модификация risk-level «if you know what i mean». Задания не будут полностью разобраны для решения, флаги необходимо найти самостоятельно.

Также будет продемонстрировано, как можно самостоятельно изменять инструменты для покрытия большего количества уязвимостей в веб.

Читать далее

+6

io_io 18 авг 2015 в 12:08

Как легко понять логистическую регрессию

5 мин

251K

Блог компании .ioBig Data * Анализ и проектирование систем * Машинное обучение *

Перевод

Логистическая регрессия является одним из статистических методов классификации с использованием линейного дискриминанта Фишера. Также она входит в топ часто используемых алгоритмов в науке о данных. В этой статье суть логистической регрессии описана так, что она станет понятна даже людям не очень близким к статистике.

Читать дальше →

+12

jzha 21 июн 2016 в 22:24

Составы команд на Евро 2016: сравнение европейских футбольных лиг

3 мин

16K

R * Визуализация данных * Открытые данные *

Внимание, футбол на Хабре! Вот этот пост побудил меня загрузить данные о распределении игроков команд-участниц Евро 2016 по национальным лигам, в которых они выступают. На значимый турнир в национальные сборные вызывают сильнейших на данный момент футболистов. По этой выборке мы можем сравнить между собой европейские футбольные первенства. Какие лиги самые представительные на Евро 2016 и за счет чьих сборных? Под катом графики (трафик) и немного рассуждений. Свисток, игра началась!

Читать дальше →

+8

aledovskiy 20 апр 2013 в 09:24

Статистические тесты в R. Часть 3: Тесты количественных данных

3 мин

24K

R * Математика *

Это третья статья в серии о применении R для статистического анализа данных, в которой будут разбираться представление и тестирование количественных данных. Вы узнаете как быстро и наглядно представить данные, а также как использовать t-тест в R.

Часть 1: Бинарная классифиация
Часть 2: Анализ качественных данных

Поехали!

Читать дальше →

+20

aledovskiy 22 фев 2013 в 22:27

Статистические тесты в R. Часть 2: Тесты качественных данных

4 мин

22K

R * Математика *

Эта статья — продолжение первой части. В этой серии статей я рассматриваю применение набирающего популярность языка программирования R для решения распространенных статистических задач.

В данной и следующей статье я показываю как выбрать для обработки качественных и количественных данных правильные тесты и реализовать их в R. Данные методы позволяют получить реальное представление об объекте, процессе или явлении по какому-либо параметру, т.е. позволяют сказать «хорошо» или «плохо». Они не потребуют глубоких знаний программирования и статистики, и пригодятся людям различного рода деятельности.

Заинтересовались? Добро пожаловать под кат!

Читать дальше →

+5

aledovskiy 28 янв 2013 в 10:20

Статистические тесты в R. Часть 1: Бинарная классификация

5 мин

26K

Из песочницы

Доброго времени суток. Хочу поделиться своими знаниями о работе со статистикой в R.
Многим из нас приходится сталкиваться с различными данными на работе и в повседневной жизни. Качественно и правильно их обработать и проанализировать не так сложно. В этой серии статей я покажу применения некоторых статистических тестов.

Заинтересовались? Добро пожаловать под кат.

Читать дальше →

+13

kxx 5 фев 2016 в 01:02

Как уменьшить количество измерений и извлечь из этого пользу

10 мин

59K

Программирование * Машинное обучение * R * Data Mining * Big Data *

Сначала я хотел честно и подробно написать о методах снижения размерности данных — PCA, ICA, NMF, вывалить кучу формул и сказать, какую же важную роль играет SVD во всем этом зоопарке. Потом понял, что получится текст, похожий на вырезки из опусов от Mathgen, поэтому количество формул свел к минимуму, но самое любимое — код и картинки — оставил в полном объеме.

Читать дальше →

+24

JamaGava 30 сен 2016 в 07:46

«Правда, чистая правда и статистика» или «15 распределений вероятности на все случаи жизни»

15 мин

324K

Алгоритмы * Анализ и проектирование систем * Занимательные задачкиМатематика *

Туториал

Статистика приходит к нам на помощь при решении многих задач, например: когда нет возможности построить детерминированную модель, когда слишком много факторов или когда нам необходимо оценить правдоподобие построенной модели с учётом имеющихся данных. Отношение к статистике неоднозначное. Есть мнение, что существует три вида лжи: ложь, наглая ложь и статистика. С другой стороны, многие «пользователи» статистики слишком ей верят, не понимая до конца, как она работает: применяя, например, тест Стьюдента к любым данным без проверки их нормальности. Такая небрежность способна порождать серьёзные ошибки и превращать «поклонников» теста Стьюдента в ненавистников статистики. Попробуем поставить точки над i и разобраться, какие модели случайных величин должны использоваться для описания тех или иных явлений и какая между ними существует генетическая связь.

Читать дальше →

+30

qc-enior 15 мая 2016 в 15:23

R: обработка пропущенных значений

6 мин

31K

Блог компании Инфопульс УкраинаData Mining * R *

Перевод

Пропущенные значения в данных — обычное в реальных задачах явление. Нужно знать, как эффективно работать с ними, если цель — уменьшить погрешность и построить точную модель. Давайте рассмотрим разные варианты обработки пропущенных значений и их реализацию.

Читать дальше →

+12

Alexey_mosc 28 июн 2016 в 22:37

Методические заметки об отборе информативных признаков (feature selection)

39 мин

24K

Блог компании Align Technology, R&DR * Data Mining *

Всем привет!

Меня зовут Алексей Бурнаков. Я Data Scientist в компании Align Technology. В этом материале я расскажу вам о подходах к feature selection, которые мы практикуем в ходе экспериментов по анализу данных.

В нашей компании статистики и инженеры machine learning анализируют большие объемы клинической информации, связанные с лечением пациентов. В двух словах смысл этой статьи можно свести к извлечению ценных крупиц знания, содержащихся в небольшой доле доступных нам зашумленных и избыточных гигабайтов данных.

Данная статья предназначена для статистиков, инженеров машинного обучения и специалистов, которые интересуются вопросами обнаружения зависимостей в наборах данных. Также материал, изложенный в статье, может быть интересен широкому кругу читателей, неравнодушных к data mining. В материале не будут затронуты вопросы feature engineering и, в частности, применения таких методов как анализ главных компонент.

Источник.

Читать дальше →

+17

i_shutov 7 сен 2016 в 11:55

Джентельменский набор пакетов R для автоматизации бизнес-задач

3 мин

14K

Big Data * Data Mining * R *

Продолжение предыдущих публикаций «Инструменты DataScience как альтернатива классической интеграции ИТ систем» и
«Экосистема R как инструмент для автоматизации бизнес-задач».
Настоящая статья является ответом на возникшие вопросы по пакетам R, которые полезны для реализации описанных подходов. Я ее рассматриваю исключительно как справочную информацию, и отправную точку для последующего детального изучения заинтересовавшимися, поскольку за каждым пакетом скрывается огромное пространство со своей философией и идеологией, математикой и путями развития.

Как правило, все пакеты (9109 штук на 07.09.2016) находятся в репозитории CRAN. Те, что по тем или иным причинам, пока не опубликованы в репозиторий, могут быть найдены на GitHub. Итак, кратким списком:

Читать дальше →

+18

Anatoliy_Karpov 29 сен 2016 в 16:38

О степенях свободы в статистике

8 мин

269K

Блог компании Stepik.orgData Mining * R * Машинное обучение *

В одном из предыдущих постов мы обсудили, пожалуй, центральное понятие в анализе данных и проверке гипотез — p-уровень значимости. Если мы не применяем байесовский подход, то именно значение p-value мы используем для принятия решения о том, достаточно ли у нас оснований отклонить нулевую гипотезу нашего исследования, т.е. гордо заявить миру, что у нас были получены статистически значимые различия.

Однако в большинстве статистических тестов, используемых для проверки гипотез, (например, t-тест, регрессионный анализ, дисперсионный анализ) рядом с p-value всегда соседствует такой показатель как число степеней свободы, он же degrees of freedom или просто сокращенно df, о нем мы сегодня и поговорим.

Читать дальше →

+27

chersanya 10 янв 2013 в 14:46

Визуализация статистики использования компьютера с R

6 мин

21K

Data Mining * Python * R *

Думаю, многим интересно (хотя бы из любопытства), как именно они используют свой компьютер: самые нажимаемые кнопки, пройденное мышью расстояние, среднее время работы и другую информацию. В этой статье я расскажу один из вариантов того, как можно собрать такую информацию и затем представить её в виде интерактивных графиков. Все описанные действия производились на ноутбуке с ОС Debian Wheezy, Python 2.7.3, R 2.15.

Подробнее, с картинками и ссылками

+39

DeMoerto 25 сен 2013 в 10:00

Оценка результатов линейной регрессии

6 мин

112K

Data Mining * Математика * R *

Из песочницы

Введение

Сегодня уже все, кто хоть немного интересуется дата майнингом, наверняка слышали про простую линейную регрессию. Про нее уже писали на хабре, а также подробно рассказывал Эндрю Нг в своем известном курсе машинного обучения. Линейная регрессия является одним из базовых и самых простых методов машинного обучения, однако очень редко упоминаются методы оценки качества построенной модели. В этой статье я постараюсь немного исправить это досадное упущение на примере разбора результатов функции summary.lm() в языке R. При этом я постараюсь предоставить необходимые формулы, таким образом все вычисления можно легко запрограммировать на любом другом языке. Эта статья предназначена для тех, кто слышал о том, что можно строить линейную регрессию, но не сталкивался со статистическими процедурами для оценки ее качества.

Читать дальше →

+9

Anatoliy_Karpov 23 июн 2015 в 13:32

Визуализация результатов в R: первые шаги

5 мин

32K

Блог компании Stepik.orgВизуализация данных * R * Data Mining *

В одном из предыдущих постов мы уже писали о центральном понятии в статистике — p-уровне значимости. И пока в научной среде не утихают споры об интерпретации p-value, значительная часть исследований проводится именно с использованием p-value для определения значимости полученных в исследовании различий. Сегодня же мы поговорим о самом творческом этапе обработки данных — как же значимые различия визуализировать.

Читать дальше →

+16

jzha 29 авг 2015 в 07:54

Ко-кластеризация: cегментирование данных вдоль и поперёк

6 мин

11K

Открытые данные * Визуализация данных * R * Data Mining *

Обычно кластеризация подразумевает выделение нескольких групп объектов со схожими характеристиками внутри группы, а между группами — различными. Особенность ко-кластеризации — группирование не только объектов, но и самих характеристик этих объектов. То есть, если данные представлены в виде матрицы, то кластеризация — это перегруппировка строк или столбцов матрицы, а ко-кластеризация — перегруппировка и строк и столбцов матрицы данных.
Как и в предыдущих моих публикациях, примеры использования методов и визуализация решений показаны на данных результатов опросов. Типичная область применения алгоритмов ко-кластеризации — биоинформатика, сегментирование изображений, анализ текстов.

Читать дальше →

+9

qc-enior 3 ноя 2015 в 06:37

Визуализация статических и динамических сетей на R, часть 7, последняя

8 мин

6.4K

Блог компании Инфопульс УкраинаData Mining * R * Визуализация данных *

Перевод

В первой части:

визуализация сетей: зачем? каким образом?
параметры визуализации
best practices — эстетика и производительность
форматы данных и подготовка
описание наборов данных, которые используются в примерах
начало работы с igraph

Во второй части: цвета и шрифты в графиках R.

В третьей части: параметры графов, вершин и ребер.

В четвертой части: размещения сети.

В пятой части: акцентирование свойств сети, вершин, ребер, путей.

В шестой части: интерактивная визуализация сетей, другие способы представления сети.

В этой части: анимированная визуализация сетей, эволюция сети во времени.

Читать дальше →

+10

1