Статьи / Профиль caveeagle / Хабр

@caveeagle

Пользователь

Подписчики

ПрофильСтатьи9ПостыНовостиКомментарии320

caveeagle 16 ноя 2017 в 09:33

Новые возможности Хабра: как отписаться от пользователей и рекламных блогов

2 мин

14K

Habr

Туториал

Многие на Хабре спрашивают, как отфильтровать посты отдельных авторов и корпоративных блогов. Совсем недавно эта возможность появилась – правда, для этого необходима последняя версия блокировщика Adblock.

Для тех, кому не хочется читать дальше, просто приведу код фильтра Adblock для отписки от постов одного из авторов.

geektimes.ru#?#li:-abp-has(a.user-info[href*="username"])

Правда, работает это не во всех браузерах, и не во всех случаях. Для тех, кому интересно, как и когда это работает, прошу под кат.

Читать дальше →

+34

caveeagle 19 сен 2016 в 16:17

Как делать научные предсказания

5 мин

18K

Научно-популярное

Предсказания, а не случайность

Как сделать предсказания любых событий так, чтобы тебе поверили серьезные учёные, ты стал знаменитым и получил нобелевку? Это очень просто: надо убедить учёных в том, что твои предсказания – это именно предсказания, а не случайность. Для этого вполне хватит школьного курса теории вероятностей. Итак, на надо выполнить лишь три пункта.

Читать дальше →

+43

caveeagle 24 мар 2016 в 09:01

Fbi Detected: Как я обнаружил агентов ФБР

3 мин

54K

Информационная безопасность * Data Mining * Big Data *

В новом выпуске «Черной археологии датамайнинга» мы немного поиграемся в шпионов. Увидим, что может узнать обычный Data Specialist на основе открытых в сети данных.

Всё началось со статьи на хабре, о том, что некий анонимный хакер делился слитыми в сеть данными агентов ФБР. Я получил эти данные, и стал смотреть, что с ними можно сделать? В данных есть только фамилия, имя, и служебные мейлы и телефон – немного информации.

Получив эти данные, я увидел, что они заканчиваются буквой J. То есть, датасет не полон. Интресено, каков его полный размер? Чтобы узнать его, надо построить статистику частоты встречаемости фамилий.

Для этого я начал искать наборы американских фамилий, и тут меня ждало открытие – в Америке можно найти открытые данные по, скажем, избирателям штата – как я понял, совершенно легально. Например, я за полчаса без проблем получаю данные всех избирателей штата Юта.

Читать дальше →

+52

caveeagle 16 дек 2015 в 10:18

Нужен ли человек для построения самообучающихся моделей?

3 мин

6.7K

Искусственный интеллект

Ещё один шаг в самообучении машин

Конечно, в Data Science существует множество самообучающихся моделей, но действительно ли они являются таковыми? На самом деле, нет: сейчас в машинном обучении сложилась ситуация, когда человеческий фактор играет решающую роль в построении эффективных моделей.

Data Science сейчас представляет собой некий сплав науки и интуиции, потому что не существует формализованного знания о том, как правильно предобрабатывать предикторы, какую модель выбрать из десятков существующих, и как настраивать множество параметров в этой модели. Всё это плохо поддается формализации, и поэтому получается парадоксальная ситуация – машинное обучение требует человеческого фактора.

Именно человек должен выстроить цепочку обучения, и настроить параметры, которые легко могут превратить самую лучшую модель в абсолютно бесполезную. Построение этой цепочки, превращающей исходные данные в предсказательную модель – может занимать несколько недель, в зависимости от сложности задачи, и часто делается просто методом проб и ошибок.

Это серьезный недостаток, и поэтому возникла идея: может ли машинное обучение — обучить себя тому же, что делает человек? Такая система была создана, и удивительно, что эта новость еще не добралась до хабрасообщества!

Читать дальше →

caveeagle 6 ноя 2015 в 16:20

Обход блокировок adblock, и блокировка обхода блокировки

2 мин

94K

IT-компанииСофт

Recovery Mode

В статье рассматривается один из эффективных методов противодействию adblock, и обход этого метода. Этот круг вечен – но, похоже, рекламщики вырвались вперёд!

Как-то раз на одном сайте администрация вежливо попросила пользователей добавить сайт в исключения адблока. Я, как сознательный пользователь, это сделал – но появившаяся реклама через какое-то время стала совсем не похожа на допустимую рекламу, и я включил адблок снова. К моему удивлению, реклама не исчезла – и я стал разбираться, в чём тут дело.

Читать дальше →

+27

114

caveeagle 10 авг 2015 в 12:54

Tor для всех: если заблокируют сайт torproject

2 мин

69K

Информационная безопасность *

Что делать, если у вас в стране запретили Тор, и заблокировали все ссылки, ведущие на проект torproject? Где скачать Tor-браузер человеку, совершенно не разбирающемуся в IT? На этот случай сообщество, развивающее эту сеть, предлагает сервис GetTor Robot. Это почтовый робот, который в ответ на мейл-запрос присылает ссылки на облачные файловые хранилища с дистрибутивом браузера.

Читать дальше →

+24

caveeagle 13 июл 2015 в 11:00

Чёрная археология датамайнинга: насколько опасны «сливы» больших данных

3 мин

20K

Информационная безопасность * R * Data Mining * Big Data *

В 2014 году в сеть утекла большая, на 6 млн. записей, база паролей различных почтовых сервисов. Давайте посмотрим, насколько эти пароли актуальны сейчас, в 2015 году.

Читать дальше →

+13

caveeagle 28 июн 2015 в 19:02

Черная археология датамайнинга: что может быть эффективнее атаки по словарю?

5 мин

16K

Big Data * Data Mining * R * Информационная безопасность *

Для тех, кому лениво читать дальше, сразу скажу ответ: атака «логин равен паролю». По статистике, логин равный паролю встречается чаще, чем самый распространенный пароль из словаря. Далее в статье будут некоторые статистические исследования на эту тему, и история, с которой всё началось.

Читать дальше →

+13

caveeagle 19 июн 2015 в 19:31

Черная археология дата майнинга

4 мин

28K

Big Data * Data Mining * Информационная безопасность *

Из песочницы

Есть темы, по которым очень мало статей по специальности data science, но которые представляют интерес для специалистов по безопасности. Это статистические исследования логинов и паролей пользователей – данные, добытые «черными археологами» дата майнинга.

Мне было интересно посмотреть некоторые закономерности и для этой цели я взял базу данных паролей, утёкших в 2014 году – от Яндекса, Гугла и Мейлру, объемом 6 миллионов записей.

Читать дальше →

+10