Обновить
36

Пользователь

27
Подписчики
Отправить сообщение

Новые возможности Хабра: как отписаться от пользователей и рекламных блогов

Время на прочтение2 мин
Охват и читатели14K
Многие на Хабре спрашивают, как отфильтровать посты отдельных авторов и корпоративных блогов. Совсем недавно эта возможность появилась – правда, для этого необходима последняя версия блокировщика Adblock.


Для тех, кому не хочется читать дальше, просто приведу код фильтра Adblock для отписки от постов одного из авторов.

geektimes.ru#?#li:-abp-has(a.user-info[href*="username"])

Правда, работает это не во всех браузерах, и не во всех случаях. Для тех, кому интересно, как и когда это работает, прошу под кат.
Читать дальше →

Как делать научные предсказания

Время на прочтение5 мин
Охват и читатели18K


Предсказания, а не случайность

Как сделать предсказания любых событий так, чтобы тебе поверили серьезные учёные, ты стал знаменитым и получил нобелевку? Это очень просто: надо убедить учёных в том, что твои предсказания – это именно предсказания, а не случайность. Для этого вполне хватит школьного курса теории вероятностей. Итак, на надо выполнить лишь три пункта.
Читать дальше →

Fbi Detected: Как я обнаружил агентов ФБР

Время на прочтение3 мин
Охват и читатели54K
В новом выпуске «Черной археологии датамайнинга» мы немного поиграемся в шпионов. Увидим, что может узнать обычный Data Specialist на основе открытых в сети данных.

Всё началось со статьи на хабре, о том, что некий анонимный хакер делился слитыми в сеть данными агентов ФБР. Я получил эти данные, и стал смотреть, что с ними можно сделать? В данных есть только фамилия, имя, и служебные мейлы и телефон – немного информации.



Получив эти данные, я увидел, что они заканчиваются буквой J. То есть, датасет не полон. Интресено, каков его полный размер? Чтобы узнать его, надо построить статистику частоты встречаемости фамилий.

Для этого я начал искать наборы американских фамилий, и тут меня ждало открытие – в Америке можно найти открытые данные по, скажем, избирателям штата – как я понял, совершенно легально. Например, я за полчаса без проблем получаю данные всех избирателей штата Юта.

Читать дальше →

Нужен ли человек для построения самообучающихся моделей?

Время на прочтение3 мин
Охват и читатели6.7K

Ещё один шаг в самообучении машин





Конечно, в Data Science существует множество самообучающихся моделей, но действительно ли они являются таковыми? На самом деле, нет: сейчас в машинном обучении сложилась ситуация, когда человеческий фактор играет решающую роль в построении эффективных моделей.

Data Science сейчас представляет собой некий сплав науки и интуиции, потому что не существует формализованного знания о том, как правильно предобрабатывать предикторы, какую модель выбрать из десятков существующих, и как настраивать множество параметров в этой модели. Всё это плохо поддается формализации, и поэтому получается парадоксальная ситуация – машинное обучение требует человеческого фактора.

Именно человек должен выстроить цепочку обучения, и настроить параметры, которые легко могут превратить самую лучшую модель в абсолютно бесполезную. Построение этой цепочки, превращающей исходные данные в предсказательную модель – может занимать несколько недель, в зависимости от сложности задачи, и часто делается просто методом проб и ошибок.

Это серьезный недостаток, и поэтому возникла идея: может ли машинное обучение — обучить себя тому же, что делает человек? Такая система была создана, и удивительно, что эта новость еще не добралась до хабрасообщества!

Читать дальше →

Обход блокировок adblock, и блокировка обхода блокировки

Время на прочтение2 мин
Охват и читатели94K
В статье рассматривается один из эффективных методов противодействию adblock, и обход этого метода. Этот круг вечен – но, похоже, рекламщики вырвались вперёд!



Как-то раз на одном сайте администрация вежливо попросила пользователей добавить сайт в исключения адблока. Я, как сознательный пользователь, это сделал – но появившаяся реклама через какое-то время стала совсем не похожа на допустимую рекламу, и я включил адблок снова. К моему удивлению, реклама не исчезла – и я стал разбираться, в чём тут дело.
Читать дальше →

Tor для всех: если заблокируют сайт torproject

Время на прочтение2 мин
Охват и читатели69K
Что делать, если у вас в стране запретили Тор, и заблокировали все ссылки, ведущие на проект torproject? Где скачать Tor-браузер человеку, совершенно не разбирающемуся в IT? На этот случай сообщество, развивающее эту сеть, предлагает сервис GetTor Robot. Это почтовый робот, который в ответ на мейл-запрос присылает ссылки на облачные файловые хранилища с дистрибутивом браузера.

Читать дальше →

Чёрная археология датамайнинга: насколько опасны «сливы» больших данных

Время на прочтение3 мин
Охват и читатели20K
В 2014 году в сеть утекла большая, на 6 млн. записей, база паролей различных почтовых сервисов. Давайте посмотрим, насколько эти пароли актуальны сейчас, в 2015 году.


Читать дальше →

Черная археология датамайнинга: что может быть эффективнее атаки по словарю?

Время на прочтение5 мин
Охват и читатели16K
Для тех, кому лениво читать дальше, сразу скажу ответ: атака «логин равен паролю». По статистике, логин равный паролю встречается чаще, чем самый распространенный пароль из словаря. Далее в статье будут некоторые статистические исследования на эту тему, и история, с которой всё началось.



Читать дальше →

Черная археология дата майнинга

Время на прочтение4 мин
Охват и читатели28K
Есть темы, по которым очень мало статей по специальности data science, но которые представляют интерес для специалистов по безопасности. Это статистические исследования логинов и паролей пользователей – данные, добытые «черными археологами» дата майнинга.

image

Мне было интересно посмотреть некоторые закономерности и для этой цели я взял базу данных паролей, утёкших в 2014 году – от Яндекса, Гугла и Мейлру, объемом 6 миллионов записей.
Читать дальше →

Информация

В рейтинге
Не участвует
Откуда
Москва, Москва и Московская обл., Россия
Зарегистрирован
Активность