Как стать автором
Поиск
Написать публикацию
Обновить
105.11

Big Data *

Большие данные и всё о них

Сначала показывать
Порог рейтинга
Уровень сложности

Освоение специальности Data Science на Coursera: личный опыт (ч.1)

Время на прочтение9 мин
Количество просмотров72K


Недавно Владимир Подольский vpodolskiy, аналитик в департаменте по работе с образованием IBS, закончил обучение по специализации Data Science на Coursera. Это набор из 9 курсеровских курсов от Университета Джонса Хопкинса + дипломная работа, успешное завершение которых дает право на сертификат. Для нашего блога на Хабре он написал подробный пост о своей учебе. Для удобства мы разбили его на 2 части. Добавим, что Владимир  стал еще и редактором проекта по переводу специализации Data Science на русский язык, который весной запустили IBS и ABBYY LS.

Часть 1. О специальности Data Science в общих чертах. Курсы: Инструменты анализа данных (программирование на R); Предварительная обработка данных; Документирование процесса обработки данных.

Привет, Хабр!


Не так давно закончился мой 7-месячный марафон по освоению специализации «Наука о данных» (Data Science) на Coursera. Организационные стороны освоения специальности очень точно описаны тут. В своём посте я поделюсь впечатлениями от контента курсов. Надеюсь, после прочтения этой заметки каждый сможет сделать для себя выводы о том, стоит ли тратить время на получение знаний по аналитике данных или нет.
Читать дальше →
Конференций много – это факт. Разнообразных выставок, отраслевых встреч и обсуждений, форумов с именитыми гостями и деловых премий в двух столичных городах – на любой вкус. Но мы хотим сейчас рассказать об одном особенном мероприятии, проходящем в этом году уже двенадцатый раз – ежегодном деловом форуме «IT-ЛИДЕР». Организаторы мероприятия - Ассоциация Менеджеров России, информационный ресурс ibusiness, Ъ-iOne и КоммерсантЪ Деньги, деловой ИТ-журнал Intelligent Enterprise и компания КРОК, крупный системный интегратор, работающий в широком спектре индустрий.
Читать далее

Приглашаем на Media Hack Weekend. 16-18 октября, Киев

Время на прочтение1 мин
Количество просмотров2.9K
16-18 октября в рамках проекта Future Media Lab состоится самый масштабный хакатон на территории Украины – Media Hack Weekend. Около 400 талантливых специалистов, экспертов и предпринимателей соберутся, чтобы решить, как будут выглядеть медиа будущего. Среди направлений хакатона: большие данные, виртуальная и дополненная реальность, электронная коммерция, трансмедийный сторителлинг, дизайн и разработка приложений, создание игрового контента и многое другое.
Эксперты из компании Intel также будут присутствовать на мероприятии. Они ответят на ваши вопросы по технологиям Intel, дадут консультацию по дальнейшему развитию вашего продукта. Воспользуйтесь своим шансом начать успешный проект с грамотных советов специалистов Intel!
Зарегистрироваться на Хакатон.

Тренды мирового e-commerce рынка в 2015-2016 годах

Время на прочтение7 мин
Количество просмотров23K
Рынок электронной коммерции и в мире и в рунете очень активно развивается, не смотря на кризисы и другие негативные явления. В мире в год средние темпы роста по данным eMarketer составляют около 18-20% в год, в России и Украине темпы роста доходят до 17-18%. Это примерно 3-4% от общего ритейла в России (в Украине чуть меньше, рынок развит меньше и сейчас глубокий кризис) и до 10-12% в США и других развитых странах. Средний уровень в мире составляет примерно 6%. Единственное исключение, в прошлом году в Украине из-за глубокого экономического кризиса рынок не вырос в долларовом эквиваленте, но для местных компаний это шанс нагнать упущенное раньше. Самое интересное, что мы все еще находимся в стадии зарождения рынка. По многим прогнозам доля электронной коммерции в общем ритейле достигнет 20% в ближайшие несколько лет. Для компаний данного сектора игнорирование этого рынка сегодня равносильно смерти завтра.



Интересен также и тот факт, что многие крупнейшие игроки электронной коммерции в США имеют оффлайн-корни, а США – это некая лакмусовая бумажка, катализатор рынка, который нам показывает, что произойдет на наших рынках в этом же сегменте через 3-5 лет. Этому уже есть подтверждение: в России ряд крупных интернет-магазинов уже давно принадлежат крупным оффлайн-сетям и поглощения продолжаются. В Украине с этим сложнее, хотя это процесс активно идет, так несколько месяцев назад компания «Фокстрот» выкупила 100% интернет-магазина Sokol.ua

Mobile commerce
Читать дальше →

Две задачи HeadHunter на Data Science Week: попробуйте решить сами

Время на прочтение5 мин
Количество просмотров33K
В конце августа после серии бесплатных лекций на Data Science Week 2015, организаторы решили провести двухдневный дататон (datathon) – соревнование, где команды программистов и аналитиков решали бизнес-задачи из области Data Science.

На дататоне было три задачи, две из которых подготовила команда HeadHunter и одну компания OZON. Это было, сразу скажу, не самым простым заданием, потому как большая часть наших данных конфиденциальна. Никто не захочет, чтобы программисты и аналитики упражнялись на реальных резюме или закрытых данных по вакансиям. Но кое-что мы все же собрали. Для проверки результатов организаторы придумали метрики и написали чекеры. А победили на дататоне эти ребята:



Прямо здесь и сейчас я предлагаю вам испытать свои силы и решить три задачи, с которыми ребята бились на дататоне. Чекеры для проверки и все файлы прилагаю.
Читать дальше →

AI, BigData & HPC Digest #2

Время на прочтение2 мин
Количество просмотров6.6K
Привет, Хабр!

После короткого перерыва, наша команда FlyElephant возобновляет публикацию дайджеста включающего в себя подборку ссылок на новости и материалы по направлениям: искусственный интеллект, большие данные и высокопроизводительные вычисления. Также мы сейчас проводим опрос среди ученых, в котором просим ответить на пару вопросов связанных с их процессом проведения исследований. Будем благодарны всем за участие в опросе и приятного чтения материалов свежего дайджеста!


Читать дальше →

Big Data от А до Я. Часть 2: Hadoop

Время на прочтение9 мин
Количество просмотров237K
Привет, Хабр! В предыдущей статье мы рассмотрели парадигму параллельных вычислений MapReduce. В этой статье мы перейдём от теории к практике и рассмотрим Hadoop – мощный инструментарий для работы с большими данными от Apache foundation.

В статье описано, какие инструменты и средства включает в себя Hadoop, каким образом установить Hadoop у себя, приведены инструкции и примеры разработки MapReduce-программ под Hadoop.


Читать дальше →

Файловая система и Hadoop: Опыт Twitter (Часть 1)

Время на прочтение2 мин
Количество просмотров12K
Наш основной принцип работы заключается в том, что IaaS должен быть простым и понятным даже для тех, кто не сталкивался с ИТ-сферой. Поэтому мы проводим постоянную оптимизацию всех систем и рассказываем о том, что нам удалось сделать, в нашем блоге на Хабре.

Пара примеров:


Сегодня мы решили взглянуть на западный опыт и кратко проанализировать заметку команды инженеров Twitter, в которой они рассказали о своем подходе к работе с файловой системой для кластеров Hadoop.

Читать дальше →

Переход из SQL на NoSQL: опыт проекта СМЭВ 2.0

Время на прочтение4 мин
Количество просмотров36K
В последние годы NoSQL и BigData стали очень популярными в ИТ-индустрии, и на базе NoSQL успешно реализованы тысячи проектов. Часто на разных конференциях и форумах слушатели задают вопрос о том, как модернизировать или перенести старые системы (legacy) в NoSQL. К счастью, у нас был опыт перехода из SQL на NoSQL в крупном проекте СМЭВ 2.0, о котором я и расскажу под катом.


Читать дальше →

Утилиты командной строки могут быть в 235-раз быстрее вашего Hadoop кластера

Время на прочтение7 мин
Количество просмотров46K
Примечания tsafin:

Перед публикацией своего цикла статей по MapReduce в Caché, мне показалось важным озвучить данную прошлогоднюю точку зрения из статьи Адама Дрейка «Command-line tools can be 235x faster than your Hadoop cluster». К сожалению оригинальная статья Тома Хайдена, на которую он ссылается стала уже недоступна на сайте Тома, но её, по-прежнему, можно найти в архивах. Для полноты картины предлагаю ознакомиться и с ней тоже.

Введение


Посещая в очередной раз свои любимые сайты, я нашел крутую статью Тома Хайдена об использовании Amazon Elastic Map Reduce (EMR) и mrjob для вычисления статистики отношения выигрыш/проигрыш в наборе данных со статистикой по шахматным матчам, которую он скачал с сайта millionbase archive, и c которой он начал играться используя EMR. Так как объем данных был всего 1.75GB, описывающий 2 миллиона шахматных партий, то я скептически отнесся к использованию Hadoop для данной задачи, хотя были и понятны его намерения просто поиграться и изучить плотнее, на реальном примере, утилиту mrjob и инфраструктуру EMR.
Читать дальше →

Big Data и Machine Learning? Вам на HighLoad++

Время на прочтение8 мин
Количество просмотров15K


Вопреки названию и первому впечатлению, которое возникает у большинства обывателей — «Big Data» не является просто «большими данными» и даже не объединяет под собой все массивы с неограниченными (или постоянно обновляющимися и расширяющимися) данными.

На самом деле «Big Data» — это в первую очередь подходы, инструменты и методы обработки непосредственно данных. Которые, в свою очередь, чаще всего не структурированы, многообразны и разнородны.

И, что наиболее важно, «Big Data» — это новая секция 2015 года в рамках программы HighLoad++, впервые предложенная, к слову, именно на встрече докладчиков. Первые, единичные, доклады, появились еще в прошлых годах:


Читать дальше →

Big Data от А до Я. Часть 1: Принципы работы с большими данными, парадигма MapReduce

Время на прочтение6 мин
Количество просмотров525K

Привет, Хабр! Этой статьёй я открываю цикл материалов, посвящённых работе с большими данными. Зачем? Хочется сохранить накопленный опыт, свой и команды, так скажем, в энциклопедическом формате – наверняка кому-то он будет полезен.



Проблематику больших данных постараемся описывать с разных сторон: основные принципы работы с данными, инструменты, примеры решения практических задач. Отдельное внимание окажем теме машинного обучения.



Начинать надо от простого к сложному, поэтому первая статья – о принципах работы с большими данными и парадигме MapReduce.


Читать дальше →

IBM Research планирует создать надежную методику раннего диагностирования слабоумия при помощи смартфонов

Время на прочтение3 мин
Количество просмотров5K


К сожалению, излечению такое заболевание, как слабоумие (деменция), не поддается. Тем не менее, ранняя диагностика и соответствующий уход позволяют значительно улучшить качество жизни как пациента, так и его близких. С 2012 года специалисты подразделения IBM Research занимаются разработкой методов определения вероятности получения такого заболевания определенным человеком, а также ранней диагностики деменции.

В наши дни в качестве надежного инструмента для проведения исследований и диагностики можно использовать мобильное устройство — планшет или смартфон. И ученые из IBM сейчас работают именно с такими устройствами в рамках проекта DemCare. Главой проекта является Аарон Сатт.
Читать дальше →

Ближайшие события

Тысяча и один блистер. Поиск лекарств с завышенной ценой

Время на прочтение3 мин
Количество просмотров41K
Недавно Минздрав выложил таблицу с предельными ценами на жизненно необходимые лекарства, я неслабо заморочился и проверил как часто эти пределы в Москве превышаются.


Читать дальше →

Как я участвовал в конкурсе Сбербанка про предсказание оттока клиентов

Время на прочтение4 мин
Количество просмотров33K
В рамках ICBDA 2015 Сбербанк проводил конкурс про предсказание оттока своих клиентов. Я неслабо заморочился по этому поводу, ничего не выиграл и тем не менее хотел бы описать процесс решения.

Читать дальше →

Разбор задачи Digit Recognizer соревнования Kaggle

Время на прочтение11 мин
Количество просмотров14K
Привет, хабр!



Как и обещал, продолжаю публикацию разборов задач, которые я прорешал за время работы с ребятами из MLClass.ru. В этот раз мы разберем метод главных компонент на примере известной задачи распознавания цифр Digit Recognizer с платформы Kaggle. Статья будет полезна новичкам, которые еще только начинают изучать анализ данных. Кстати, еще не поздно записаться на курс Прикладной анализ данных, получив возможность максимально быстро прокачаться в данной области.
Читать дальше →

SYNful knock на ОС маршрутизаторов Cisco Systems

Время на прочтение1 мин
Количество просмотров7.7K
Специалисты по работе с проблемами информационной безопасности компании FireEye опубликовали отчет о вредоносной модификации инфраструктурных решений от Cisco. С помощью данного backdoor-патча злоумышленники собирали огромные объемы данных и оставались незамеченными.

Читать дальше →

Об одной задаче Data Science

Время на прочтение7 мин
Количество просмотров23K
Привет, хабр!



Как и обещал, продолжаю публикацию статей, в которой описываю свой опыт после прохождения обучения по Data Science от ребят из MLClass.ru (кстати, кто еще не успел — рекомендую зарегистрироваться). В этот раз мы на примере задачи Digit Recognizer изучим влияние размера обучающей выборки на качество алгоритма машинного обучения. Это один из самых первых и основных вопросов, которые возникают при построении предиктивной модели
Читать дальше →

Зaчем мне AshleyMadison, если я не курю?

Время на прочтение5 мин
Количество просмотров31K
Как вы все уже наверное знаете, недавно были выложены дампы баз AshleyMadison. Я решил не упускать возможность и проанализировать реальные данные дейтинг платформы. Попробуем предсказать платежеспособность клиента по его характиристикам таким как возраст, рост, вес, привычки и т.д.



Попробуем?
Читать дальше →

HighLoad++ — это блюдо, которое подают высоконагруженным

Время на прочтение6 мин
Количество просмотров21K


Пожалуй главным отличием конференции разработчиков высоконагруженных систем HighLoad++ от многих других является отсутствие скрытых целей. За нами не стоит ни одного лица или организации, которая бы навязывала правила игры или занималась хантингом на мероприятии, типа:
  • Крупной компании
  • Толстосума-спонсора
  • Государственных структур

Уже долгие годы HighLoad++ остается событием, которое одни разработчики организуют для других разработчиков.

Девять лет назад мы приняли для себя несколько строгих правил, которым стараемся неукоснительно следовать. Не будем перечислять их все — для этого еще придёт время, назовем лишь основные.
Читать дальше →

Вклад авторов