Как стать автором
Поиск
Написать публикацию
Обновить
82.16

Big Data *

Большие данные и всё о них

Сначала показывать
Период
Уровень сложности

Почему незащищенные потребительские системы интернета вещей теперь представляет собой серьезную бизнес-проблему

Время на прочтение4 мин
Количество просмотров2.5K
Привет, хабровчане! Первый в России онлайн-курс IoT-разработчик стартует в OTUS уже в октябре. Прямо сейчас открыт набор на курс, в связи с чем мы традиционно делимся с вами переводом материала по теме.





С большой долей вероятности, в большинстве предприятий найдется хотя бы один сотрудник с уязвимым устройством. Для кибер-преступников достаточно и одного.



В потребительской сфере технология интернета вещей (Internet of Things — IoT) давно славится своей чрезвычайно халтурной секьюрностью.

Сегодня дома наводнены устройствами с подключением к интернету — будь то эспрессо-кофемашина с приложением или камера видеонаблюдения с подключением к Wi-Fi. По данным Statista, в 2020 году на бытовую электронику будет приходиться 63% всех установленных IoT устройств. Эти устройства могут собирать о своих пользователях данные, которые отправляются обратно поставщикам услуг, чтобы помочь улучшить их продукты. Производство этих устройств является прибыльным делом, и по мере роста спроса потребители все чаще покупают более дешевые устройства экономкласса. Проблема в том, что стандарты безопасности у них обычно довольно слабые.
Читать дальше →

Цифровая трансформация: полная свобода самовыражения

Время на прочтение16 мин
Количество просмотров5.8K
Коллеги, вы хорошо понимаете, что такое «цифровая экономика» и чем она отличается от того, что было десять или двадцать лет назад? Мне казалось, что понимаю, пока не появилось время проанализировать, что пишут об этом на просторах суверенного интернета в профессиональных и не очень СМИ. Оказалось, что на рынке основной ИТ-товар — «цифровая трансформация». Ее активно продают оптом или в розницу, т. е. частями по желанию: кому «большие данные», кому «бизнес-анализ», кому «искусственный интеллект».

В соответствии с объемами продаж много пишут. Проанализировал и добавились вопросы:

image alt
  • Пишут-то много, но каков профессиональный уровень этих текстов? Он вас удовлетворяет?
  • Новых слов много, но кто их понимает?
  • И, вообще, прогресс есть или нет? Где результат?
  • Если нет, то «кто виноват и что делать»?
  • Куда смотрит государство и что регулирует?
  • ГОСТов много, но кто их использует? И кто их пишет? И вообще, какой от них толк?
  • Не пора ли, если не точно определить основные понятия, то хотя бы прийти к консенсусу?

Даже знаю как: «практика – критерий истины».
Читать дальше →

Avito Analytics meetup

Время на прочтение3 мин
Количество просмотров3K

Привет, Хабр! 30 июня в 18:00 по Москве мы проведём онлайн-митап для аналитиков. Спикеры расскажут про региональные A/B-тесты, управление выдачей товаров в интернет-магазине, предсказание профита от новых фичей и data science в доставке товаров.


Под катом, как и всегда, тезисы докладов и все нужные ссылки.


Читать дальше →

В чем разница между Data Analytics и статистикой

Время на прочтение5 мин
Количество просмотров7.3K
Разбираемся в ценности двух совершенно разных профессий.

image

Статистика и аналитика это два раздела дата сайнс, у которых было много предшественников. Люди до сих пор спорят о том, где проходит граница между ними. На практике современные программы обучения, которые содержат в названиях эти термины, разбирают совершенно разные задачи. Аналитики специализируются на изучении ваших данных, а статистики уделяют больше внимания выводам, которые можно сделать на основе этих данных.

Disclaimer: Эта статья о типичных выпускниках учебных программ, в которых преподают только статистику или только аналитику. Я не хочу задеть тех, кто каким-то образом смог освоить и то и другое. На самом деле лучшие датасаентисты должны иметь отличные знания и в статистике, и в аналитике (и в машинном обучении само собой). Вы удивитесь, но такие специалисты встречаются, правда очень редко.

Человеческие поисковые системы


Когда вы располагаете всеми фактами касательно вашей деятельности, единственная квалификация, которая вам нужна, это здравый смысл. Он позволяет вам задавать вопросы о данных и отвечать на них. Просто поищите ответ.

Хотите прямо сейчас увидеть базовую аналитику в действии? Попробуйте загуглить прогноз погоды. Каждый раз, когда вы пользуетесь поисковой системой, вы занимаетесь базовой аналитикой. Вы получаете данные о погоде и смотрите на них.
Читать дальше →

Где применяются технологии Big Data уже сегодня?

Время на прочтение9 мин
Количество просмотров5.3K
Ежедневно в мире создаётся 2,5 квинтиллиона байтов новых данных — это десять миллионов Blu-Ray-дисков общим весом в четыре Эйфелевы башни.

image

С ростом количества гаджетов, развитием пропускной возможности сотовых и проводных сетей и появлением всё новых информационных технологий, объём экономики данных растёт по экспоненте. А вместе с ней — и возможности, которые работа с большими данными открывает. Работа с биг датой меняет на глазах абсолютно каждую сферу человеческой активности — от развлечений до здравоохранения, от безопасности до продуктов питания.

Сейчас, когда значительная часть человечества в той или иной форме на карантине, самоизоляции, а то и в ситуации экономической неопределённости, самое время взглянуть на то, какую роль большие данные уже играют в нашей жизни, а главное — какую роль они будут играть в ближайшем будущем.
Читать дальше →

dplyr 1.0.0 опубликован на CRAN: Видео обзор новых возможностей и произошедших в нём изменений

Время на прочтение11 мин
Количество просмотров2.9K

dplyr — R пакет, реализующий грамматику манипуляции данными, состоящую из набора согласованных между собой глаголов, которые помогут вам решить наиболее распространенные проблемы манипулирования данными на языке R.


Это один из наиболее популярных и скачиваемых из CRAN пакетов, сегодня им пользуются миллионы аналитиков и специалистов в области науки о данных.



Хедли Викхем работает над интерфейсом dplyr с 2014 года, dplyr это потомок plyr, но более быстрый и изящный по синтаксису. За 6 лет синтаксис и функционал dplyr устаканился, в связи с чем 29 мая был официальный релиз версии 1.0.0.


За 6 недель до релиза Викхем начал публиковать серию статей, что бы постепенно ознакомить многочисленных пользователей dplyr со всеми грядущими изменениями.


В свою очередь я, преследуя туже цель, по большинству статей снимал небольшие видео обзоры, которыми и хотел с вами поделиться.


Эта публикация поможет вам максимально быстро ознакомится со всем, что было изменено или добавлено в dplyr 1.0.0.

Читать дальше →

Что такое «Big Data»?

Время на прочтение5 мин
Количество просмотров26K
Термин «большие данные» или «big data» начал набирать популярность с 2011 года. Сегодня его хотя бы раз слышал каждый. Проблема в том, что часто понятие используют не по определению. Поэтому давайте подробно разберемся, что это такое.

image
Читать дальше →

Структурирование рисков и решений при использовании BigData для получения официальной статистики

Время на прочтение35 мин
Количество просмотров3K
Предисловие переводчика

Материал заинтересовал меня, в первую очередь из-за таблицы ниже:



С учетом того, что статистики (а российские, на генетическом уровне), мягко говоря, не любят все, что отличается от линейной зависимости, эти парни умудрились протащить использование функции активации в параболическом виде для определения степени риска использования BigData в официальной статистике. Молодцы. Естественно, статистики добавили свое примечание к этой работе – «1 Любые ошибки и упущения являются исключительной ответственностью авторов. Мнения, выраженные в этом документе, являются личными и не обязательно отражают официальную позицию Европейской комиссии». Но работу опубликовали. Думаю, на сегодня, этого достаточно, и они (авторы) никому не запрещали находить свои шкалы в этих аспектах.

В работе достаточно структурировано можно разделить, где и каким образом статистические методы отличаются от методов исследования для BigData. На мой взгляд, самая большая польза от этой работы будет при разговоре с заказчиком и для опровержения его высказываний типа:

— А мы собираем сами статистику, что Вы тут еще хотите исследовать?
— А вы нам свои результаты представьте так, чтобы мы их со своей статистикой согласовали. В этом вопросе авторы говорят, что неплохо бы почитать эту работу (3 How big is Big Data? Exploring the role of Big Data in Official Statistics)

В данной работе авторы проставили свое виденье уровня риска. Этот параметр стоит в скобках, не путать со ссылкой на источники.

Второе наблюдение. Авторы используют термин BDS – это аналог понятия BigData. (видимо реверанс официальной статистике).
Читать дальше →

Data Scientist зарешал: составить зависимость вероятности ДТП от стажа вождения и внешних факторов

Время на прочтение4 мин
Количество просмотров3.9K


Считается, что большую часть процессов дата саентист выполняет с помощью готовых библиотечных решений. Но в реальности в типовых задачах нужно уметь проверить, насколько подходит выбранный метод и при необходимости модифицировать его под свои условия. Вместе с Петром Лукьянченко, преподавателем высшей математики для Data Science в OTUS, а в прошлом Team Lead Analytics в Lamoda, мы разбираем, как математика выручает в реальных бизнес-задачах.



Первая из трех частей этой темы посвящена регрессионному анализу.
Читать дальше →

«Золотое сечение» в экономике — 2

Время на прочтение6 мин
Количество просмотров2.5K
Здесь дополняется тема «Золотое сечение» в экономике — что это?», поднятая в прошлой публикации. Подойдем к проблеме предпочтительного распределения ресурсов со стороны, которая еще не затрагивалась.

Возьмем самую простую модель генерации событий: бросание монеты и вероятность выпадения «орла» или «решки». При этом постулируется, что:

Выпадение «орла» или «решки» при каждом отдельном броске равновероятно – 50 на 50%
При большой серии бросков число выпадений каждой из сторон монеты приближается к числу выпадений другой.

Это означает, что, записывая результаты предыдущих выпадений «орла» и ориентируясь на равновесие серии, можно ожидать выпадения «орла» (и невыпадения «решки») как следующего элемента серии с большей или меньшей вероятностью – в зависимости от результатов предыдущих выпадений. Что согласуется с опытом каждого, такую серию проводившего.

Как показывает статистика (для избежание повторов см. примеры графиков в публикации), в разнообразных экономических системах — как и в опытах с монетой — наблюдается некое закономерно-вероятностное распределение расходов. И это эмпирическое распределение расходов крайне интересно представить как диаграмму Лоренца (см. иллюстрацию ниже в «Расходах компании»). При некоторых незначительных погрешностях ее аппроксимации эта кривая превращается в дугу окружности (правая нижняя четверть). Обширный статистический анализ распределения ресурсов свидетельствует о высокой воспроизводимости дуги окружности в разных областях экономики (опять же см. предыдущую публикацию) И степень близости имеющегося распределения расходов к этому эталонному позволяет судить о «здоровье» рассматриваемой экономической системы. Под «здоровьем» здесь понимается выживаемость системы и ее способность к развитию.
Читать дальше →

Bigdata, машинное обучение и нейросети – для руководителей

Время на прочтение11 мин
Количество просмотров15K

Если менеджеру попытаться разобраться в этой области и получить конкретные бизнес-ответы, то, скорее всего, страшно заболит голова и екнет сердце от ощущения ежеминутно упускаемой выгоды.


"AlphaGo обыграл чемпиона по Go" впервые за всю историю человечества, скоро наши улицы заполонят беспилотные автомобили, распознавание лиц и голоса теперь в порядке вещей, а в квартиру к нам завтра постучатся AI-секс-куклы с грудью наивысшего размера с шампанским под мышкой и настраиваемым уровнем интенсивности и продолжительности оргазма.


Все оно так, но что делать-то прямо сейчас. Как на этом заработать в краткосрочной перспективе? Как заложить прочный фундамент на будущее?


Постараюсь дать исчерпывающие ответы на все мучающие вас вопросы, «вскрыть» подводные камни и, главное — здраво оценить риски в AI и научиться ими правильно управлять. Ведь то, что не понимаем, то и не “танцуем”.

Читать дальше →

Как предсказать курс рубля к доллару при помощи SAP Predictive Analytics

Время на прочтение10 мин
Количество просмотров5.2K
SAP в последние годы сфокусировалась на развитии машинного обучения, обработки больших данных и развитии интернета вещей. Это три важнейших технологических направления, которые компания развивает в своих решениях. SAP работает не только над развитием инструментом, но и на применении этих технологий на практике. Наличие большого числа клиентов, автоматизировавших свои бизнес-процесса на продуктах SAP, позволяет анализировать клиентские потребности комплексно, предлагать новые подходы в использовании клиентских данных для увеличения эффективности бизнес-процессов.

Давайте посмотрим, как выглядит анализ данных с использованием инструмента предиктивной аналитики от SAP.

Читать дальше →

3 кейса применения анализа данных в сфере недвижимости. Data Science Week 2017. Обзор. Часть 1

Время на прочтение8 мин
Количество просмотров8.7K
Публикуем обзор первого дня Data Science Week 2017, в течение которого наши спикеры говорили о применении анализа данных в сфере недвижимости.



ЦИАН


Касательно конкретных кейсов применения, освещать тему всего дня начал Павел Тарасов — руководитель отдела машинного обучения в ЦИАН — крупнейшем сервисе по аренде и продаже недвижимости, где публикуется более 65 000 новых объявлений в день, среди которых от 500 до 1000 являются мошенническими. Главная цель злоумышленников — собрать как можно больше звонков для того, чтобы заставить клиента перевести им деньги или, в случае недобросовестных риэлторов, продать какой-то другой продукт.

Для решения данной задачи компанией активно применяется машинное обучение с использованием большого количества факторов: от описания объявления и до цены, при этом наиболее важной фичей являются фотографии. Яркий пример:
Читать дальше →

Ближайшие события

Бесплатные билеты на In-Memory Computing Summit 2017 – Europe

Время на прочтение1 мин
Количество просмотров1.9K
Всем привет! Возможно, вы знаете, что 20-21 июня в Амстердаме пройдет In-Memory Computing Summit 2017 – Europe. Все детали тут.



Мероприятие, ставшее уже традиционным в США, с этого года также будет ежегодно собирать экспертов из Европы и Азии на новой европейской площадке. На различных секциях конференции выступят представители компаний ING, Intel, Tata Consultancy Services, The Glue, Redis Labs, ScaleOut Software и WSO2.

У меня есть несколько бесплатных билетов, которыми я с удовольствием поделюсь с вами.
Напишите мне на почту mkuznetsov@gridgain.com или в личные сообщения на Хабре. От вас — ФИО и название компании на английском языке, адрес электронной почты и мобильный телефон.

Приезжайте, будет круто!

7 кейсов использования технологий Big Data в сфере производства

Время на прочтение5 мин
Количество просмотров17K
Хабр, привет! На сегодняшний день технологии Big Data нашли свое применение практически в любых отраслях: ритейл, банкинг, здравоохранение, и, в свою очередь, сфера производства не стала исключением. Оптимизация производственной цепочки, выявление дефектов и контроль качества продукции, улучшение удобства использования продукта на основе поведения потребителей – неполный список результатов, которых можно достичь в производственной сфере благодаря Big Data. Рассмотрим несколько кейсов зарубежных и отечественных компаний, внедривших технологии больших данных в свою деятельность.
Читать дальше →

Обзор буткэмпов в области data science за рубежом

Время на прочтение3 мин
Количество просмотров5K
Хабр, привет. Последнее время в мире образования стали пользоваться популярностью, так называемые, bootcamps. Например, по этой ссылке неплохо описано, что такое bootcamp в области программирования и чем это отличается от привычных образовательных программ в университетах.

Буткэмп — это техническая образовательная программа, которая направлена на то, чтобы научить участников наиболее релевантным рынку навыкам. Это позволяет участникам с небольшим опытом в программировании сфокусироваться на тех аспектах программирования, которые можно применить здесь и сейчас для решения реальных проблем.

Мы решили сосредоточиться и подготовить обзор нескольких буткэмпов за рубежом в области data science, являющихся наиболее известными и находящихся на рынке уже несколько лет.
Читать дальше →

Data Science Weekend 3-4 марта

Время на прочтение1 мин
Количество просмотров2.6K
Хабр, привет! Приглашаем на Data Science Weekend 2017, который пройдет в Москве, на площадке Deworkacy, 3 и 4 марта.


Читать дальше →

Анализ звонков в колл-центры

Время на прочтение3 мин
Количество просмотров7.2K
Для проверки технологии я записал несколько обращений в разные колл-центры. Дальше они будут фигурировать под кодовыми названиями: water, mosenergo, rigla, transaero и worldclass.


Первым делом нужно разбить запись на реплики...

Интернет вещей – миф или реальность?

Время на прочтение4 мин
Количество просмотров6.3K
Интернет вещей (Internet of Things, или коротко – IOT) – это та тема, которая обсуждается сейчас повсеместно. Большая дискуссия, посвященная Интернету вещей, проходила в Сколково на Форуме Startup Village-2015. А на Дне Совместных Инноваций, который SAP проводил для компаний-разработчиков ПО, эта тема была одной из ключевых.

image

Читать дальше →

Сериал: Big Data — как мечта. 9-я серия: Почему IBM был вынужден купить «Алхимиков» за $100млн

Время на прочтение4 мин
Количество просмотров3.9K
В предыдущих сериях: Big Data — это не просто много данных. Big Data — процесс с положительной обратной связью. «Кнопка Обамы» как воплощение rtBD&A. Философия развития Big Data. В этой серии поговорим о лингво-аналитике высокоскоростных потоков неструктурированных текстов и сообщений соцмедиа и представим «Эврику» — наш ответ «Алхимикам».

Интернет, в своем нынешнем восприятии обществом, это связанный набор сообщений: личной переписки в мессенджерах, ссылки между статьями в СМИ, обсуждений в блогах, игровые чаты, тематические сериалы на Хабре, или, как преобразилось в мировоззрении новых поколений — ссылки на ответы поисковика после набора запроса «Чем сегодня заняться?»

Если приглядеться, то основа основ: Связи и Тематики. Про аналитику «связей» говорить не будем (это к АНБ, на чьи возможности по электронной слежке сегодня отказался покушаться даже «всемогущий Сенат США»). А вот Тематическая аналитика (что недавно получило свое название — Brand Analytics — в пресс-релизе между Facebook и DataSift, а в России существует уже 3 года в виде названия проекта) и связанные с ней разнообразные вкусности — прекрасная тема (! :-) ) для новой серии.
Читать дальше →

Вклад авторов