Как стать автором
Поиск
Написать публикацию
Обновить
106.18

Big Data *

Большие данные и всё о них

Сначала показывать
Порог рейтинга
Уровень сложности

Обзор наиболее интересных материалов по анализу данных и машинному обучению №20 (27 октября — 2 ноября 2014)

Время на прочтение4 мин
Количество просмотров13K

Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
Читать дальше →

Парные товары. Размещения товаров в торговом зале

Время на прочтение2 мин
Количество просмотров23K


В этом небольшом и простом кейсе мы расскажем, что такое парные товары, и как с помощью ассоциативных взаимосвязей увеличить доходность бизнеса.

Итак, Пары — это товары, часто покупаемые вместе. В паре один товар является ключевым (якорным), а второй — сопутствующим. On-line сервис Datawiz.io выявляет парные взаимосвязи товаров при помощи алгоритма APRIORI.
Читать дальше →

Московский Big Data-хакатон 15-16 ноября

Время на прочтение1 мин
Количество просмотров6.6K


Big Data продвигается как тренд нового века. Были СУБД для хранения данных, инструменты обработки; со временем же стало понятно, что «не справляемся», и сейчас мы имеем в руках целый веер средств для обработки и анализа данных. И мы решили сделать хакатон. Hadoop? Мы вам рады. Другое? Не проблема. Хотите узнать, что у нас есть интересного? Регистрируйтесь и приходите 15-16 ноября в Коворкинг 2.0 «Свободное плавание» (Москва), только не забудьте принести нужное.
 
Мы же позвали знатных докладчиков рассказать про:

* Azure/Server HDInsight. Совместимо с Hadoop.
* PowerBI (Excel)
* SQL Server и др.

Так что, пока будет пилиться код (в т.ч. по спецноминации от партнеров), можно послушать доклады и пообщаться со специалистами. Приходите — будет хорошо.

Обзор наиболее интересных материалов по анализу данных и машинному обучению №19 (20 — 26 октября 2014)

Время на прочтение5 мин
Количество просмотров14K

Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
Читать дальше →

Как колебания в продажах влияют на оборот?

Время на прочтение3 мин
Количество просмотров14K


Данная публикация — это реальный кейс от Datawiz.io, в котором мы расскажем, как найти товары и категории с большими колебаниями продаж, и как колебания продаж влияют на поведение клиентов.

Производя анализ данных для торговой сети, мы столкнулись с проблемой: при почти равных количествах продаж в день в двух магазинах сети, оборот в одном магазине «Shop1» увеличивался, а в магазине «Shop2» — снижался.
Читать дальше →

IBM анонсирует новые проекты внедрения технологий Watson и открытие штаб-квартиры Watson Group в Нью-Йорке

Время на прочтение8 мин
Количество просмотров9.1K


Компания IBM анонсировала новые проекты по использованию возможностей IBM Watson и когнитивных вычислительных технологий. IBM Watson – инновационная платформа, которая лежит в основе новой эры вычислений благодаря способности понимать естественные языки, а также обрабатывать огромные массивы больших данных с целью извлечения ценной информации и дальнейшего самообучения.

Читать дальше →

Конференция HDConf: фото-видео-слайд отчет

Время на прочтение2 мин
Количество просмотров3.7K
4 октября в Минске прошла конференция Highload Dev Conf. На HDConf собралось около 380 разработчиков, а рассказать как справляются с нагрузками приехали докладчики из компаний Одноклассники, Amazon, Altoros, Wargaming, Coub, Aviasales, Badoo и др.

Чтобы не грузить деталями, выкладываем сразу несколько фотографий с конференции и афтепати, видео одного из лучших докладов и слайды презентаций, которые участники конференции выделили как наиболее интересные.
Читать дальше →

Dell Solutions Forum 2014: регистрация открыта

Время на прочтение2 мин
Количество просмотров2.7K
Уважаемые коллеги!
Мы рады сообщить вам, что уже совсем скоро состоится наш Форум решений Dell 2014! Это мероприятие пройдет в Москве уже в третий раз и мы можем, пусть пока и осторожно, назвать его традиционным. Как и в прошлом году, местом нашей встречи выбрана гостиница «Рэдиссон САС Славянская», датой — 14 ноября (это пятница), и мы приглашаем всех желающих принять в нем участие.



Что ждет участников Форума в этом году и как на него попасть

О Nutanix, Web-Scale, конвергентных платформах и смене парадигм построения IT инфраструктур

Время на прочтение7 мин
Количество просмотров21K
Возможно, вы уже слышали достаточно новый для рынка не_онлайн проектов термин — Web-Scale IT, который по мнению Gartner в 2017 году займет не менее 50% рынка корпоративного IT.

В этом году — это один из основных модных терминов.

Ситуация на корпоративных рынках сейчас активно напоминает фразу про подростковый секс — все говорят что имели (= умеют), но реально — дела обстоят невесело.

Буквально каждый вендор рассказывает про BigData, конвергентные решения, перспективы и прочее.

Мы в свою очередь смеем надеяться, что у нас с этим реально все весьма неплохо, но тут всегда виднее со стороны и ваше мнение может не совпадать с нашим.

Все же попробуем рассказать о том, как мы пытаемся изменить рынок, который в ближайшее время будет составлять десятки миллиардов долларов ежегодно и почему мы считаем что время традиционных решений для хранения и обработки данных подходит к своему закату.

image

Читать дальше →

Закон Бенфорда и распределения под него попадающие

Время на прочтение6 мин
Количество просмотров53K

В теории вероятностей и статистике правило первой цифры, или закон Бенфорда, показывает любопытное проявления частот первой цифры данных из реальной жизни. Для школьников и домохозяек этот закон можно вольно сформулировать так: есть наборы данных, у которых первая цифра будет единицей примерно в 6 раз чаще, чем девятка и это соотношение не изменится при масштабировании исходного набора. Более строго можно сформулировать так: набор чисел удовлетворяет закону Бенфорда, если первая цифра d появляется с вероятностью


Здесь N – основание системы счисления, должно быть больше 2, далее будем рассматривать 10.
Для строгих математиков это правило формулируется так: существуют такие случайные величины, для которых распределение вероятностей дробной части логарифма по любому основанию большему 1 сходится к равномерному на отрезке [0; 1] распределению. Далее я постараюсь писать как можно популярнее и подробнее, укажу примеры, ограничения, применение и случайные величины, для которых закон применим.
Подробности

Обзор наиболее интересных материалов по анализу данных и машинному обучению №18 (13 — 19 октября 2014)

Время на прочтение5 мин
Количество просмотров16K

Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
Читать дальше →

Hadoop: что, где и зачем

Время на прочтение14 мин
Количество просмотров496K


Развеиваем страхи, ликвидируем безграмотность и уничтожаем мифы про железнорождённого слона. Под катом обзор экосистемы Hadoop-а, тенденции развития и немного личного мнения.
Читать дальше →

Вышел Python Tools 2.1 для Visual Studio

Время на прочтение3 мин
Количество просмотров31K
Окончательная версия Python Tools 2.1 для Visual Studio (PTVS) доступна для загрузки! PTVS работает с Visual Studio 2010, 2012 и 2013. Помимо перечисленных ниже новых возможностей, в PTVS 2.1 также добавлена поддержка бесплатных версий Visual Studio Express for Web и Express for Windows Desktop. Разумеется, по-прежнему поддерживаются все полные версии Visual Studio, от Professional и выше.

Веб-разработка на Python в Visual Studio


Веб-разработка является основной темой данного релиза. Теперь в PTVS можно удобно создавать сайты на Django, Bottle и Flask, как с нуля, так и с использованием стартовых шаблонов проектов. Все созданные таким образом сайты можно в один клик опубликовать на веб-сайт Azure.


Читать дальше →

Ближайшие события

Как выявить потери в продажах

Время на прочтение3 мин
Количество просмотров16K


Пример анализа данных на основе продуктового магазина от Datawiz.io.

Эта статья о том, как выявить потери в продажах. Потери в продажах — это дни, когда товар не продавался, или было продано аномально низкое количество единиц товара.

Зачастую потери в продажах случаются из-за недостаточного количества заказанного товара. Также часто товар, имеющийся на складе, не выставляется на полки. Ежедневный анализ данных помогает своевременно обнаружить такой «провал» в продажах. Далее, устраняем проблему — контролируем работу отдела закупок, оптимизируем поставки, контролируем работу торгового персонала.

Читать дальше →

Обзор наиболее интересных материалов по анализу данных и машинному обучению №17 (6 — 12 октября 2014)

Время на прочтение5 мин
Количество просмотров12K

Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
Читать дальше →

DataTalks: Анализ данных для решения бизнес-задач

Время на прочтение2 мин
Количество просмотров9.5K
25 октября в Минске пройдет первая встреча DataTalks.

image

DataTalks – это:
• Неформальные встречи бизнес-аналитиков и специалистов в области анализа данных
• Профессиональное общение и нетворкинг с экспертами Беларуси и СНГ
• Возможность узнать о новейшем опыте применения аналитики данных для решения бизнес-задач в компаниях, работающих на мировом и местном рынках
• Хороший повод задать вопросы экспертам и поделиться собственным опытом.

Для кого? Бизнес-аналитиков, исследователей, менеджеров проектов, информационных архитекторов и системных аналитиков. DataTalks – для всех, кто использует или собирается использовать в своей работе анализ данных или сложные математические алгоритмы, как для отчетности и принятия решений, так и для создания информационных систем.

Первая встреча, по сути, знакомство, будет посвящена выявлению интересных тем в области практического применения анализа данных. Они лягут в основу последующих встреч сообщества аналитиков
Читать дальше →

Обзор наиболее интересных материалов по анализу данных и машинному обучению №16 (29 сентября — 5 октября 2014)

Время на прочтение5 мин
Количество просмотров12K

Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
Читать дальше →

Обзор наиболее интересных материалов по анализу данных и машинному обучению №15 (22 — 28 сентября 2014)

Время на прочтение6 мин
Количество просмотров12K

Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
Читать дальше →

IBM Watson становится ближе к бизнесу и обычным пользователям

Время на прочтение4 мин
Количество просмотров8.2K


Компания IBM представляет Watson Analytics – инновационный когнитивный сервис, способный понимать естественные языки, который предоставляет непрерывный доступ к мощным средствам предиктивной и визуальной аналитики. Согласно данным исследований, лишь небольшая часть бизнес-пользователей использует средства аналитики с целью принятия решений. В свою очередь, сервис Watson Analytics предоставляет возможность упрощенной и удобной работы со средствами предиктивной аналитики любым категориям пользователей.

Первая версия Watson Analytics будет представлять собой условно-бесплатный сервис, совместимый с настольными ПК и мобильными устройствами. Watson Analytics предлагает полный спектр инструментов аналитики, включая организацию удобного доступа к сервисам уточнения и хранения данных, позволяя, таким образом, собирать информацию и готовить отчеты в сложных форматах для последующего анализа и визуализации, а также принятия решений и взаимодействия.

Читать дальше →

Cybercortex. Система расширенного восприятия и мышления

Время на прочтение4 мин
Количество просмотров5.1K
Добрый день!

Cybercortex.org — open source проект. Находится на этапе старта и видится как возможность сконцентрировать и скоординировать усилия компаний и разработчиков для решения задач по развитию интеллекта человека. Для внедрения в быт новых форм усиления мышления и ускорения продуктивной коммуникации. Поэтому все, кто так или иначе заинтересован в вопросе, приглашаются к сотрудничеству.

Ниже представлено описание первого модуля алгоритма Cybermean, «ядра» Cybercortex. Если описанная ниже логика будет представляться хабравчанам адекватной, то можно было бы продолжить описание и обсуждение модулей Cybermean и Cybercortex в целом. Также, в конце поста, помимо логики первого модуля, приводится изображение связи интерфейсов в рамках Cybercortex, в качестве дополнительного наглядного материала, характеризующего тематику проекта.

image

Читать дальше →

Вклад авторов