Как стать автором

Big Data *

Большие данные и всё о них

СтатьиПостыНовостиАвторыКомпании

chizh_andrey 20 окт 2015 в 09:44

Redis и проблема больших данных

4 мин

36K

Блог компании Retail RocketBig Data*MongoDB*Веб-разработка*

in memory db

Привет, Хабр! Мы продолжаем делиться технологической кухней Retail Rocket. В сегодняшней статье мы разберем вопрос выбора БД для хранения больших и часто обновляемых данных.

На самом начальном этапе разработки платформы перед нами возникли следующие задачи:

Хранить у себя товарные базы магазинов (т.е. сведения о каждом товаре всех подключенных в нашу платформу магазинов с полным обновлением 25 млн. товарных позиций каждые 3 часа).
Хранить рекомендации для каждого товара (около 100 млн. товаров содержит от 20 и более рекомендуемых товаров для каждого ключа).
Обеспечение стабильно быстрой выдачи таких данных по запросу.

Читать дальше →

+17

limitium 19 окт 2015 в 10:17

Big data, билайн и кококо

3 мин

32K

Big Data*Microsoft Azure*Python*

Пару дней назад, случайно зайдя на Хабр без адблока, я увидел баннер: ”Билайн, будь мужиком — реши шайтан-задачу”. Челендж звучал интересно, определить возраст по набору таких параметров, как регион, тарифный план и т.д.

Читать дальше →

+7

IBS_habrablog 16 окт 2015 в 11:54

Освоение специальности Data Science на Coursera: личный опыт (ч.2)

8 мин

29K

Блог компании IBSBig Data*Data Mining*Алгоритмы*Программирование*

Мы публикуем вторую часть поста Владимира Подольского vpodolskiy, аналитика в департаменте по работе с образованием IBS, который закончил обучение по специализации Data Science на Coursera. Это набор из 9 курсеровских курсов от Университета Джонса Хопкинса + дипломная работа, успешное завершение которых дает право на сертификат.

Читайте в первой части: О специальности Data Science в общих чертах. Курсы: Инструменты анализа данных (программирование на R); Предварительная обработка данных; Документирование процесса обработки данных.

Часть 2

Читать дальше →

+12

kapustor 13 окт 2015 в 08:09

Greenplum DB

17 мин

204K

Блог компании Т-БанкBig Data*PostgreSQL*

Продолжаем цикл статей о технологиях, использующихся в работе хранилища данных (Data Warehouse, DWH) нашего банка. В этой статье я постараюсь кратко и немного поверхностно рассказать о Greenplum — СУБД, основанной на postgreSQL, и являющейся ядром нашего DWH. В статье не будут приводиться логи установки, конфиги и прочее — и без этого заметка получилась достаточно объёмной. Вместо этого я расскажу про общую архитектуру СУБД, способы хранения и заливки данных, бекапы, а также перечислю несколько проблем, с которыми мы столкнулись в ходе эксплуатации.

Немного о наших инсталляциях:

проект живёт у нас чуть больше двух лет;
4 контура от 10 до 26 машин;
размер БД около 30 Тб;
в БД около 10000 таблиц;
до 700 queries per second.

За тем, как оно работает, прошу под кат!

Читать дальше →

+15

nzhiltsov 12 окт 2015 в 11:59

Хакатон Big Data for Business: начните свой технологичный стартап

4 мин

5.4K

Блог компании TextocatBig Data*Data Mining*

Приглашаем разработчиков, аналитиков, маркетологов, дизайнеров, менеджеров по продукту и бизнес-ангелов на хакатон Big Data for Business – двухдневное командное соревнование по разработке программных продуктов, решающих проблемы бизнеса через анализ данных. Хакатон пройдет 18-19 ноября в казанском ИТ-парке. Спонсоры мероприятия — компании EMC и Brocade. Партнеры — Textocat, DGL, Provectus и Бизнес-инкубатор ИТ-парка г. Казань. Призовой фонд — 150 000 рублей.

Приняв участие в хакатоне Big Data for Business, вы сможете:

найти команду единомышленников,
придумать классную бизнес-идею, реализовать и улучшить ее с ведущими экспертами,
получить признание,
выиграть ценные призы,
перенять опыт в технологической сфере и принципах упаковки продукта,
сделать первый шаг в сторону своего стартапа на основе технологий анализа данных
познакомиться с перспективными продуктовыми командами в области Big Data.

Далее мы расскажем о ключевых особенностях нашего мероприятия.

Читать дальше →

+6

IBS_habrablog 9 окт 2015 в 12:17

Освоение специальности Data Science на Coursera: личный опыт (ч.1)

9 мин

72K

Блог компании IBSПрограммирование*Алгоритмы*Data Mining*Big Data*

Недавно Владимир Подольский vpodolskiy, аналитик в департаменте по работе с образованием IBS, закончил обучение по специализации Data Science на Coursera. Это набор из 9 курсеровских курсов от Университета Джонса Хопкинса + дипломная работа, успешное завершение которых дает право на сертификат. Для нашего блога на Хабре он написал подробный пост о своей учебе. Для удобства мы разбили его на 2 части. Добавим, что Владимир стал еще и редактором проекта по переводу специализации Data Science на русский язык, который весной запустили IBS и ABBYY LS.

Часть 1. О специальности Data Science в общих чертах. Курсы: Инструменты анализа данных (программирование на R); Предварительная обработка данных; Документирование процесса обработки данных.

Привет, Хабр!

Не так давно закончился мой 7-месячный марафон по освоению специализации «Наука о данных» (Data Science) на Coursera. Организационные стороны освоения специальности очень точно описаны тут. В своём посте я поделюсь впечатлениями от контента курсов. Надеюсь, после прочтения этой заметки каждый сможет сделать для себя выводы о том, стоит ли тратить время на получение знаний по аналитике данных или нет.

Читать дальше →

+28

Блог компании КРОК 8 октября 2015

Двенадцатый ежегодный деловой форум «IT-Лидер»

Big Data

Конференций много – это факт. Разнообразных выставок, отраслевых встреч и обсуждений, форумов с именитыми гостями и деловых премий в двух столичных городах – на любой вкус. Но мы хотим сейчас рассказать об одном особенном мероприятии, проходящем в этом году уже двенадцатый раз – ежегодном деловом форуме «IT-ЛИДЕР». Организаторы мероприятия - Ассоциация Менеджеров России, информационный ресурс ibusiness, Ъ-iOne и КоммерсантЪ Деньги, деловой ИТ-журнал Intelligent Enterprise и компания КРОК, крупный системный интегратор, работающий в широком спектре индустрий.

Читать далее

+12

saul 8 окт 2015 в 11:35

Приглашаем на Media Hack Weekend. 16-18 октября, Киев

1 мин

2.9K

Блог компании IntelВеб-разработка*Разработка игр*Big Data*

16-18 октября в рамках проекта Future Media Lab состоится самый масштабный хакатон на территории Украины – Media Hack Weekend. Около 400 талантливых специалистов, экспертов и предпринимателей соберутся, чтобы решить, как будут выглядеть медиа будущего. Среди направлений хакатона: большие данные, виртуальная и дополненная реальность, электронная коммерция, трансмедийный сторителлинг, дизайн и разработка приложений, создание игрового контента и многое другое.
Эксперты из компании Intel также будут присутствовать на мероприятии. Они ответят на ваши вопросы по технологиям Intel, дадут консультацию по дальнейшему развитию вашего продукта. Воспользуйтесь своим шансом начать успешный проект с грамотных советов специалистов Intel!
Зарегистрироваться на Хакатон.

+14

SECL 8 окт 2015 в 11:27

Тренды мирового e-commerce рынка в 2015-2016 годах

7 мин

23K

Блог компании SECL GroupBig Data*Веб-разработка*Разработка под e-commerce*

Рынок электронной коммерции и в мире и в рунете очень активно развивается, не смотря на кризисы и другие негативные явления. В мире в год средние темпы роста по данным eMarketer составляют около 18-20% в год, в России и Украине темпы роста доходят до 17-18%. Это примерно 3-4% от общего ритейла в России (в Украине чуть меньше, рынок развит меньше и сейчас глубокий кризис) и до 10-12% в США и других развитых странах. Средний уровень в мире составляет примерно 6%. Единственное исключение, в прошлом году в Украине из-за глубокого экономического кризиса рынок не вырос в долларовом эквиваленте, но для местных компаний это шанс нагнать упущенное раньше. Самое интересное, что мы все еще находимся в стадии зарождения рынка. По многим прогнозам доля электронной коммерции в общем ритейле достигнет 20% в ближайшие несколько лет. Для компаний данного сектора игнорирование этого рынка сегодня равносильно смерти завтра.

Интересен также и тот факт, что многие крупнейшие игроки электронной коммерции в США имеют оффлайн-корни, а США – это некая лакмусовая бумажка, катализатор рынка, который нам показывает, что произойдет на наших рынках в этом же сегменте через 3-5 лет. Этому уже есть подтверждение: в России ряд крупных интернет-магазинов уже давно принадлежат крупным оффлайн-сетям и поглощения продолжаются. В Украине с этим сложнее, хотя это процесс активно идет, так несколько месяцев назад компания «Фокстрот» выкупила 100% интернет-магазина Sokol.ua

Mobile commerce

Читать дальше →

+11

jinxu 7 окт 2015 в 09:25

Ищем стабильность в ритейле, XYZ–анализ ассортимента

7 мин

53K

Блог компании datawiz.ioBig Data*Алгоритмы*Визуализация данных*

XYZ–анализ — одна из форм анализа товарного ассортимента магазина, сети или отдельной товарной группы в ритейле.

XYZ–анализ определяет стабильность продаж товара за определенный период. Полезен для управления ассортиментом и поставками товаров, организации работы с поставщиками. Результаты позволяют разделить товары по категориям и выделить для них место на складе, уровень запасов и организацию доставки.

Как отдельный метод анализа в ритейле XYZ используется не так уж часто, чаще его можно встретить как совмещенный с АВС анализом.
Но, в любом случае, как метод для принятия решений по управлению ассортиментом товарной группы или магазина может принести несомненную пользу.

Начнем с рассмотрения его особенностей и возможностей применения.

Читать дальше →

+9

couatl 7 окт 2015 в 08:45

Две задачи HeadHunter на Data Science Week: попробуйте решить сами

5 мин

33K

Big Data*Машинное обучение*

В конце августа после серии бесплатных лекций на Data Science Week 2015, организаторы решили провести двухдневный дататон (datathon) – соревнование, где команды программистов и аналитиков решали бизнес-задачи из области Data Science.

На дататоне было три задачи, две из которых подготовила команда HeadHunter и одну компания OZON. Это было, сразу скажу, не самым простым заданием, потому как большая часть наших данных конфиденциальна. Никто не захочет, чтобы программисты и аналитики упражнялись на реальных резюме или закрытых данных по вакансиям. Но кое-что мы все же собрали. Для проверки результатов организаторы придумали метрики и написали чекеры. А победили на дататоне эти ребята:

Прямо здесь и сейчас я предлагаю вам испытать свои силы и решить три задачи, с которыми ребята бились на дататоне. Чекеры для проверки и все файлы прилагаю.

Читать дальше →

+29

m31 6 окт 2015 в 09:31

AI, BigData & HPC Digest #2

2 мин

6.6K

Блог компании FlyElephantBig Data*R*Высоконагруженные системы*Машинное обучение*

Привет, Хабр!

После короткого перерыва, наша команда FlyElephant возобновляет публикацию дайджеста включающего в себя подборку ссылок на новости и материалы по направлениям: искусственный интеллект, большие данные и высокопроизводительные вычисления. Также мы сейчас проводим опрос среди ученых, в котором просим ответить на пару вопросов связанных с их процессом проведения исследований. Будем благодарны всем за участие в опросе и приятного чтения материалов свежего дайджеста!

Читать дальше →

+14

asash 5 окт 2015 в 16:10

Big Data от А до Я. Часть 2: Hadoop

9 мин

237K

Блог компании DCA (Data-Centric Alliance)Big Data*Hadoop*

Туториал

Привет, Хабр! В предыдущей статье мы рассмотрели парадигму параллельных вычислений MapReduce. В этой статье мы перейдём от теории к практике и рассмотрим Hadoop – мощный инструментарий для работы с большими данными от Apache foundation.

В статье описано, какие инструменты и средства включает в себя Hadoop, каким образом установить Hadoop у себя, приведены инструкции и примеры разработки MapReduce-программ под Hadoop.

Читать дальше →

+32

1cloud 2 окт 2015 в 14:00

Файловая система и Hadoop: Опыт Twitter (Часть 2)

2 мин

9.7K

Блог компании 1cloud.ruРазработка под e-commerce*Разработка мобильных приложений*Hadoop*Big Data*

Наш основной принцип работы заключается в том, что IaaS должен быть простым и понятным даже для тех, кто не сталкивался с ИТ-сферой. Поэтому мы проводим постоянную оптимизацию всех систем и рассказываем о том, что нам удалось сделать, в нашем блоге на Хабре.

Пара примеров:

Сегодня мы решили продолжить краткий разбор заметки команды инженеров Twitter о создании файловой системы для работы с кластерами Hadoop.

Читать дальше →

+8

nodir 1 окт 2015 в 23:55

Рекомендательная система на .Net или первые шаги с MyMediaLite

6 мин

18K

.NET*Big Data*C#*Python*Машинное обучение*

Попробуй выбери, какая их них лучше? :)

Пошел я как-то на курсы по BigData, по рекомендации друзей и мне посчастливилось поучаствовать в соревновании. Не буду рассказывать об обучении на курсе, а расскажу о библиотеке MyMediaLite на .Net и о том, как я ее использовал.

Читать дальше →

+9

1cloud 1 окт 2015 в 13:01

Файловая система и Hadoop: Опыт Twitter (Часть 1)

2 мин

12K

Блог компании 1cloud.ruРазработка под e-commerce*Разработка мобильных приложений*Hadoop*Big Data*

Наш основной принцип работы заключается в том, что IaaS должен быть простым и понятным даже для тех, кто не сталкивался с ИТ-сферой. Поэтому мы проводим постоянную оптимизацию всех систем и рассказываем о том, что нам удалось сделать, в нашем блоге на Хабре.

Пара примеров:

Сегодня мы решили взглянуть на западный опыт и кратко проанализировать заметку команды инженеров Twitter, в которой они рассказали о своем подходе к работе с файловой системой для кластеров Hadoop.

Читать дальше →

+11

shamim 30 сен 2015 в 13:05

Переход из SQL на NoSQL: опыт проекта СМЭВ 2.0

4 мин

36K

Блог компании AT ConsultingSQL*NoSQL*Big Data*

В последние годы NoSQL и BigData стали очень популярными в ИТ-индустрии, и на базе NoSQL успешно реализованы тысячи проектов. Часто на разных конференциях и форумах слушатели задают вопрос о том, как модернизировать или перенести старые системы (legacy) в NoSQL. К счастью, у нас был опыт перехода из SQL на NoSQL в крупном проекте СМЭВ 2.0, о котором я и расскажу под катом.

Читать дальше →

+16

atmyzone 28 сен 2015 в 06:59

Big Data vs Data Mining

5 мин

33K

Из песочницы

В последнее время очень часто, как внутри команды, так и снаружи ее, я часто встречаю разное толкование понятий “Big Data” и “Data Mining”. Из-за этого растет непонимание между Исполнителем и Заказчиком относительно предлагаемых технологий и желаемого результата для обеих сторон.
Положение усугубляет отсутствие четких определений от какого-то общепринятого стандартизатора, а также разный порядок стоимости работ в глазах потенциального покупателя.

На рынке сложилось мнение, что “Data mining” — это когда Исполнителю отгрузили дамп, он там нашел пару трендов, сгенерил отчет и получил свой миллион рублей. С “Big Data” все гораздо интереснее. Люди думают, что это нечто из черной магии, а магия стоит дорого.

Целями данной статьи являются доказательство отсутствия существенных различий между толкованием данных понятий, а также разъяснение основных темных пятен в понимании предмета.

Читать дальше →

+5

tsafin 25 сен 2015 в 11:38

Утилиты командной строки могут быть в 235-раз быстрее вашего Hadoop кластера

7 мин

46K

Высоконагруженные системы*Алгоритмы*Hadoop*Big Data*

Перевод

Примечания tsafin:

Перед публикацией своего цикла статей по MapReduce в Caché, мне показалось важным озвучить данную прошлогоднюю точку зрения из статьи Адама Дрейка «Command-line tools can be 235x faster than your Hadoop cluster». К сожалению оригинальная статья Тома Хайдена, на которую он ссылается стала уже недоступна на сайте Тома, но её, по-прежнему, можно найти в архивах. Для полноты картины предлагаю ознакомиться и с ней тоже.

Введение

Посещая в очередной раз свои любимые сайты, я нашел крутую статью Тома Хайдена об использовании Amazon Elastic Map Reduce (EMR) и mrjob для вычисления статистики отношения выигрыш/проигрыш в наборе данных со статистикой по шахматным матчам, которую он скачал с сайта millionbase archive, и c которой он начал играться используя EMR. Так как объем данных был всего 1.75GB, описывающий 2 миллиона шахматных партий, то я скептически отнесся к использованию Hadoop для данной задачи, хотя были и понятны его намерения просто поиграться и изучить плотнее, на реальном примере, утилиту mrjob и инфраструктуру EMR.

Читать дальше →

+62

DellTechTeam 24 сен 2015 в 14:25

Dell Solutions Forum 2015: регистрация открыта

3 мин

2K

Блог компании Dell TechnologiesBig Data*Информационная безопасность*

Уважаемые коллеги!
Мы рады сообщить вам, что через месяц, 21 октября, в Москве уже в четвертый раз пройдет Форум решений Dell! Местом нашей встречи снова станет «Рэдиссон Славянская», и мы приглашаем всех желающих принять в ней участие.

Что ждет участников Форума в этом году и как на него попасть

+2

1 2 ...

174

175 176 ...